Python网络爬虫编写1-读取网页内容

# coding=utf-8
”’
to get the content of page
urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。
这意味着,你不可以伪装你的User Agent字符串等
urllib提供urlencode方法用来GET查询字符串的产生,而urllib2没有。
这是为何urllib常和urllib2一起使用的原因。
”’

import urllib2

url = ‘http://www.zengyuetian.com/’ # 你要爬取的网页地址
req = urllib2.Request(url)
response = urllib2.urlopen(req)
the_page = response.read()

print the_page