开始教程之前需要安装 Python ,本人所用的 Python 的版本是 Python3.4.4 ,直达下载链接:
Python 又是一个强制缩进的语言,所以一款好的 IDE 是必不可少的,直达下载链接:
安装的教程可以看下博客:
完事具备后,打开 IDE :
Create New Project
Create
Python File
导入爬虫库:
import urllib.request
设置需要爬取的网页 url :
url = "http://www.tybai.com"
获取全部网页并打印出来:
html_bytes = urllib.request.urlopen(url).read()
print(html_bytes)
得到的结果:

现在得到的结果还是 byte 形式,将其转化为 UTF-8 的形式:
html = html_bytes.decode("UTF-8")

就这样,一个很简单的爬虫就那么实现了!
如何抓取百度首页并将其正确编码打印出来