初识爬虫

分类： crawler

TTyb 2017-05-09 209

开始教程之前需要安装 Python ，本人所用的 Python 的版本是 Python3.4.4 ，直达下载链接：

Python3.4.4

Python 又是一个强制缩进的语言，所以一款好的 IDE 是必不可少的，直达下载链接：

Pycharm

安装的教程可以看下博客：

pycharm基本设置

完事具备后，打开 IDE ：

1. `Create New Project`

2. 设置工程目录 -> `Create`

3. 右键 `Python File`

4.简单爬虫

导入爬虫库：

import urllib.request

设置需要爬取的网页 url :

url = "http://www.tybai.com"

获取全部网页并打印出来：

html_bytes = urllib.request.urlopen(url).read()
print(html_bytes)

得到的结果：

现在得到的结果还是 byte 形式，将其转化为 UTF-8 的形式：

html = html_bytes.decode("UTF-8")

就这样，一个很简单的爬虫就那么实现了！

练习

如何抓取百度首页并将其正确编码打印出来

源码

crawler1.py

answer1.py

本文地址：http://www.tybai.com/crawler/1_%E5%88%9D%E8%AF%86%E7%88%AC%E8%99%AB.html，来源于[TTyb]，欢迎转载，转载请注明出处。

如果你觉得本站内容有帮助

我要请作者喝杯咖啡

感谢您的支持，我会继续努力的!

扫码打赏一下，你说多少就多少

打开微信扫一扫，即可进行扫码打赏哦

目录

初识爬虫

TTyb 2017-05-09 209

1. `Create New Project`

2. 设置工程目录 -> `Create`

3. 右键 `Python File`

4.简单爬虫

练习

源码

如果你觉得本站内容有帮助

Fork me on Github

无聊就想打码打码使我快乐

网站导航

目录

初识爬虫

TTyb 2017-05-09 209

1. Create New Project

2. 设置工程目录 -> Create

3. 右键 Python File

4.简单爬虫

练习

源码

如果你觉得本站内容有帮助

Fork me on Github

无聊就想打码 打码使我快乐

网站导航

1. `Create New Project`

2. 设置工程目录 -> `Create`

3. 右键 `Python File`

无聊就想打码打码使我快乐