图书介绍
精通Scrapy网络爬虫PDF|Epub|txt|kindle电子书版本网盘下载
![精通Scrapy网络爬虫](https://www.shukui.net/cover/57/30462079.jpg)
- 刘硕编著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302484936
- 出版时间:2017
- 标注页数:224页
- 文件大小:24MB
- 文件页数:233页
- 主题词:软件工具-程序设计
PDF下载
下载说明
精通Scrapy网络爬虫PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 初识Scrapy1
1.1 网络爬虫是什么1
1.2 Scrapy简介及安装2
1.3 编写第一个Scrapy爬虫3
1.3.1 项目需求4
1.3.2 创建项目4
1.3.3 分析页面5
1.3.4 实现Spider6
1.3.5 运行爬虫8
1.4 本章小结11
第2章 编写Spider12
2.1 Scrapy框架结构及工作原理12
2.2 Request和Response对象14
2.2.1 Request对象15
2.2.2 Response对象16
2.3 Spider开发流程18
2.3.1 继承scrapy.Spider19
2.3.2 为Spider命名20
2.3.3 设定起始爬取点20
2.3.4 实现页面解析函数22
2.4 本章小结22
第3章 使用Selector提取数据23
3.1 Selector对象23
3.1.1 创建对象24
3.1.2 选中数据25
3.1.3 提取数据26
3.2 Response内置Selector28
3.3 XPath29
3.3.1 基础语法30
3.3.2 常用函数35
3.4 CSS选择器36
3.5 本章小结40
第4章 使用Item封装数据41
4.1 Item和Field42
4.2 拓展Item子类44
4.3 Field元数据44
4.4 本章小结47
第5章 使用Item Pipeline处理数据48
5.1 Item Pipeline48
5.1.1 实现Item Pipeline49
5.1.2 启用Item Pipeline50
5.2 更多例子51
5.2.1 过滤重复数据51
5.2.2 将数据存入MongoDB54
5.3 本章小结57
第6章 使用LinkExtractor提取链接58
6.1 使用LinkExtractor59
6.2 描述提取规则60
6.3 本章小结65
第7章 使用Exporter导出数据66
7.1 指定如何导出数据67
7.1.1 命令行参数67
7.1.2 配置文件69
7.2 添加导出数据格式70
7.2.1 源码参考70
7.2.2 实现Exporter72
7.3 本章小结74
第8章 项目练习75
8.1 项目需求77
8.2 页面分析77
8.3 编码实现83
8.4 本章小结88
第9章 下载文件和图片89
9.1 FilesPipeline和ImagesPipeline89
9.1.1 FilesPipeline使用说明90
9.1.2 ImagesPipeline使用说明91
9.2 项目实战:爬取matplotlib例子源码文件92
9.2.1 项目需求92
9.2.2 页面分析94
9.2.3 编码实现96
9.3 项目实战:下载360图片103
9.3.1 项目需求104
9.3.2 页面分析104
9.3.3 编码实现107
9.4 本章小结109
第10章 模拟登录110
10.1 登录实质110
10.2 Scrapy模拟登录114
10.2.1 使用FormRequest114
10.2.2 实现登录Spider117
10.3 识别验证码119
10.3.1 OCR识别119
10.3.2 网络平台识别123
10.3.3 人工识别127
10.4 Cookie登录128
10.4.1 获取浏览器Cookie128
10.4.2 CookiesMiddleware源码分析129
10.4.3 实现BrowserCookies-Middleware132
10.4.4 爬取知乎个人信息133
10.5 本章小结135
第11章 爬取动态页面136
11.1 Splash渲染引擎140
11.1.1 render.html端点141
11.1.2 execute端点142
11.2 在Scrapy中使用Splash145
11.3 项目实战:爬取toscrape中的名人名言146
11.3.1 项目需求146
11.3.2 页面分析146
11.3.3 编码实现147
11.4 项目实战:爬取京东商城中的书籍信息149
11.4.1 项目需求149
11.4.2 页面分析149
11.4.3 编码实现152
11.5 本章小结154
第12章 存入数据库155
12.1 SQLite156
12.2 MySQL159
12.3 MongoDB165
12.4 Redis169
12.5 本章小结173
第13章 使用HTTP代理174
13.1 HttpProxyMiddleware175
13.1.1 使用简介175
13.1.2 源码分析177
13.2 使用多个代理179
13.3 获取免费代理180
13.4 实现随机代理184
13.5 项目实战:爬取豆瓣电影信息187
13.5.1 项目需求188
13.5.2 页面分析189
13.5.3 编码实现194
13.6 本章小结198
第14章 分布式爬取199
14.1 Redis的使用200
14.1.1 安装Redis200
14.1.2 Redis基本命令201
14.2 scrapy-redis源码分析206
14.2.1 分配爬取任务部分207
14.2.2 汇总爬取数据部分214
14.3 使用scrapy-redis进行分布式爬取217
14.3.1 搭建环境217
14.3.2 项目实战218
14.4 本章小结224