图书介绍
深入浅出Python机器学习PDF|Epub|txt|kindle电子书版本网盘下载
![深入浅出Python机器学习](https://www.shukui.net/cover/15/31394377.jpg)
- 段小手著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302503231
- 出版时间:2018
- 标注页数:275页
- 文件大小:149MB
- 文件页数:281页
- 主题词:软件工具-程序设计
PDF下载
下载说明
深入浅出Python机器学习PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 概述2
1.1 什么是机器学习——从一个小故事开始2
1.2 机器学习的一些应用场景——蝙蝠公司的业务单元3
1.3 机器学习应该如何入门——世上无难事5
1.4 有监督学习与无监督学习7
1.5 机器学习中的分类与回归8
1.6 模型的泛化、过拟合与欠拟合8
1.7 小结9
第2章 基于Python语言的环境配置12
2.1 Python的下载和安装12
2.2 Jupyter Notebook的安装与使用方法13
2.2.1 使用pip进行JupyterNotebook的下载和安装13
2.2.2 运行JupyterNotebook14
2.2.3 JupyterNotebook的使用方法15
2.3 一些必需库的安装及功能简介17
2.3.1 Numpy——基础科学计算库17
2.3.2 Scipy——强大的科学计算工具集18
2.3.3 pandas——数据分析的利器19
2.3.4 matplotlib——画出优美的图形20
2.4 scikit-learn——非常流行的Python机器学习库21
2.5 小结22
第3章 K最近邻算法——近朱者赤,近墨者黑24
3.1 K最近邻算法的原理24
3.2 K最近邻算法的用法25
3.2.1 K最近邻算法在分类任务中的应用25
3.2.2 K最近邻算法处理多元分类任务29
3.2.3 K最近邻算法用于回归分析31
3.3 K最近邻算法项目实战——酒的分类34
3.3.1 对数据集进行分析34
3.3.2 生成训练数据集和测试数据集36
3.3.3 使用K最近邻算法进行建模38
3.3.4 使用模型对新样本的分类进行预测39
3.4 小结41
第4章 广义线性模型——“耿直”的算法模型44
4.1 线性模型的基本概念44
4.1.1 线性模型的一般公式44
4.1.2 线性模型的图形表示45
4.1.3 线性模型的特点49
4.2 最基本的线性模型——线性回归50
4.2.1 线性回归的基本原理50
4.2.2 线性回归的性能表现51
4.3 使用L2正则化的线性模型——岭回归53
4.3.1 岭回归的原理53
4.3.2 岭回归的参数调节54
4.4 使用L1正则化的线性模型——套索回归58
4.4.1 套索回归的原理58
4.4.2 套索回归的参数调节59
4.4.3 套索回归与岭回归的对比60
4.5 小结62
第5章 朴素贝叶斯——打雷啦,收衣服啊64
5.1 朴素贝叶斯基本概念64
5.1.1 贝叶斯定理64
5.1.2 朴素贝叶斯的简单应用64
5.2 朴素贝叶斯算法的不同方法68
5.2.1 贝努利朴素贝叶斯68
5.2.2 高斯朴素贝叶斯71
5.2.3 多项式朴索贝叶斯72
5.3 朴素贝叶斯实战——判断肿瘤是良性还是恶性75
5.3.1 对数据集进行分析76
5.3.2 使用高斯朴素贝叶斯进行建模77
5.3.3 高斯朴素贝叶斯的学习曲线78
5.4 小结80
第6章 决策树与随机森林——会玩读心术的算法82
6.1 决策树82
6.1.1 决策树基本原理82
6.1.2 决策树的构建82
6.1.3 决策树的优势和不足88
6.2 随机森林88
6.2.1 随机森林的基本概念89
6.2.2 随机森林的构建89
6.2.3 随机森林的优势和不足92
6.3 随机森林实例——要不要和相亲对象进一步发展93
6.3.1 数据集的准备93
6.3.2 用get_dummies处理数据94
6.3.3 用决策树建模并做出预测96
6.4 小结98
第7章 支持向量机SVM——专治线性不可分100
7.1 支持向量机SVM基本概念100
7.1.1 支持向量机SVM的原理100
7.1.2 支持向量机SVM的核函数102
7.2 SVM的核函数与参数选择104
7.2.1 不同核函数的SVM对比104
7.2.2 支持向量机的gamma参数调节106
7.2.3 SVM算法的优势与不足108
7.3 SVM实例——波士顿房价回归分析108
7.3.1 初步了解数据集109
7.3.2 使用SVR进行建模110
7.4 小结114
第8章 神经网络——曾入“冷宫”,如今得宠116
8.1 神经网络的前世今生116
8.1.1 神经网络的起源116
8.1.2 第一个感知器学习法则116
8.1.3 神经网络之父——杰弗瑞·欣顿117
8.2 神经网络的原理及使用118
8.2.1 神经网络的原理118
8.2.2 神经网络中的非线性矫正119
8.2.3 神经网络的参数设置121
8.3 神经网络实例——手写识别127
8.3.1 使用MNIST数据集128
8.3.2 训练MLP神经网络129
8.3.3 使用模型进行数字识别130
8.4 小结131
第9章 数据预处理、降维、特征提取及聚类——快刀斩乱麻131
9.1 数据预处理134
9.1.1 使用StandardScaler进行数据预处理134
9.1.2 使用MinMaxScaler进行数据预处理135
9.1 .3 使用RobustScaler进行数据预处理136
9.1.4 使用Normalizer进行数据预处理137
9.1.5 通过数据预处理提高模型准确率138
9.2 数据降维140
9.2.1 PCA主成分分析原理140
9.2.2 对数据降维以便于进行可视化142
9.2.3 原始特征与PCA主成分之间的关系143
9.3 特征提取144
9.3.1 PCA主成分分析法用于特征提取145
9.3.2 非负矩阵分解用于特征提取148
9.4 聚类算法149
9.4.1 K均值聚类算法150
9.4.2 凝聚聚类算法153
9.4.3 DBSCAN算法154
9.5 小结157
第10章 数据表达与特征工程——锦上再添花160
10.1 数据表达160
10.1.1 使用哑变量转化类型特征160
10.1.2 对数据进行装箱处理162
10.2 数据“升维”166
10.2.1 向数据集添加交互式特征166
10.2.2 向数据集添加多项式特征170
10.3 自动特征选择173
10.3.1 使用单一变量法进行特征选择173
10.3.2 基于模型的特征选择178
10.3.3 迭代式特征选择180
10.4 小结182
第11章 模型评估与优化——只有更好,没有最好182
11.1 使用交叉验证进行模型评估184
11.1.1 scikit-learn中的交叉验证法184
11.1.2 随机拆分和“挨个儿试试”186
11.1.3 为什么要使用交叉验证法188
11.2 使用网格搜索优化模型参数188
11.2.1 简单网格搜索189
11.2.2 与交叉验证结合的网格搜索191
11.3 分类模型的可信度评估193
11.3.1 分类模型中的预测准确率194
11.3.2 分类模型中的决定系数197
11.4 小结198
第12章 建立算法的管道模型——团结就是力量202
12.1 管道模型的概念及用法202
12.1.1 管道模型的基本概念202
12.1.2 使用管道模型进行网格搜索206
12.2 使用管道模型对股票涨幅进行回归分析209
12.2.1 数据集准备209
12.2.2 建立包含预处理和MLP模型的管道模型213
12.2.3 向管道模型添加特征选择步骤214
12.3 使用管道模型进行模型选择和参数调优216
12.3.1 使用管道模型进行模型选择216
12.3.2 使用管道模型寻找更优参数217
12.4 小结220
第13章 文本数据处理——亲,见字如“数”222
13.1 文本数据的特征提取、中文分词及词袋模型222
13.1.1 使用CountVectorizer对文本进行特征提取222
13.1.2 使用分词工具对中文文本进行分词223
13.1.3 使用词袋模型将文本数据转为数组224
13.2 对文本数据进一步进行优化处理226
13.2.1 使用n-Gram改善词袋模型226
13.2.2 使用tf-idf模型对文本数据进行处理228
13.2.3 删除文本中的停用词234
13.3 小结236
第14章 从数据获取到话题提取——从“研究员”到“段子手”236
14.1 简单页面的爬取238
14.1.1 准备Requests库和UserAgent238
14.1.2 确定一个目标网站并分析其结构240
14.1.3 进行爬取并保存为本地文件241
14.2 稍微复杂一点的爬取244
14.2.1 确定目标页面并进行分析245
14.2.2 Python中的正则表达式247
14.2.3 使用BeautifulSoup进行HTML解析251
14.2.4 对目标页面进行爬取并保存到本地256
14.3 对文本数据进行话题提取258
14.3.1 寻找目标网站并分析结构259
14.3.2 编写爬虫进行内容爬取261
14.3.3 使用潜在狄利克雷分布进行话题提取263
14.4 小结265
第15章 人才需求现状与未来学习方向——你是不是下一个“大牛”265
15.1 人才需求现状268
15.1.1 全球AI从业者达190万,人才需求3年翻8倍268
15.1.2 AI人才需求集中于一线城市,七成从业者月薪过万269
15.1.3 人才困境仍难缓解,政策支援亟不可待269
15.2 未来学习方向270
15.2.1 用于大数据分析的计算引擎270
15.2.2 深度学习开源框架271
15.2.3 使用概率模型进行推理272
15.3 技能磨炼与实际应用272
15.3.1 Kaggle算法大赛平台和OpenML平台272
15.3.2 在工业级场景中的应用273
15.3.3 对算法模型进行A/B测试273
15.4 小结274
参考文献275