图书介绍
面向数据科学家的实用统计学PDF|Epub|txt|kindle电子书版本网盘下载
![面向数据科学家的实用统计学](https://www.shukui.net/cover/14/31360206.jpg)
- (美)彼得·布鲁斯,安德鲁·布鲁斯著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115493668
- 出版时间:2018
- 标注页数:220页
- 文件大小:21MB
- 文件页数:238页
- 主题词:统计软件
PDF下载
下载说明
面向数据科学家的实用统计学PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 探索性数据分析1
1.1 结构化数据的组成2
1.2 矩形数据4
1.2.1 数据框和索引5
1.2.2 非矩形数据结构5
1.2.3 拓展阅读6
1.3 位置估计6
1.3.1 均值7
1.3.2 中位数和稳健估计量8
1.3.3 位置估计的例子:人口和谋杀率9
1.3.4 拓展阅读10
1.4 变异性估计10
1.4.1 标准偏差及相关估计值11
1.4.2 基于百分位数的估计量13
1.4.3 例子:美国各州人口的变异性估计量14
1.4.4 拓展阅读14
1.5 探索数据分布14
1.5.1 百分位数和箱线图15
1.5.2 频数表和直方图16
1.5.3 密度估计18
1.5.4 拓展阅读20
1.6 探索二元数据和分类数据20
1.6.1 众数21
1.6.2 期望值22
1.6.3 拓展阅读22
1.7 相关性22
1.7.1 散点图25
1.7.2 拓展阅读26
1.8 探索两个及以上变量26
1.8.1 六边形图和等势线(适用于两个数值型变量)26
1.8.2 两个分类变量28
1.8.3 分类数据和数值型数据29
1.8.4 多个变量的可视化31
1.8.5 拓展阅读33
1.9 小结33
第2章 数据和抽样分布34
2.1 随机抽样和样本偏差35
2.1.1 偏差36
2.1.2 随机选择37
2.1.3 数据规模与数据质量:何时规模更重要38
2.1.4 样本均值与总体均值38
2.1.5 拓展阅读39
2.2 选择偏差39
2.2.1 趋均值回归40
2.2.2 拓展阅读41
2.3 统计量的抽样分布42
2.3.1 中心极限定理44
2.3.2 标准误差44
2.3.3 拓展阅读45
2.4 自助法45
2.4.1 重抽样与自助法47
2.4.2 拓展阅读48
2.5 置信区间48
2.6 正态分布50
2.7 长尾分布53
2.8 学生t分布55
2.9 二项分布57
2.10 泊松分布及其相关分布58
2.10.1 泊松分布59
2.10.2 指数分布59
2.10.3 故障率估计60
2.10.4 韦伯分布60
2.10.5 拓展阅读61
2.11 小结61
第3章 统计实验与显著性检验62
3.1 A/B测试62
3.1.1 为什么要有对照组64
3.1.2 为什么只有处理A和B,没有C、D……65
3.1.3 拓展阅读66
3.2 假设检验66
3.2.1 零假设67
3.2.2 备择假设67
3.2.3 单向假设检验和双向假设检验68
3.2.4 拓展阅读68
3.3 重抽样68
3.3.1 置换检验69
3.3.2 例子:Web黏性69
3.3.3 穷尽置换检验和自助置换检验72
3.3.4 置换检验:数据科学的底线72
3.3.5 拓展阅读72
3.4 统计显著性和p值72
3.4.1 p值74
3.4.2 a值75
3.4.3 第一类错误和第二类错误76
3.4.4 数据科学与p值76
3.4.5 拓展阅读77
3.5 t检验77
3.6 多重检验78
3.7 自由度81
3.8 方差分析82
3.8.1 F统计量84
3.8.2 双向方差分析85
3.8.3 拓展阅读86
3.9 卡方检验86
3.9.1 卡方检验:一种重抽样方法86
3.9.2 卡方检验:统计理论88
3.9.3 费舍尔精确检验88
3.9.4 与数据科学的关联90
3.9.5 拓展阅读91
3.10 多臂老虎机算法91
3.11 检验效能和样本规模93
3.11.1 样本规模95
3.11.2 拓展阅读96
3.12 小结96
第4章 回归与预测97
4.1 简单线性回归97
4.1.1 回归方程98
4.1.2 拟合值与残差100
4.1.3 最小二乘法101
4.1.4 预测与解释(剖析)102
4.1.5 拓展阅读103
4.2 多元线性回归103
4.2.1 美国金县房屋数据案例103
4.2.2 评估模型104
4.2.3 交叉验证106
4.2.4 模型选择和逐步回归法107
4.2.5 加权回归108
4.3 使用回归做预测109
4.3.1 外推法的风险109
4.3.2 置信区间和预测区间110
4.4 回归中的因子变量111
4.4.1 虚拟变量的表示112
4.4.2 多层因子变量113
4.4.3 有序因子变量114
4.5 解释回归方程115
4.5.1 相关的预测变量116
4.5.2 多重共线性117
4.5.3 混淆变量117
4.5.4 交互作用和主效应118
4.6 检验假设:回归诊断119
4.6.1 离群值120
4.6.2 强影响值121
4.6.3 异方差性、非正态分布和相关误差123
4.6.4 偏残差图和非线性126
4.7 多项式回归和样条回归127
4.7.1 多项式回归128
4.7.2 样条回归129
4.7.3 广义加性模型131
4.7.4 拓展阅读132
4.8 小结133
第5章 分类134
5.1 朴素贝叶斯算法135
5.1.1 准确的贝叶斯分类是不切实际的136
5.1.2 朴素解决方案136
5.1.3 数值型预测变量138
5.1.4 拓展阅读138
5.2 判别分析138
5.2.1 协方差矩阵139
5.2.2 费希尔线性判别分析139
5.2.3 一个简单的例子140
5.2.4 拓展阅读142
5.3 逻辑回归142
5.3.1 逻辑响应函数和Logit函数143
5.3.2 逻辑回归和广义线性模型144
5.3.3 广义线性模型145
5.3.4 逻辑回归的预测值145
5.3.5 解释系数和优势比146
5.3.6 线性回归与逻辑回归:相似之处和不同之处147
5.3.7 模型评估148
5.3.8 拓展阅读150
5.4 评估分类模型150
5.4.1 混淆矩阵151
5.4.2 稀有类问题152
5.4.3 准确率、召回率和特异性153
5.4.4 ROC曲线153
5.4.5 AUC155
5.4.6 提升156
5.4.7 拓展阅读157
5.5 不平衡数据的处理策略157
5.5.1 欠采样158
5.5.2 过采样以及上权重和下权重158
5.5.3 数据生成159
5.5.4 基于代价的分类160
5.5.5 探索预测值160
5.5.6 拓展阅读161
5.6 小结161
第6章 统计机器学习162
6.1 K最近邻算法163
6.1.1 预测贷款拖欠的示例164
6.1.2 距离度量165
6.1.3 独热编码166
6.1.4 标准化166
6.1.5 K值的选取168
6.1.6 KNN作为特征引擎169
6.2 树模型170
6.2.1 一个简单的例子171
6.2.2 递归分区算法172
6.2.3 测量同质性或不纯度174
6.2.4 阻止树模型继续生长175
6.2.5 预测连续值176
6.2.6 如何使用树模型176
6.2.7 拓展阅读177
6.3 Bagging和随机森林177
6.3.1 Bagging方法178
6.3.2 随机森林178
6.3.3 变量的重要性181
6.3.4 超参数183
6.4 Boosting184
6.4.1 Boosting算法184
6.4.2 XGBoost软件185
6.4.3 正则化:避免过拟合186
6.4.4 超参数和交叉验证189
6.5 小结191
第7章 无监督学习192
7.1 主成分分析193
7.1.1 一个简单的例子194
7.1.2 计算主成分195
7.1.3 解释主成分196
7.1.4 拓展阅读198
7.2 K-Means聚类198
7.2.1 一个简单的例子199
7.2.2 K-Means算法201
7.2.3 解释类201
7.2.4 选择类的个数203
7.3 层次聚类204
7.3.1 一个简单的例子205
7.3.2 树状图205
7.3.3 凝聚算法206
7.3.4 测量相异性207
7.4 基于模型的聚类208
7.4.1 多元正态分布209
7.4.2 混合正态分布210
7.4.3 类数的选取212
7.4.4 拓展阅读213
7.5 变量的缩放和分类变量213
7.5.1 变量的缩放214
7.5.2 控制变量215
7.5.3 分类数据和高氏距离216
7.5.4 混合数据的聚类问题218
7.6 小结219
作者简介220
封面说明220