图书介绍

文本挖掘PDF|Epub|txt|kindle电子书版本网盘下载

（美）迈克尔·W.贝瑞，（美）雅克布·柯岗编著
出版社：北京：机械工业出版社
ISBN：7111570509
出版时间：2019
标注页数：167页
文件大小：22MB
文件页数：178页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：eae61fb986980ef0bd5e7a54d22b569b

下载说明

文本挖掘PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章独立文档的关键词的自动提取1

1.1简介1

1.1.1关键词提取方法1

1.2快速自动关键词提取3

1.2.1候选关键词3

1.2.2关键词得分4

1.2.3邻接关键词5

1.2.4提取关键词5

1.3基准评估6

1.3.1准确率和召回率评估6

1.3.2效率评估7

1.4停用词列表生成9

1.5新闻消息的评估12

1.5.1 MPQA语料库12

1.5.2从新闻消息中提取关键词12

1.6总结15

参考文献16

第2章利用数学方法进行多语言文档聚类17

2.1简介17

2.2背景17

2.3实验设置18

2.4多语言LSA20

2.5 Tucker1方法21

2.6 PARAFAC2方法23

2.7词对齐的LSA24

2.8潜在形态语义分析（LMSA）26

2.9词对齐的LMSA27

2.10对技术和结果的讨论27

参考文献29

第3章使用机器学习算法对基于内容的垃圾邮件进行分类31

3.1简介31

3.2机器学习算法32

3.2.1朴素贝叶斯33

3.2.2 LogitBoost33

3.2.3支持向量机34

3.2.4增广的潜在语义索引空间35

3.2.5径向基函数网络36

3.3数据预处理37

3.3.1特征选择37

3.3.2信息表示39

3.4邮件分类的评估39

3.5实验40

3.5.1使用PU1的实验40

3.5.2使用ZH1的实验42

3.6分类器特点43

3.7结束语45

参考文献45

第4章利用非负矩阵分解研究邮件分类问题47

4.1简介47

4.1.1相关工作48

4.1.2概要49

4.2研究背景49

4.2.1非负矩阵分解49

4.2.2计算NMF的算法50

4.2.3数据集52

4.2.4解释52

4.3基于特征排序的NMF初始化54

4.3.1特征子集选择54

4.3.2 FS初始化55

4.4基于NMF的分类方法57

4.4.1使用基础特征分类58

4.4.2基于NMF的一般化LSI59

4.5结束语65

参考文献66

第5章使用k-均值算法进行约束聚类68

5.1简介68

5.2表示法和古典k-均值算法69

5.3具有布莱格曼散度的k-均值约束聚类算法70

5.3.1具有“不能链接”约束关系的二次k-均值聚类70

5.3.2“必须链接”约束关系的移除73

5.3.3使用布莱格曼散度进行聚类75

5.4 smoka类型约束聚类77

5.5球形k-均值约束聚类79

5.5.1仅有“不能链接”约束关系的球形k-均值聚类算法80

5.5.2具有“不能链接”和“必须链接”约束关系的球形k-均值聚类82

5.6数值实验83

5.6.1二次k-均值聚类84

5.6.2球形k-均值聚类85

5.7总结85

参考文献86

第6章文本可视化技术的研究88

6.1文本分析的可视化88

6.2标签云图89

6.3著作权及其变更的追踪90

6.4数据探索和novel模式的探索91

6.5情绪追踪92

6.6可视化分析和FutureLens94

6.7场景发现94

6.7.1场景94

6.7.2评估策略95

6.8早期版本95

6.9 FutureLens的特征96

6.10场景发现举例：生态恐怖主义97

6.11场景发现举例：毒品走私101

6.12未来的工作103

参考文献104

第7章新颖性挖掘的自适应阈值设置106

7.1简介106

7.2新颖性挖掘中的自适应阈值设置107

7.2.1背景107

7.2.2动机108

7.2.3基于高斯分布的自适应阈值设置108

7.2.4实现过程中的问题112

7.3实验研究113

7.3.1数据集113

7.3.2加工实例113

7.3.3实验及结果116

7.4总结120

参考文献121

第8章文本挖掘与网络犯罪122

8.1简介122

8.2网络欺凌和网络捕食研究的现状123

8.2.1获取即时通信和在线聊天124

8.2.2当前用于分析的收集124

8.2.3对即时通信和在线聊天的分析125

8.2.4网络捕食检测125

8.2.5网络欺凌检测129

8.2.6法律问题130

8.3监控聊天的商业软件131

8.4结论与未来的方向132

参考文献133

第9章文本流中的事件和发展趋势136

9.1引言136

9.2文本流138

9.3特征提取和数据还原138

9.4事件监测139

9.5趋势检测142

9.6事件和趋势描述143

9.7相关讨论147

9.8总结147

参考文献148

第10章在LDA主题模型中嵌入语义150

10.1简介150

10.2背景150

10.2.1向量空间模型151

10.2.2潜在语义分析151

10.2.3概率潜在语义分析151

10.3潜在狄利克雷分配152

10.3.1图模型和生成过程153

10.3.2后验推断153

10.3.3在线潜在狄利克雷分配（OLDA）154

10.3.4算例分析156

10.4在维基百科中嵌入外部语义158

10.4.1相关维基百科文章158

10.4.2维基百科影响的主题模型158

10.5数据驱动语义的嵌入159

10.5.1数据驱动语义嵌入的生成过程159

10.5.2嵌入数据驱动语义的OLDA算法160

10.5.3实验设计161

10.5.4实验结果163

10.6相关工作166

10.7结论与未来工作166

参考文献166