图书介绍
文本挖掘PDF|Epub|txt|kindle电子书版本网盘下载
![文本挖掘](https://www.shukui.net/cover/24/31306882.jpg)
- (美)迈克尔·W.贝瑞,(美)雅克布·柯岗编 著
- 出版社: 北京:机械工业出版社
- ISBN:7111570509
- 出版时间:2019
- 标注页数:167页
- 文件大小:22MB
- 文件页数:178页
- 主题词:
PDF下载
下载说明
文本挖掘PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 独立文档的关键词的自动提取1
1.1简介1
1.1.1关键词提取方法1
1.2快速自动关键词提取3
1.2.1候选关键词3
1.2.2关键词得分4
1.2.3邻接关键词5
1.2.4提取关键词5
1.3基准评估6
1.3.1准确率和召回率评估6
1.3.2效率评估7
1.4停用词列表生成9
1.5新闻消息的评估12
1.5.1 MPQA语料库12
1.5.2从新闻消息中提取关键词12
1.6总结15
参考文献16
第2章 利用数学方法进行多语言文档聚类17
2.1简介17
2.2背景17
2.3实验设置18
2.4多语言LSA20
2.5 Tucker1方法21
2.6 PARAFAC2方法23
2.7词对齐的LSA24
2.8潜在形态语义分析(LMSA)26
2.9词对齐的LMSA27
2.10对技术和结果的讨论27
参考文献29
第3章 使用机器学习算法对基于内容的垃圾邮件进行分类31
3.1简介31
3.2机器学习算法32
3.2.1朴素贝叶斯33
3.2.2 LogitBoost33
3.2.3支持向量机34
3.2.4增广的潜在语义索引空间35
3.2.5径向基函数网络36
3.3数据预处理37
3.3.1特征选择37
3.3.2信息表示39
3.4邮件分类的评估39
3.5实验40
3.5.1使用PU1的实验40
3.5.2使用ZH1的实验42
3.6分类器特点43
3.7结束语45
参考文献45
第4章 利用非负矩阵分解研究邮件分类问题47
4.1简介47
4.1.1相关工作48
4.1.2概要49
4.2研究背景49
4.2.1非负矩阵分解49
4.2.2计算NMF的算法50
4.2.3数据集52
4.2.4解释52
4.3基于特征排序的NMF初始化54
4.3.1特征子集选择54
4.3.2 FS初始化55
4.4基于NMF的分类方法57
4.4.1使用基础特征分类58
4.4.2基于NMF的一般化LSI59
4.5结束语65
参考文献66
第5章 使用k-均值算法进行约束聚类68
5.1简介68
5.2表示法和古典k-均值算法69
5.3具有布莱格曼散度的k-均值约束聚类算法70
5.3.1具有“不能链接”约束关系的二次k-均值聚类70
5.3.2“必须链接”约束关系的移除73
5.3.3使用布莱格曼散度进行聚类75
5.4 smoka类型约束聚类77
5.5球形k-均值约束聚类79
5.5.1仅有“不能链接”约束关系的球形k-均值聚类算法80
5.5.2具有“不能链接”和“必须链接”约束关系的球形k-均值聚类82
5.6数值实验83
5.6.1二次k-均值聚类84
5.6.2球形k-均值聚类85
5.7总结85
参考文献86
第6章 文本可视化技术的研究88
6.1文本分析的可视化88
6.2标签云图89
6.3著作权及其变更的追踪90
6.4数据探索和novel模式的探索91
6.5情绪追踪92
6.6可视化分析和FutureLens94
6.7场景发现94
6.7.1场景94
6.7.2评估策略95
6.8早期版本95
6.9 FutureLens的特征96
6.10场景发现举例:生态恐怖主义97
6.11场景发现举例:毒品走私101
6.12未来的工作103
参考文献104
第7章 新颖性挖掘的自适应阈值设置106
7.1简介106
7.2新颖性挖掘中的自适应阈值设置107
7.2.1背景107
7.2.2动机108
7.2.3基于高斯分布的自适应阈值设置108
7.2.4实现过程中的问题112
7.3实验研究113
7.3.1数据集113
7.3.2加工实例113
7.3.3实验及结果116
7.4总结120
参考文献121
第8章 文本挖掘与网络犯罪122
8.1简介122
8.2网络欺凌和网络捕食研究的现状123
8.2.1获取即时通信和在线聊天124
8.2.2当前用于分析的收集124
8.2.3对即时通信和在线聊天的分析125
8.2.4网络捕食检测125
8.2.5网络欺凌检测129
8.2.6法律问题130
8.3监控聊天的商业软件131
8.4结论与未来的方向132
参考文献133
第9章 文本流中的事件和发展趋势136
9.1引言136
9.2文本流138
9.3特征提取和数据还原138
9.4事件监测139
9.5趋势检测142
9.6事件和趋势描述143
9.7相关讨论147
9.8总结147
参考文献148
第10章 在LDA主题模型中嵌入语义150
10.1简介150
10.2背景150
10.2.1向量空间模型151
10.2.2潜在语义分析151
10.2.3概率潜在语义分析151
10.3潜在狄利克雷分配152
10.3.1图模型和生成过程153
10.3.2后验推断153
10.3.3在线潜在狄利克雷分配(OLDA)154
10.3.4算例分析156
10.4在维基百科中嵌入外部语义158
10.4.1相关维基百科文章158
10.4.2维基百科影响的主题模型158
10.5数据驱动语义的嵌入159
10.5.1数据驱动语义嵌入的生成过程159
10.5.2嵌入数据驱动语义的OLDA算法160
10.5.3实验设计161
10.5.4实验结果163
10.6相关工作166
10.7结论与未来工作166
参考文献166