图书介绍
自己动手写搜索引擎PDF|Epub|txt|kindle电子书版本网盘下载
![自己动手写搜索引擎](https://www.shukui.net/cover/47/33251804.jpg)
- 罗刚编著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121096402
- 出版时间:2009
- 标注页数:356页
- 文件大小:46MB
- 文件页数:370页
- 主题词:互联网络-情报检索
PDF下载
下载说明
自己动手写搜索引擎PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 遍历搜索引擎技术1
1.1 30分钟实现的搜索引擎1
1.1.1准备工作环境(10分钟)1
1.1.2编写代码(15分钟)3
1.1.3发布运行(5分钟)5
1.2 Google神话9
1.3体验搜索引擎9
1.4搜索语法10
1.5你也可以做搜索引擎13
1.6搜索引擎基本技术14
1.6.1网络蜘蛛14
1.6.2全文索引结构14
1.6.3 Lucene全文检索引擎15
1.6.4 Nutch网络搜索软件16
1.6.5用户界面17
1.7商业搜索引擎技术介绍19
1.7.1通用搜索19
1.7.2垂直搜索20
1.7.3站内搜索21
1.7.4桌面搜索23
1.8本章小结24
第2章 获得海量数据25
2.1自己的网络蜘蛛25
2.1.1抓取网页25
2.1.2网络蜘蛛遍历与实现26
2.1.3改进网络蜘蛛30
2.1.4 MP3抓取34
2.1.5 RSS抓取36
2.1.6图片抓取38
2.1.7垂直行业抓取39
2.2抓取数据库中的内容42
2.2.1建立数据视图42
2.2.2 JDBC数据库连接43
2.2.3增量抓取45
2.3抓取本地硬盘上的文件47
2.4本章小结49
第3章 提取文档中的文本内容50
3.1从HTML文件中提取文本50
3.1.1 HtmlParser介绍53
3.1.2结构化信息提取63
3.1.3查看网页的DOM结构68
3.1.4正文提取的工具NekoHTML71
3.1.5网页去噪73
3.1.6网页结构相似度计算76
3.1.7网站风格树去除文档噪声80
3.1.8正文提取92
3.2从非HTML文件中提取文本98
3.2.1 TEXT文件98
3.2.2 PDF文件98
3.2.3 Word文件105
3.2.4 RTF文件106
3.2.5 Excel文件107
3.2.6 PowerPoint文件108
3.3流媒体内容提取109
3.3.1音频流内容提取109
3.3.2视频流内容提取111
3.4抓取限制应对方法113
3.5本章小结114
第4章 中文分词115
4.1 Lucene中的中文分词115
4.2 Lietu中文分词的使用116
4.3中文分词的原理117
4.4查找词典算法118
4.5最大概率分词方法123
4.6新词发现127
4.7词性标注129
4.8本章小结139
第5章 自然语言处理140
5.1语法解析树140
5.2文档排重141
5.3中文关键词提取142
5.3.1关键词提取的基本方法142
5.3.2从网页中提取关键词145
5.4相关搜索145
5.5拼写检查148
5.5.1英文拼写检查148
5.5.2中文拼写检查149
5.6自动摘要153
5.6.1自动摘要技术153
5.6.2自动摘要的设计154
5.6.3 Lucene中的动态摘要162
5.7自动分类163
5.7.1 Classifiier4J164
5.7.2自动分类的接口定义165
5.7.3自动分类的SVM方法实现166
5.7.4多级分类167
5.8自动聚类170
5.8.1聚类的定义170
5.8.2 K均值聚类方法170
5.8.3 K均值实现173
5.9拼音转换179
5.10语义搜索180
5.11跨语言搜索186
5.12本章小结188
第6章 创建索引库189
6.1设计索引库结构190
6.1.1理解Lucene的索引库结构190
6.1.2设计一个简单的索引库192
6.2创建和维护索引库193
6.2.1创建索引库193
6.2.2向索引库中添加索引文档194
6.2.3删除索引库中的索引文档196
6.2.4更新索引库中的索引文档197
6.2.5索引的合并197
6.2.6索引的定时更新197
6.2.7索引的备份和恢复198
6.2.8修复索引199
6.3读写并发控制200
6.4优化使用Lucene200
6.4.1索引优化201
6.4.2查询优化202
6.4.3实现时间加权排序206
6.4.4实现字词混合索引207
6.4.5定制Similarity214
6.4.6定制Tokenizer215
6.5查询大容量索引217
6.6本章小结218
第7章 用户界面设计与实现219
7.1 Lucene搜索接口(search代码)219
7.2搜索页面设计221
7.2.1用于显示搜索结果的taglib221
7.2.2用于搜索结果分页的taglib223
7.2.3设计一个简单的搜索页面225
7.3实现搜索接口227
7.3.1布尔搜索227
7.3.2指定范围搜索228
7.3.3搜索结果排序233
7.3.4搜索页面的索引缓存与更新234
7.4实现关键词高亮显示236
7.5实现分类统计视图239
7.6实现相似文档搜索244
7.7实现AJAX自动完成246
7.7.1总体结构247
7.7.2服务器端处理247
7.7.3浏览器端处理249
7.7.4服务器端改进250
7.7.5部署总结261
7.8 jQuery实现的自动完成262
7.9集成其他功能267
7.9.1拼写检查267
7.9.2分类统计267
7.9.3相关搜索271
7.9.4再次查找274
7.9.5搜索日志275
7.10搜索日志分析276
7.11本章小结280
第8章 其他高级主题281
8.1使用Solr实现分布式搜索281
8.1.1 Solr服务器端的配置与中文支持282
8.1.2把数据放进Solr287
8.1.3删除数据289
8.1.4客户端搜索界面290
8.1.5 Solr索引库的查找292
8.1.6索引分发294
8.1.7 Solr搜索优化298
8.1.8 Solr中字词混合索引302
8.1.9相关检索304
8.1.10搜索结果去重307
8.1.11分布式搜索311
8.1.12 SolrJ查询分析器315
8.1.13扩展SolrJ325
8.1.14扩展Solr327
8.1.15 Solr的.NET客户端333
8.1.16 Solr的PHP客户端334
8.2图像的OCR识别336
8.3竞价排名343
8.4 Web图分析344
8.5使用并行程序分析数据350
8.6 RSS搜索351
8.7本章小结353
参考资料354