FTS - Full Text Search 高精度实时 全文搜索引擎 检索 定位 查找
FTS - Full Text Search 高精度实时 全文搜索引擎 检索 定位 查找FTS 是 Full Text Search 的缩写,中文译为全文搜索、全文检索。
"全文检索" 是指计算机索引程序通过扫描文章的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置;当用户查询时,检索程序会根据事先建立的索引进行查找,并将查找结果反馈给用户的检索方式。"全文检索" 过程类似于通过字典中的检索字表,查字的过程。
除 "全文搜索" 外,类似技术还有目录搜索、元搜索、垂直搜索、等等。
常用 "全文搜索引擎" 有百度、谷歌 Google、Bing 必应、360 搜索、搜狗、等等。此处的 FTS "全文搜索" 的搜索引擎,主要用于服务器端及 "搜索数据库" 中的数据。
若将 "全文搜索引擎" 技术直接或间接移植到 PC 计算机端,在用户使用体验上会非常不理想 (百度、Google、微软、等曾都这样做过,必竟都是基于服务器、大数据开发的),且精度也不高。
2014 年 "德云社区" 提出的 "实时全文搜索" 技术 (基于 PC 端,服务器端还在开发中) 克服了以上问题,目前已应用在 "德云社区" 系列产品中,用于提高 "工作-生产" 效率效果还不错。
"德云社区" 简化了之前的 "全文搜索引擎" 技术,并对其进行了扩展及优化,可达到 100% 高精度 "查找-索引"。
智能批处理式 "数字 Python IDE" 集成开发环境 (集成高效 Cython PyInstaller 批处理小程序)http://dt.digitser.cn/zh-CN/ide/idepy/index.html
按字检索 vs 按词检索
FTS "全文搜索" 分为 "按字检索" 和 "按词检索" 2 种。
01、按字检索指对文章中的每一个字建立索引,检索时将词分解为字的组合。
对于各种不同的语言而言,字有不同的含义;比如:英文中字与词实际上是合一的,而中文中的字与词却有很大分别。
02、按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,且可处理同义项等。
英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。
中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前 "全文检索" 技术尤其是中文全文检索技术中的难点。
全文检索系统
"全文检索系统" 是按照"全文检索" 理论建立起来的,用于提供全文检索服务的软件系统。
一般来说,"全文检索系统" 需具备建立索引和提供查询的基本功能;此外,现代 "全文检索系统" 还需具有方便的用户接口、面向 WWW 的开发接口、二次应用开发接口、等等。
功能上,"全文检索系统" 核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构、等等功能;外围则由各种不同应用,具有的功能组成。
结构上,"全文检索系统" 核心具有索引引擎、查询引擎、文本分析引擎、对外接口、等等;加上各种外围应用系统等,共同构成 "全文检索系统"。
多线程 批处理式 全文搜索 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_search/index.html
多线程 批处理式 全文搜索-文本 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_searchtext/index.html
多线程 批处理式 全文替换 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_replace/index.html
多线程 批处理式 全文替换-多 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_replacemany/index.html
多线程 批处理式 全文替换-文本 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_replacetext/index.html
多线程 批处理式 全文移动-文本 工具
http://dt.digitser.cn/zh-CN/applet/fulltext_move/index.html
http://forum.digitser.cn/data/attachment/forum/201605/19/132155fevczeyds5e5y1wy.jpg扫一扫关注 德云社区 微信公众号
版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载。
页:
[1]