python html5 bootstrap 视频教程

德云社区

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1203|回复: 0

FTS - Full Text Search 高精度实时 全文搜索引擎 检索 定位 查找

[复制链接]

137

主题

156

帖子

909

积分

高级技师

Rank: 4

金钱
587
金币
15
威望
0
贡献
0
发表于 2018-5-23 19:39:00 | 显示全部楼层 |阅读模式
FTS - Full Text Search 高精度实时 全文搜索引擎 检索 定位 查找

FTS 是 Full Text Search 的缩写,中文译为全文搜索、全文检索。


"全文检索" 是指计算机索引程序通过扫描文章的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置;当用户查询时,检索程序会根据事先建立的索引进行查找,并将查找结果反馈给用户的检索方式。"全文检索" 过程类似于通过字典中的检索字表,查字的过程。


除 "全文搜索" 外,类似技术还有目录搜索、元搜索、垂直搜索、等等。


常用 "全文搜索引擎" 有百度、谷歌 Google、Bing 必应、360 搜索、搜狗、等等。此处的 FTS "全文搜索" 的搜索引擎,主要用于服务器端及 "搜索数据库" 中的数据。


若将 "全文搜索引擎" 技术直接或间接移植到 PC 计算机端,在用户使用体验上会非常不理想 (百度、Google、微软、等曾都这样做过,必竟都是基于服务器、大数据开发的),且精度也不高。


2014 年 "德云社区" 提出的 "实时全文搜索" 技术 (基于 PC 端,服务器端还在开发中) 克服了以上问题,目前已应用在 "德云社区" 系列产品中,用于提高 "工作-生产" 效率效果还不错。


"德云社区" 简化了之前的 "全文搜索引擎" 技术,并对其进行了扩展及优化,可达到 100% 高精度 "查找-索引"。


百度网盘

https://pan.baidu.com/s/1bo3jN0j


软件仓库

https://github.com/digitser

https://digitser.sourceforge.io/

https://pan.baidu.com/s/1TV70__Be1ta0ney1-tudFQ


工业4.0大数据 高效-智能增效 本地-Web文件 "数字化管理" 工具

http://manage.digitser.cn/

http://forum.digitser.cn/thread-2181-1-1.html


按字检索 vs 按词检索

FTS "全文搜索" 分为 "按字检索" 和 "按词检索" 2 种。


01、按字检索

指对文章中的每一个字建立索引,检索时将词分解为字的组合。


对于各种不同的语言而言,字有不同的含义;比如:英文中字与词实际上是合一的,而中文中的字与词却有很大分别。


02、按词检索

指对文章中的词,即语义单位建立索引,检索时按词检索,且可处理同义项等。


英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。


中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前 "全文检索" 技术尤其是中文全文检索技术中的难点。


全文检索系统

"全文检索系统" 是按照  "全文检索" 理论建立起来的,用于提供全文检索服务的软件系统。


一般来说,"全文检索系统" 需具备建立索引和提供查询的基本功能;此外,现代 "全文检索系统" 还需具有方便的用户接口、面向 WWW 的开发接口、二次应用开发接口、等等。


功能上,"全文检索系统" 核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构、等等功能;外围则由各种不同应用,具有的功能组成。


结构上,"全文检索系统" 核心具有索引引擎、查询引擎、文本分析引擎、对外接口、等等;加上各种外围应用系统等,共同构成 "全文检索系统"。

"长按二维码" 或 "扫一扫" 关注 "德云社区" 微信公众号

版权声明:
本文为独家原创稿件,版权归 德云社区,未经许可不得转载;否则,将追究其法律责任。


AI人工智能 语音助理 人工翻译 教程
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|Sitemap|小黑屋|德云社区  |网站地图  

GMT+8, 2020-6-2 04:14 , Processed in 0.059312 second(s), 29 queries .

工业和信息化部: 粤ICP备14079481号-2

技术支持 乐数软件     版权所有 © 2014-2021 德云社区    

快速回复 返回顶部 返回列表