近期发布的丰盘ECM全新2.0版本首次引入了全文检索技术,相比上一代产品而言,现在用户不仅仅可以检索文件名称,还可以一站式检索文档的内容,相当于在企业内网搭建了一个私有文档搜索引擎,大幅提升了文档重度用户在查找并复用内部文档资料的能力和便利性。

关键词匹配与全文检索技术

提到全文检索技术这个专业名词,可能很多非技术背景的普通用户完全没听过,但其实 我们每天熟练使用的百度、谷歌、必应、360等搜索引擎,背后所依托的核心技术之一正是全文检索技术

当我们使用Word、PDF等文档阅读工具打开一个文档然后搜索关键词时,多数阅读工具会使用 关键词精确匹配 高亮显示该关键词匹配到的所有文本段落,但搜索引擎并没有办法做到同样的效果,因为主流搜索引擎收录了全网海量的网站,这个量级通常是百亿级的,搜索引擎不可能在用户按下搜索按钮的时候才去网页库里精确查找匹配的网页,这种方式的效率是极其低下的,因此搜索引擎需要在爬取并收录网页的时候就做好预处理的工作,建立高效的关键词索引结构,指向网页里该关键词出现的段落。

全文检索技术 ( Full-Text Search ) 是一种用于高效检索海量文本数据的技术,它对文本内容建立包含关键词和对应文档位置的倒排索引,当用户查找某些关键词时,系统可以高效地查找索引,找到包含该词的文本及对应的位置,并将它们返回给我们。这种技术被广泛应用在搜索引擎、文件管理系统和电商网站等场景中,它能够提供高效的搜索功能,帮助我们快速找到需要的信息。

搜索引擎每天都要处理海量的用户查询请求,这些查询请求有时候只涉及简单关键字,有时候涉及长关键词或复杂的关键词组合,搜索引擎会智能的判断我们的检索需求,计算用户搜索词与网页文本之间的相关度,结合其他指标对搜索网页结果进行权重排序,将最相关、最优质的网页搜索结果返回给用户。(当然了,如果你愿意支付很多钱的话,你通常可以跳过此环节😉~~~)

image-20230719160849167

企业内网文档搜索的难题

相比公共互联网来说,企业内部文档的数量远远比不上互联网公开网页的数量,但多数企业内部仍会有几十万的文档量级等待被检索。最基础的检索技术是相通的,目前主流的私有文档搜索技术都是通过Solr或Elasticsearch引擎来实现的。

相比互联网网页搜索,企业内部文档搜索场景存在如下重要特点及难题:

  • 文档内容是有严格的权限控制或其他信息安全保护策略的要求;
  • 主要索引企业内部大量的非结构化文档,而非公共互联网上的网页或篇幅有限的文章;
  • 主要索引对象是长文档,但高阶需求包含了图片音视频等多媒体的元数据;
  • 企业内部创作或存储的文档的质量普遍较高,不太需要处理作弊或垃圾网页的问题;
  • 文档内容之间并不存在相互引用或链接指向的情况,独立性较强;
  • 文档内容相较于网页搜索通常对内容的时效性不太敏感;

其中第一点也是最重要的一点,就是 企业级私有文档搜索引擎必须无缝集成文档权限控制体系,不允许用户搜索到无权查阅的文档

如何解决这些难题

丰盘系统从社区版发布至今一直都支持文件名的全文检索,而不是基于简单关键词精确匹配的技术。例如像下面这样的搜索场景,来自投研行业的某分析师或研究员希望分析下企业协同办公市场的行业发展历程,如果采用精准关键词匹配的话,那么一份文档都搜索不出来。而通过全文检索技术,我们可以看到丰盘系统能够智能的罗列出一些相关的文档。

文件名也支持全文搜索

新一代的丰盘产品更是支持对文档内容进行解析和检索,目前丰盘已经支持了Word、Powerpoint、Excel、PDF等在内的几十种文档格式的内容解析及检索,很好的满足了客户的文档搜索需求。

在文档安全方面,丰盘拥有非常强大的权限管控体系,文档按照空间进行组织管理,不同文档空间之间的权限相互隔离。而在同一个文档空间里,丰盘支持多达13级的权限控制粒度,同时还支持像FTP、Windows共享、SVN等相类似的多级目录权限配置。多团队、多用户协作的情况下,丰盘支持通过RBAC的角色权限配置模型,快速为相同角色的一组用户配置权限集合,例如销售、市场、研发人员、产品经理等等。

当用户启用了全文检索引擎之后,丰盘的权限模块将自动嵌入了搜索引擎里。每当用户发起查询的时候,丰盘系统API会在检索获得匹配度较高的文件之后,对查询用户是否具有访问该文档的权限进行实时过滤,无授权预览或下载的文档将不会显示在搜索结果里,最大化的保护了文档安全。

全文检索

哪些行业/领域客户会受益呢

对于日常工作里经常需要处理大量文档资料的用户来说,搜索文档内容几乎是高频刚需,能够大大提升他们的工作效率。

金融投研行业/战略投资部门/行业研究团队

面对分散在互联网上的公共资料和企业购买或内部创作的私有文档,以及客户的资料档案等等,研究团队经常需要从这些海量的文档里搜寻特定的资料片段,或者阅读大量的财务报表进行机会分析、对比研究,以提供尽可能详尽的分析建议。高效好用的文档搜索引擎对他们来说节约了大量时间,也提高了分析报告的准确性。

科研领域/学术研究/技术研发团队

科技研发人员身处一个产品技术高速迭代、市场竞争激烈的行业,经常需要阅读大量的科研技术文档,从中汲取有价值的知识、经验或灵感,以此来改进现有的技术和产品。这些资料通常不完全来自于公共互联网或学术论文库里,还有大量的私有资料及内部创作的历史文档,因此他们需要一个更加安全可靠、搜索能力强大的文档搜索引擎来帮助他们更好的研究资料。

法律行业/律师事务所/法务部门

法律从业人员经常和大量的文本资料打交道,例如法律条文及政策文件、过往相关法律判例、各行业的法务实践资料、委托客户的项目资料,单位签署的合同协议档案等等,仅仅通过文件名来检索资料效率非常低下,迫切需要一套具备强大搜索能力的文档搜索引擎。

您所在的单位是否也需要强大的内网文档搜索能力呢?欢迎扫码公众号了解最新动态,与我们的客户支持团队在线实时交流吧~~~~

微信公众号扫码搜搜二维码