当前位置: 欣欣网 > 码农

4.4K Star Go实现的高度可定制的全文搜索引擎

2024-05-04码农

微信公众号:[开源日记],分享10k+Star的优质开源项目

项目简介

悟空全文搜索引擎是一个高效的全文搜索引擎,支持中文分词、计算关键词在文本中的紧邻距离、计算BM25相关度等功能。该引擎具有快速索引和搜索的功能,能够在短时间内索引大量数据并实现高效的搜索响应时间。

1M条微博500M数据28秒索引完,1.65毫秒搜索响应时间,19K搜索QPS

功能特点

  • 快速索引和搜索: 支持高效的数据索引和快速的搜索响应时间,适用于处理大规模数据。

  • 中文分词支持: 使用sego分词包进行并发分词,速度高达27MB/秒。

  • 关键词紧邻距离计算: 可计算关键词在文本中的紧邻距离,提高搜索结果的精确度。

  • BM25相关度计算: 支持计算搜索结果的BM25相关度,帮助用户更好地理解搜索结果相关性。

  • 自定义评分规则: 用户可以定义评分字段和评分规则,根据自身需求对搜索结果进行个性化评分。

  • 在线索引管理: 支持在线添加和删除索引,方便维护和更新数据。

  • 持久化存储: 数据索引可以进行持久化存储,确保数据安全和持久性。

  • 分布式索引和搜索: 可以实现分布式索引和搜索,提高系统的可扩展性和容错性。

  • 使用场景

  • 中文文本分析: 对中文文本进行分析和检索时,该引擎的中文分词功能可以提供准确的分词结果。

  • 相关性搜索应用: 通过BM25相关度计算等功能,可以实现相关性较强的搜索结果返回,适用于需要精准搜索的应用场景。

  • 个性化评分需求: 如果用户有特定的评分规则需要,可以通过该引擎的自定义评分字段和规则功能实现个性化评分。

  • 在线文档检索系统: 适用于构建在线文档检索系统、知识库等应用,提供高效的文档搜索和检索功能。

  • 总之,悟空全文搜索引擎是一个功能强大且高度可定制的搜索引擎,适用于各种不同的搜索场景和应用需求。其快速索引速度和高效的搜索响应时间使其成为处理大规模数据和实现个性化搜索需求的理想选择。

    开源地址:https://github.com/huichen/wukong

    微信公众号:[开源日记],分享10k+Star的优质开源项目

    创作不易 分享 , , 在看 ,三连支持一波,感谢。↓↓↓

    近期热文: