當前位置: 妍妍網 > 碼農

4.4K Star Go實作的高度可客製的全文搜尋引擎

2024-05-04碼農

微信公眾號:[開源日記],分享10k+Star的優質開源計畫

計畫簡介

悟空全文搜尋引擎是一個高效的全文搜尋引擎,支持中文分詞、計算關鍵詞在文本中的緊鄰距離、計算BM25相關度等功能。該引擎具有快速索引和搜尋的功能,能夠在短時間內索引大量數據並實作高效的搜尋響應時間。

1M條微博500M數據28秒索引完,1.65毫秒搜尋響應時間,19K搜尋QPS

功能特點

  • 快速索引和搜尋: 支持高效的數據索引和快速的搜尋響應時間,適用於處理大規模數據。

  • 中文分詞支持: 使用sego分詞包進行並行分詞,速度高達27MB/秒。

  • 關鍵詞緊鄰距離計算: 可計算關鍵詞在文本中的緊鄰距離,提高搜尋結果的精確度。

  • BM25相關度計算: 支持計算搜尋結果的BM25相關度,幫助使用者更好地理解搜尋結果相關性。

  • 自訂評分規則: 使用者可以定義評分欄位和評分規則,根據自身需求對搜尋結果進行個人化評分。

  • 線上索引管理: 支持線上添加和刪除索引,方便維護和更新數據。

  • 持久化儲存: 數據索引可以進行持久化儲存,確保數據安全和永續性。

  • 分布式索引和搜尋: 可以實作分布式索引和搜尋,提高系統的可延伸性和容錯性。

  • 使用場景

  • 中文文本分析: 對中文文本進行分析和檢索時,該引擎的中文分詞功能可以提供準確的分詞結果。

  • 相關性搜尋套用: 透過BM25相關度計算等功能,可以實作相關性較強的搜尋結果返回,適用於需要精準搜尋的套用場景。

  • 個人化評分需求: 如果使用者有特定的評分規則需要,可以透過該引擎的自訂評分欄位和規則功能實作個人化評分。

  • 線上文件檢索系統: 適用於構建線上文件檢索系統、知識庫等套用,提供高效的文件搜尋和檢索功能。

  • 總之,悟空全文搜尋引擎是一個功能強大且高度可客製的搜尋引擎,適用於各種不同的搜尋場景和套用需求。其快速索引速度和高效的搜尋響應時間使其成為處理大規模數據和實作個人化搜尋需求的理想選擇。

    開源地址:https://github.com/huichen/wukong

    微信公眾號:[開源日記],分享10k+Star的優質開源計畫

    創作不易 分享 , , 在看 ,三連支持一波,感謝。↓↓↓

    近期熱文: