當前位置: 妍妍網 > 碼農

Reader:5.1k星星!用大模型將網頁內容轉化成格式化的知識庫

2024-06-10碼農

計畫簡介

Jina AI的Reader計畫是一個強大的工具,它透過簡單的URL字首轉換,將任何網頁內容轉化為對大型語言模型(LLM)友好的輸入格式。

Reader主要提供兩個功能:閱讀和搜尋。

透過「閱讀」功能,使用者可以將網頁內容轉換成最佳化後的格式,以提高語言代理和可檢索生成模型的輸出品質。而「搜尋」功能則允許使用者查詢並直接獲取網路上的最新資訊,自動格式化為LLM友好的形式。這兩個功能都是免費、穩定且可延伸的,適用於生產環境。

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

DEMO

用Reader把github上的頁面轉換成了結構化的內容,資訊非常完善,可以用於批次的內容抓取工作。

實際套用

Reader可以套用於多種場景,包括:

1.內容摘要和轉換: 將網頁內容轉換成對語言模型友好的格式,便於內容的進一步處理和分析。

2.資訊檢索: 透過特定的URL字首查詢,快速獲取網路上的資訊,並自動將其格式化,使其更易於語言模型的處理和理解。

3.增強學習和研究: 為學術研究或機器學習模型提供更準確、更結構化的數據輸入。

4.內容稽核和分析: 自動抓取網頁內容,進行內容稽核或情感分析,有助於監測和評估網路上的資訊。

這些功能使Reader成為處理和最佳化網路內容的有力工具,特別適用於需要高效資訊處理的環境。

用法

1.單個URL獲取:

使用r.jina.ai可以簡化單個URL的處理。只需在任何URL前添加 https://r.jina.ai/。

例如,要將URL「https://en.wikipedia.org/wiki/Artificial_intelligence」 轉換為LLM(大型語言模型)友好的輸入,可以使用以下URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence。

這個服務會自動為缺少alt標簽的頁面圖片添加說明,並透過視覺語言模型(VLM)進行格式化。

2.網路搜尋:

使用s.jina.ai進行網路搜尋時,只需在搜尋查詢前添加 https://s.jina.ai/。 如果在程式碼中使用,應確保先對搜尋查詢進行編碼。

例如,如果查詢是「Who will win 2024 US presidential election?」,則URL應該是:https://s.jina.ai/Who will win 2024 US presidential election?。

在幕後,Reader會搜尋網路,獲取前5個結果,存取每個URL,並套用r.jina.ai技術。這與許多只返回搜尋引擎API提供的標題、URL和描述的代理/RAG框架中的網頁搜尋功能呼叫不同。

如果你想更深入地閱讀某個結果,Reader會自動為你從頂部5個搜尋結果的URL中獲取內容,無需你自己處理瀏覽器渲染、阻塞或任何與JavaScript和CSS相關的問題。

3.互動式程式碼片段生成器

推薦使用程式碼生成器來探索Reader API的不同參陣列合。

4.JSON模式

①使用 curl 獲取 JSON 數據:

程式碼範例:

curl -H "Accept: application/json" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

此命令透過 curl,設定 HTTP 頭部為 Accept: application/json,向 r.jina.ai 發送請求,並透過該服務存取維基百科主頁,返回的數據格式為 JSON,包含 url、title 和 content 三個欄位。

②s.jina.ai API 結構:

在 JSON 模式下,s.jina.ai 返回一個包含五個結果的列表,每個結果均以字典形式組織,包括 title、content 和 url 三個欄位。這說明 s.jina.ai 更適合於處理搜尋請求,返回的是多個相關搜尋結果的數據結構。

安裝

為了執行計畫,你需要準備以下工具和步驟:

1.Node.js v18: 使用Node版本18,因為更高版本可能導致構建失敗。

2.Firebase CLI: 需要全域安裝Firebase命令列工具,可以使用以下命令進行安裝:

npm install -g firebase-tools

3.複制計畫程式碼庫:

git clone [email protected]:jina-ai/reader.git

4.安裝後端依賴:

· 進入後端功能目錄:

cd backend/functions

· 安裝所需的npm依賴:

npm install

計畫連結

https://github.com/jina-ai/reader

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點