* 戳上方藍字「 開源先鋒 」關註我
推薦閱讀:
大家好,我是開源君!
在這個資訊爆炸的時代,大型語言模型(LLM)正在成為我們獲取、處理和理解資訊的重要工具。然而,直接將網頁內容輸入到LLM中存在諸多挑戰,如網頁結構復雜、載入緩慢等問題。
今天開源君給大家介紹一個非常酷的開源計畫 -
Reader
,可以極大改善大型語言模型(LLM)的輸入品質。
簡介
Reader
是一個 Jina AI 開發的專為LLM設計的創新工具,它可以將網頁資訊轉換為LLM友好的格式,如Markdown。透過去除網頁中的冗余HTML標簽和程式碼,Reader保留了核心文本內容,使得LLM能夠更容易地解析和理解網頁資訊。
主要功能有兩個:讀取和搜尋。
讀取(Read):將 URL 轉換為 LLM 友好的輸入。
搜尋(Search):允許 LLM 存取來自網路的最新世界知識。
此外,Reader還支持流模式,能夠處理載入緩慢的網頁,並逐步獲取內容。
目前在Github上面收獲了4.6K star!
效能特色
免費且穩定:Reader API 是免費的,並且作為 Jina AI 的核心產品之一,得到了積極的維護。
影像閱讀:支持影像閱讀,能夠為缺少 alt 標簽的影像自動生成標題,並以特定的格式添加到輸出中,幫助 LLM 理解影像內容。
LLM友好的網頁輸入:Reader能夠將任意網頁URL轉換為LLM易於理解的格式,如Markdown。
流模式支持:Reader提供流模式,可以持續獲取網頁數據,提供更完整的輸出,解決網頁載入緩慢的問題。
請求頭參數個人化:Reader提供多種請求頭參數,允許使用者根據自身需求靈活控制產品行為。
套用場景廣泛:Reader可以套用於RAG系統、智慧問答、資訊提取、文本摘要等多種場景。
安裝使用
本地開發的話,需要先安裝 Node v18 和 Firebase CLI,然後依次執行命令
git clone [email protected]:jina-ai/reader.git
cd backend/functions
npm install
快速使用
最簡單的使用方法是,直接存取 Jina AI 提供的線上演示頁面:
https://jina.ai/reader#demo
,可以立即體驗 Reader 的功能而無需進行任何安裝。
透過轉換之後,AI回答和辨識的速度,準度都大大提高。
也可以直接使用添加字首的方法快速使用。
比如,使用讀取模式,在瀏覽器位址列中輸入
https://r.jina.ai/
,後面跟上想要轉換的網頁 URL。例如,要轉換 Wikipedia 上關於人工智慧的頁面,可以存取:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
這樣可以讓 LLM 更好的提取資訊
使用搜尋模式,在瀏覽器位址列中輸入
https://s.jina.ai/
,後面跟上搜尋查詢。例如,搜尋 "2024 US presidential election",可以存取:
https://s.jina.ai/Who will win 2024 US presidential election?
使用 Reader API
基本用法
高級用法
如果想體驗 Reader 的流式模式,可以在命令列中使用 curl 命令。
curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page
JSON 模式體驗,使用 curl 命令設定 Accept 頭為 application/json:
curl -H "Accept: application/json" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page
小結一下,
Reader
是 Jina AI 開發的一個功能強大且易於使用的工具,它透過簡化網頁內容的獲取和轉換過程,極大地提升了 LLM 套用的效率和準確性。
更多細節功能,感興趣的可以到計畫地址檢視:
計畫地址:
https://github.com/jina-ai/reader