4.6K star！Jina AI開源神器，一鍵最佳化網頁讓AI更懂你！

2024-05-24碼農

* 戳上方藍字「開源先鋒」關註我

簡介

Reader 是一個 Jina AI 開發的專為LLM設計的創新工具，它可以將網頁資訊轉換為LLM友好的格式，如Markdown。透過去除網頁中的冗余HTML標簽和程式碼，Reader保留了核心文本內容，使得LLM能夠更容易地解析和理解網頁資訊。

主要功能有兩個：讀取和搜尋。

讀取（Read）：將 URL 轉換為 LLM 友好的輸入。

搜尋（Search）：允許 LLM 存取來自網路的最新世界知識。

此外，Reader還支持流模式，能夠處理載入緩慢的網頁，並逐步獲取內容。

目前在Github上面收獲了4.6K star！

效能特色

免費且穩定：Reader API 是免費的，並且作為 Jina AI 的核心產品之一，得到了積極的維護。

影像閱讀：支持影像閱讀，能夠為缺少 alt 標簽的影像自動生成標題，並以特定的格式添加到輸出中，幫助 LLM 理解影像內容。

LLM友好的網頁輸入：Reader能夠將任意網頁URL轉換為LLM易於理解的格式，如Markdown。

流模式支持：Reader提供流模式，可以持續獲取網頁數據，提供更完整的輸出，解決網頁載入緩慢的問題。

請求頭參數個人化：Reader提供多種請求頭參數，允許使用者根據自身需求靈活控制產品行為。

套用場景廣泛：Reader可以套用於RAG系統、智慧問答、資訊提取、文本摘要等多種場景。

安裝使用

本地開發的話，需要先安裝 Node v18 和 Firebase CLI，然後依次執行命令

git clone [email protected]:jina-ai/reader.git cd backend/functions npm install

快速使用

最簡單的使用方法是，直接存取 Jina AI 提供的線上演示頁面： https://jina.ai/reader#demo ，可以立即體驗 Reader 的功能而無需進行任何安裝。

讀取

搜尋

透過轉換之後，AI回答和辨識的速度，準度都大大提高。

也可以直接使用添加字首的方法快速使用。

比如，使用讀取模式，在瀏覽器位址列中輸入 https://r.jina.ai/ ，後面跟上想要轉換的網頁 URL。例如，要轉換 Wikipedia 上關於人工智慧的頁面，可以存取： https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

這樣可以讓 LLM 更好的提取資訊

使用搜尋模式，在瀏覽器位址列中輸入 https://s.jina.ai/ ，後面跟上搜尋查詢。例如，搜尋 "2024 US presidential election"，可以存取： https://s.jina.ai/Who will win 2024 US presidential election?

使用 Reader API

基本用法

高級用法

如果想體驗 Reader 的流式模式，可以在命令列中使用 curl 命令。

curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

JSON 模式體驗，使用 curl 命令設定 Accept 頭為 application/json：

curl -H "Accept: application/json" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

小結一下， Reader 是 Jina AI 開發的一個功能強大且易於使用的工具，它透過簡化網頁內容的獲取和轉換過程，極大地提升了 LLM 套用的效率和準確性。

更多細節功能，感興趣的可以到計畫地址檢視：

計畫地址：
https://github.com/jina-ai/reader