當前位置: 妍妍網 > 碼農

JinaAI開源升級!一個開源HTML轉Markdown和JSON的小型語言模型,參數僅有1.8B。

2025-01-16碼農

在AI問答場景, 尤其是大數量級的AI數據處理場景 ,html直接餵給AI是行不通的,消耗資源太多了。

我們曾經也面臨這個問題,解決方案很簡單, 最好的方式就是把html轉成Markdown格式。

只不過之前圖省事,我們直接呼叫了JinaAI的API,先把html轉換成Markdown再餵給AI去處理。

今天突然發現, JinaAI開源了ReaderLM-v2 這意味著成本又降低了啊!

當然在效果上也有很大的提升。

掃碼加入AI交流群

獲得更多技術支持和交流

(請註明自己的職業)

計畫簡介

ReaderLM-v2是由JinaAI開源的一個1.5B參數的語言模型,它能夠將原始HTML內容精準轉換為格式優美的Markdown或JSON。該模型專為HTML解析、轉換和文本提取任務而訓練。可處理長達512K tokens的輸入輸出,且在生成長序列時穩定性更強。透過Reader API、Google Colab和本地部署都能便捷使用,實作高效的內容轉換與提取。

DEMO及對比

·HTML轉markdown

·HTML轉JSON

功能升級

相較於V1版本,ReaderLM-v2做了很多的升級。

1、更好的Markdown生成

使用了新的訓練範式和更高品質的訓練數據,雖然V1版本將 HTML 轉 Markdown 的轉換視為一個"選擇性復制"任務,但v2 將其視為真正的轉譯過程。這種轉變使模型能夠熟練運用 Markdown 語法,擅長生成程式碼框、巢狀列表、表格和 LaTex 方程式式等復雜元素。

2、JSON輸出

新增加了直接從HTML到JSON的生成,使用預定義的模式,消除了中間Markdown轉換的需要。

3、更長的上下文處理

能夠處理長達512K tokens的組合輸入和輸出長度,在處理長篇內容時效能得到提升。

4、多語言支持

全面支持29種語言,包括英語、中文、日語、韓語、法語、西班牙語、葡萄牙語、德語、義大利語、俄語、越南語、泰語、阿拉伯語等。

5、更強的穩定性

透過訓練過程中的對比損失,大大減輕了生成長序列後的退化問題。

計畫連結

https://huggingface.co/jinaai/ReaderLM-v2

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點