在AI問答場景, 尤其是大數量級的AI數據處理場景 ,html直接餵給AI是行不通的,消耗資源太多了。
我們曾經也面臨這個問題,解決方案很簡單, 最好的方式就是把html轉成Markdown格式。
只不過之前圖省事,我們直接呼叫了JinaAI的API,先把html轉換成Markdown再餵給AI去處理。
今天突然發現, JinaAI開源了ReaderLM-v2 , 這意味著成本又降低了啊!
當然在效果上也有很大的提升。
掃碼加入AI交流群
獲得更多技術支持和交流
(請註明自己的職業)
計畫簡介
ReaderLM-v2是由JinaAI開源的一個1.5B參數的語言模型,它能夠將原始HTML內容精準轉換為格式優美的Markdown或JSON。該模型專為HTML解析、轉換和文本提取任務而訓練。可處理長達512K tokens的輸入輸出,且在生成長序列時穩定性更強。透過Reader API、Google Colab和本地部署都能便捷使用,實作高效的內容轉換與提取。
DEMO及對比
·HTML轉markdown
·HTML轉JSON
功能升級
相較於V1版本,ReaderLM-v2做了很多的升級。
1、更好的Markdown生成
使用了新的訓練範式和更高品質的訓練數據,雖然V1版本將 HTML 轉 Markdown 的轉換視為一個"選擇性復制"任務,但v2 將其視為真正的轉譯過程。這種轉變使模型能夠熟練運用 Markdown 語法,擅長生成程式碼框、巢狀列表、表格和 LaTex 方程式式等復雜元素。
2、JSON輸出
新增加了直接從HTML到JSON的生成,使用預定義的模式,消除了中間Markdown轉換的需要。
3、更長的上下文處理
能夠處理長達512K tokens的組合輸入和輸出長度,在處理長篇內容時效能得到提升。
4、多語言支持
全面支持29種語言,包括英語、中文、日語、韓語、法語、西班牙語、葡萄牙語、德語、義大利語、俄語、越南語、泰語、阿拉伯語等。
5、更強的穩定性
透過訓練過程中的對比損失,大大減輕了生成長序列後的退化問題。
計畫連結
https://huggingface.co/jinaai/ReaderLM-v2
關註「 開源AI計畫落地 」公眾號
與AI時代更靠近一點