當前位置：妍妍網 > 碼農

JinaAI開源升級！一個開源HTML轉Markdown和JSON的小型語言模型，參數僅有1.8B。

2025-01-16碼農

在AI問答場景， 尤其是大數量級的AI數據處理場景 ，html直接餵給AI是行不通的，消耗資源太多了。

我們曾經也面臨這個問題，解決方案很簡單， 最好的方式就是把html轉成Markdown格式。

只不過之前圖省事，我們直接呼叫了JinaAI的API，先把html轉換成Markdown再餵給AI去處理。

今天突然發現， JinaAI開源了ReaderLM-v2 ， 這意味著成本又降低了啊！

當然在效果上也有很大的提升。

掃碼加入AI交流群

獲得更多技術支持和交流

（請註明自己的職業）

計畫簡介

ReaderLM-v2是由JinaAI開源的一個1.5B參數的語言模型，它能夠將原始HTML內容精準轉換為格式優美的Markdown或JSON。該模型專為HTML解析、轉換和文本提取任務而訓練。可處理長達512K tokens的輸入輸出，且在生成長序列時穩定性更強。透過Reader API、Google Colab和本地部署都能便捷使用，實作高效的內容轉換與提取。

DEMO及對比

·HTML轉markdown

·HTML轉JSON

功能升級

相較於V1版本，ReaderLM-v2做了很多的升級。

1、更好的Markdown生成

使用了新的訓練範式和更高品質的訓練數據，雖然V1版本將 HTML 轉 Markdown 的轉換視為一個"選擇性復制"任務，但v2 將其視為真正的轉譯過程。這種轉變使模型能夠熟練運用 Markdown 語法，擅長生成程式碼框、巢狀列表、表格和 LaTex 方程式式等復雜元素。

2、JSON輸出

新增加了直接從HTML到JSON的生成，使用預定義的模式，消除了中間Markdown轉換的需要。

3、更長的上下文處理

能夠處理長達512K tokens的組合輸入和輸出長度，在處理長篇內容時效能得到提升。

4、多語言支持

全面支持29種語言，包括英語、中文、日語、韓語、法語、西班牙語、葡萄牙語、德語、義大利語、俄語、越南語、泰語、阿拉伯語等。

5、更強的穩定性

透過訓練過程中的對比損失，大大減輕了生成長序列後的退化問題。

計畫連結

https://huggingface.co/jinaai/ReaderLM-v2

關註「 開源AI計畫落地 」公眾號

與AI時代更靠近一點

Copyright © 2025 ai.jasve.com NO.1 妍妍網

文章部分內容源自網絡，僅供AI學習使用，如有侵權請告知，我們將在48小時內刪除：xingwa#jasve.com（傳送郵件請將#換成@）