當前位置: 妍妍網 > 碼農

2.4 K Star OCR 2.0來了!GOT-OCR-2.0正式開源,文本、文件、圖表、公式、樂譜辨識再上新台階!

2024-09-17碼農

OCR 2.0來了! 開源模型 GOT-OCR-2.0 正式釋出,標誌著新一代 AI OCR 技術的到來。

作為一款強大的端到端 OCR 模型, GOT-OCR-2.0 不僅支持傳統的場景文本和文件辨識,還能處理樂譜、圖表、甚至復雜的數學公式!

這個全新的模型設計采用了一個整合的 vision encoder decoder ,能夠同時處理多種型別的 OCR 輸入,從而極大提高了資訊傳遞的效率。

尤其是在高分辨率影像處理方面,GOT-OCR-2.0 采用了 local attention 機制,以避免全域註意力機制在高分辨率影像中的記憶體消耗問題。

核心特性

  • 支持多場景文本辨識 :GOT-OCR-2.0 具備辨識各種復雜內容的能力,包括但不限於:

  • • 場景文本(如街道標識、廣告牌)

  • • 文件辨識(適用於辦公、檔案管理)

  • 樂譜 圖表

  • 數學公式 (包括極其復雜的運算式)

  • 一體化端到端設計 :在傳統的 AI 1.0 時代,OCR 系統通常透過模組化的方式運作,各個子模組之間容易脫節,難以達到整體效能的最優。而 GOT-OCR-2.0 打破了這種模式,采用了 統一的端到端架構 。這種設計不僅能最佳化資訊傳遞,還極大簡化了不同任務的處理流程。無論是辨識文件還是復雜的場景文字,GOT-OCR-2.0 都可以透過一個強大的網路架構完成。

  • 高效處理高分辨率影像 :針對高分辨率影像,采用了 local attention 的新型結構,以避免傳統全域註意力機制帶來的高記憶體消耗問題。該模型能夠以 256×1024 imagetokens 的形式處理 1024×1024×3 尺寸的影像,顯著提升了辨識效率和精準度。

  • 適應 AI 2.0 時代 :在 AI 2.0 時代,GOT-OCR-2.0 不僅解決了傳統 OCR 模型需要針對不同任務配置不同模型的問題,還簡化了模型的維護和使用。透過一體化架構,它讓使用者能夠在各種場景下高效處理 OCR 任務,表現出了在密集型 OCR 任務中的巨大潛力。

  • 辨識效果展示

    螢幕擷取文本辨識/文件辨識/樂譜辨識/圖表辨識

    OCR2.0評測:

    結語

    模型大小僅為 1.43GB ,相較於其他AI模型其實算是小的了。而如此緊湊的模型卻具備極強的效能,非常值得開發者和研究人員嘗試。

    尤其是對於那些需要處理高復雜度 OCR 任務的使用者,這款模型無疑是一個革命性的工具。

    GOT-OCR-2.0 作為 AI 2.0 時代的產品,它憑借端到端的設計、一體化架構和對多場景復雜內容的辨識能力,提供了更加精準和高效的 OCR 解決方案。

    可以快快感受這款無敵的 OCR 2.0 工具帶來的高效工作流程!

    計畫地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0

    模型下載: https:// huggingface.co/ucaslcl/GOT-OCR2_0


    如果本文對您有幫助,也請幫忙點個 贊👍 + 在看 哈!❤️

    在看你就贊贊我!