推薦兩個在 GitHub 上都斬獲 12k+ 星星的 PDF 神器: OCRmyPDF 可讓你的 PDF 掃描件變得可搜尋; Marker 以高準確性快速將 PDF 文件轉換為 Markdown 格式
01
讓你的 PDF 掃描件變得可搜尋
在數位化時代,我們經常需要處理掃描的PDF檔,但這些檔往往不能被搜尋引擎索引,給資訊檢索帶來不便。
OCRmyPDF 這個精心打造的開源計畫,已經解決了這一問題。 它透過在掃描的 PDF 檔中添加 OCR 文本層,讓這些 PDF 掃碼件變得可搜尋,極大地提升了工作效率!
有啥牛的?
① 跨平台支持: 無論是 Windows、macOS 還是 Linux,OCRmyPDF 都能完美執行,滿足不同使用者的需求。
② 易於使用: 使用者可以透過命令列界面輕松地將掃描的 PDF 檔轉換為包含 OCR 文本層的 PDF。
③ 高度可客製: 支持多種語言的 OCR 引擎,使用者可以根據自己的需求選擇合適的 OCR 引擎。
OCRmyPDF 不僅僅是一個工具,還是提高工作效率的小助手。無論是學術研究、商務文件處理還是個人資料管理,OCRmyPDF 都能助你一臂之力。
開源地址:https://github.com/ocrmypdf/ocrmypdf
快來體驗它的強大功能,讓你的 PDF 檔活起來!
02
讓你的 PDF 一鍵轉換成 Markdown
Marker,由 Vik Paruchuri 精心打造的開源工具, 它能 以高準確性快速將 PDF 文件轉換為 Markdown 格式, 為那些需要在 Markdown 和 PDF 之間轉換內容的使用者提供了一個強大的工具。
Marker 是一個命令列工具,使用 Python 編寫,轉換成 Markdown 提高了文本的可讀性和可編輯性,同時為那些需要在不同平台和格式之間遷移內容的使用者提供了極大的便利。
這個開源的命令列工具, 可以在多種作業系統上執行,包括 Windows、macOS 和 Linux。 已經在 GitHub上獲得了13k 的 Star。
開源地址: https://github.com/VikParuchuri
準確率如何?
不管是響應時間還是準確率,Marker 都表現的不錯:
看看效果?
找了一個 PDF 檔:
講上面這個 PDF 轉換成 Markdown 效果:
簡單部署?
你可以安裝如下的方式去安裝使用這一款 PDF 轉換神器:
# 安裝Marker
pip install marker
# 轉換PDF到Markdown
marker input.pdf output.md
推薦閱讀
1.
2.
3.
4.