當前位置: 妍妍網 > 碼農

2.1K Star找了很久!Python PDF轉DOCX好用工具

2024-04-22碼農

大家好!我是開源君,一個熱衷於軟體開發和運維的工程師。本頻道我專註於分享Github和Gitee上的高品質開源計畫,並致力於推動前沿技術的分享。

功能描述:

pdf2docx是一個開源的Python庫,用於將PDF文件轉換為DOCX格式。該庫使用PyMuPDF從PDF中提取數據,如文本、圖片和繪圖,並使用python-docx來解析布局並生成DOCX文件。

功能特點:

  • 1.解析和重新建立頁面布局

  • 頁面邊距

  • 段落分區和列(僅支持1列或2列)

  • 頁面頁首和頁尾(待辦)

  • 2.解析和重新建立段落

  • OCR文本(待辦)

  • 文本水平/垂直方向:從左到右,從下到上

  • 字型樣式,如字型名稱、大小、粗細、斜體和顏色

  • 文本格式,如高亮、底線、刪除線

  • 列表樣式(待辦)

  • 外部超連結

  • 段落水平對齊(左/右/居中/兩端)和垂直間距

  • 3.解析和重新建立圖片

  • 行內圖片

  • 灰度/RGB/CMYK模式下的圖片

  • 透明圖片

  • 浮動影像,即背景影像

  • 4.解析和重新建立表格

  • 邊框樣式,如寬度、顏色

  • 著色樣式,即背景顏色

  • 合並單元格

  • 垂直方向單元格

  • 具有部份隱藏邊框的表格

  • 巢狀表格

  • 5.使用多處理解析頁面

  • 使用場景:

    pdf2docx適用於需要將PDF文件中的內容轉換為具有復雜布局和格式的DOCX文件的套用場景。一些常見的使用場景包括:

  • 將從PDF檔中提取的文本、圖片和表格重新排版為可編輯的Word文件

  • 在處理PDF報告或論文時,保持原始格式和結構的完整性

  • 自動化文件轉換過程,提高工作效率並減少手動操作

  • pdf2docx的功能性和靈活性使其成為處理PDF文件轉換需求的有力工具,為使用者提供了便捷的解決方案,並為自動化文件處理帶來了更多可能性。

    開源地址:https://github.com/ArtifexSoftware/pdf2docx

    微信公眾號:[開源日記],分享10k+Star的優質開源計畫

    創作不易 分享 , , 在看 ,三連支持一波,感謝。↓↓↓

    近期熱文: