大家好!我是開源君,一個熱衷於軟體開發和運維的工程師。本頻道我專註於分享Github和Gitee上的高品質開源計畫,並致力於推動前沿技術的分享。
功能描述:
pdf2docx是一個開源的Python庫,用於將PDF文件轉換為DOCX格式。該庫使用PyMuPDF從PDF中提取數據,如文本、圖片和繪圖,並使用python-docx來解析布局並生成DOCX文件。
功能特點:
1.解析和重新建立頁面布局
頁面邊距
段落分區和列(僅支持1列或2列)
頁面頁首和頁尾(待辦)
2.解析和重新建立段落
OCR文本(待辦)
文本水平/垂直方向:從左到右,從下到上
字型樣式,如字型名稱、大小、粗細、斜體和顏色
文本格式,如高亮、底線、刪除線
列表樣式(待辦)
外部超連結
段落水平對齊(左/右/居中/兩端)和垂直間距
3.解析和重新建立圖片
行內圖片
灰度/RGB/CMYK模式下的圖片
透明圖片
浮動影像,即背景影像
4.解析和重新建立表格
邊框樣式,如寬度、顏色
著色樣式,即背景顏色
合並單元格
垂直方向單元格
具有部份隱藏邊框的表格
巢狀表格
5.使用多處理解析頁面
使用場景:
pdf2docx適用於需要將PDF文件中的內容轉換為具有復雜布局和格式的DOCX文件的套用場景。一些常見的使用場景包括:
將從PDF檔中提取的文本、圖片和表格重新排版為可編輯的Word文件
在處理PDF報告或論文時,保持原始格式和結構的完整性
自動化文件轉換過程,提高工作效率並減少手動操作
pdf2docx的功能性和靈活性使其成為處理PDF文件轉換需求的有力工具,為使用者提供了便捷的解決方案,並為自動化文件處理帶來了更多可能性。
開源地址:https://github.com/ArtifexSoftware/pdf2docx
微信公眾號:[開源日記],分享10k+Star的優質開源計畫
創作不易 分享 , 贊 , 在看 ,三連支持一波,感謝。↓↓↓
近期熱文: