在咱們?nèi)粘5墓ぷ骱蛯W(xué)習(xí)里,總會(huì)遇到各種各樣的 PDF 文件,像合同、資料、文件之類的,數(shù)都數(shù)不過來。雖說 PDF 文件挺常用的,可一旦涉及到從里頭提取文字,那可就讓人頭疼了。很多時(shí)候,復(fù)制出來的文字不是格式亂了,就是出現(xiàn)一堆亂碼,根本沒法直接用,得花不少時(shí)間去調(diào)整和整理。
但是!今天要給大家介紹一個(gè)超厲害的開源工具 ——OCRmyPDF,有了它,你就能輕松搞定 PDF 文件里的文字提取問題,絕對(duì)是讓你對(duì) PDF 文件刮目相看的神器!
軟件介紹 OCRmyPDF 是一個(gè)開源的 Python 腳本工具,旨在通過OCR(光學(xué)字符識(shí)別)技術(shù),將掃描的PDF文件中的圖像內(nèi)容轉(zhuǎn)化為可搜索、可復(fù)制粘貼的文本層。簡(jiǎn)單來說,它能將PDF文件中的文字提取出來,同時(shí)保留原有的圖像分辨率,確保用戶能夠輕松復(fù)制和粘貼內(nèi)容。這個(gè)工具不僅支持多種語言,還能夠處理數(shù)千頁的文件,堪稱PDF處理領(lǐng)域的神器!
主要功能
OCR文本提取與保留圖像分辨率 OCRmyPDF 的核心功能是將PDF文件中的OCR文本提取出來,并將其準(zhǔn)確地放置在圖像下方,這樣用戶就可以輕松復(fù)制和粘貼文字內(nèi)容。同時(shí),它能夠保留原始圖像的分辨率,避免因壓縮或調(diào)整而丟失質(zhì)量。多語言支持 作為Tesseract OCR引擎的親兒子,OCRmyPDF 支持超過100種語言,無論是中文、英文還是其他語言,都能輕松識(shí)別并提取。優(yōu)化PDF圖像 通過OCRmyPDF,用戶可以優(yōu)化PDF圖像,通常生成的文件比輸入文件小,節(jié)省存儲(chǔ)空間。預(yù)處理功能 OCRmyPDF 提供了預(yù)處理功能,用戶可以根據(jù)需求對(duì)圖像進(jìn)行校正或清理,然后再進(jìn)行OCR識(shí)別,確保后續(xù)操作的準(zhǔn)確性。無損插入OCR信息 該工具能夠盡可能以無損方式插入OCR信息,不會(huì)干擾其他內(nèi)容,確保文件的完整性和可編輯性。多核支持 OCRmyPDF 在所有可用的CPU核心上分配工作,能夠高效處理大量文件,提升處理速度。開源成就 目前已經(jīng)獲得16.5K Star
安裝指南 安裝OCRmyPDF非常簡(jiǎn)單,它支持多種操作系統(tǒng):
Linux :通過包管理器安裝,例如 apt install ocrmypdf
。macOS :通過 Homebrew 或其他工具安裝。FreeBSD :通過 pkg install py-ocrmypdf
安裝。安裝完成后,用戶可以通過命令行運(yùn)行工具,根據(jù)需求添加OCR層、轉(zhuǎn)換文件格式或處理其他操作。
功能展示 生成 PDF/A 文件
ocrmypdf input.pdf output.pdf
說明 :添加 OCR 層,生成 PDF/A 格式文件,適合長(zhǎng)期保存。
生成普通 PDF 文件
ocrmypdf --output-type pdf input.pdf output.pdf
說明 :添加 OCR 層,生成普通 PDF 文件,適合日常使用。
生成 PDF 和文本文件
ocrmypdf --sidecar output.txt input.pdf output.pdf
說明 :生成 PDF 文件的同時(shí),提取文字到單獨(dú)的文本文件,方便后續(xù)處理。
OCRmyPDF 是一個(gè)功能強(qiáng)大且易于使用的工具,能夠幫助用戶高效處理PDF文件。無論是提取OCR文本、優(yōu)化圖像還是處理多語言文件,它都能提供卓越的表現(xiàn)。如果你正在尋找一款能夠提升PDF處理效率的工具,OCRmyPDF絕對(duì)值得一試!
開源地址: https://github.com/ocrmypdf/OCRmyPDF/
閱讀原文:原文鏈接
該文章在 2025/2/10 10:14:49 編輯過