# 1、PyMuPDF簡(jiǎn)介
1.介紹
在介紹PyMuPDF之前,先來(lái)了解一下MuPDF,從命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。
MuPDF
MuPDF 是一個(gè)輕量級(jí)的 PDF、XPS和電子書(shū)查看器。MuPDF 由軟件庫(kù)、命令行工具和各種平臺(tái)的查看器組成。
MuPDF 中的渲染器專(zhuān)為高質(zhì)量抗鋸齒圖形量身定制。它以精確到像素的幾分之一內(nèi)的度量和間距呈現(xiàn)文本,以在屏幕上再現(xiàn)打印頁(yè)面的外觀時(shí)獲得最高保真度。
這個(gè)觀察器很小,速度很快,但是很完整。它支持多種文檔格式,如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。您可以使用移動(dòng)查看器對(duì)PDF文檔進(jìn)行注釋和填寫(xiě)表單(這個(gè)功能很快也將應(yīng)用于桌面查看器)。
命令行工具允許您注釋、編輯文檔,并將文檔轉(zhuǎn)換為其他格式,如HTML、SVG、PDF和CBZ。您還可以使用Javascript編寫(xiě)腳本來(lái)操作文檔。
PyMuPDF
PyMuPDF(當(dāng)前版本1.18.17)是支持MuPDF(當(dāng)前版本1.18.*)的Python綁定。
使用PyMuPDF,你可以訪(fǎng)問(wèn)擴(kuò)展名為“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外,大約10種流行的圖像格式也可以像文檔一樣處理:“.png”,“.jpg”,“.bmp”,“.tiff”等。
# 2. 功能
對(duì)于所有支持的文檔類(lèi)型可以:
解密文件
訪(fǎng)問(wèn)元信息、鏈接和書(shū)簽
以柵格格式(PNG和其他格式)或矢量格式SVG呈現(xiàn)頁(yè)面
搜索文本
提取文本和圖像
轉(zhuǎn)換為其他格式:PDF, (X)HTML, XML, JSON, text
對(duì)于PDF文檔,存在大量的附加功能:它們可以創(chuàng)建、合并或拆分。頁(yè)面可以通過(guò)多種方式插入、刪除、重新排列或修改(包括注釋和表單字段)。
可以提取或插入圖像和字體
完全支持嵌入式文件
pdf文件可以重新格式化,以支持雙面打印,色調(diào)分離,應(yīng)用標(biāo)志或水印
完全支持密碼保護(hù):解密、加密、加密方法選擇、權(quán)限級(jí)別和用戶(hù)/所有者密碼設(shè)置
支持圖像、文本和繪圖的 PDF 可選內(nèi)容概念
可以訪(fǎng)問(wèn)和修改低級(jí) PDF 結(jié)構(gòu)
命令行模塊"python -m fitz…"具有以下特性的多功能實(shí)用程序
加密/解密/優(yōu)化
創(chuàng)建子文檔
文檔連接
圖像/字體提取
完全支持嵌入式文件
保存布局的文本提取(所有文檔)
新:布局保存文本提取!
腳本fitzcliy .py通過(guò)子命令“gettext”提供不同格式的文本提取。特別有趣的當(dāng)然是布局保存,它生成的文本盡可能接近原始物理布局,周?chē)袌D像的區(qū)域,或者在表格和多列文本中復(fù)制文本。