python中可以使用pdfminer庫來讀取PDF文件中的內(nèi)容。
安裝命令:
pipinstallpdfminer
pipinstallpdfminer3k
python中讀取PDF文件代碼:
fromurllib.requestimporturlopen
frompdfminer.pdfinterpimportPDFResourceManager,process_pdf
frompdfminer.converterimportTextConverter
frompdfminer.layoutimportLAParams
fromioimportStringIO
fromioimportopen
defreadPDF(pdfFile):
rsrcmgr=PDFResourceManager()
retstr=StringIO()
laparams=LAParams()
device=TextConverter(rsrcmgr,retstr,laparams=laparams)
process_pdf(rsrcmgr,device,pdfFile)
device.close()
content=retstr.getvalue()
retstr.close()
returncontent
pdfFile=urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString=readPDF(pdfFile)
print(outputString)
pdfFile.close()
解析pdf文件用到的類:
PDFParser:從一個文件中獲取數(shù)據(jù)
PDFDocument:保存獲取的數(shù)據(jù),和PDFParser是相互關(guān)聯(lián)的
PDFPageInterpreter處理頁面內(nèi)容
PDFDevice將其翻譯成你需要的格式
PDFResourceManager用于存儲共享資源,如字體或圖像。
以上內(nèi)容為大家介紹了pdf如何用python讀取?希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓(xùn)機構(gòu):千鋒教育。