生活中我們可能會遇到需要從圖片上獲取文本內(nèi)容的情況,人工去核對的話非常頭疼,今天小千就來教大家使用Python一行代碼就能實(shí)現(xiàn)文本識別,下面來看看吧。
Python圖片文本識別
這里我們需要用到兩個(gè)庫:pytesseract和PIL,同時(shí)我們還需要安裝識別引擎tesseract-ocr
安裝這兩個(gè)包可以借助pip
pip install PIL
pip install pytesseract
然后我們還需要安裝識別引擎tesseract-ocr和中文語言包,默認(rèn)是不支持中文識別的,所以需要同學(xué)們額外安裝一個(gè)中文語言包,網(wǎng)絡(luò)上下載安裝即可。
安裝完成tesseract-ocr后,我們還需要做一下配置關(guān)聯(lián)到Python中:
在你安裝Python的文件夾中C:\Users\huxiu\AppData\Local\Programs\Python\Python35\Lib\site-packages\pytesseract找到pytesseract.py文件,打開之后在里面添加下面的操作。
CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
#tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
可以看到里面有一個(gè)路徑就是你安裝Tesseract-OCR的路徑,注意不要填錯(cuò)了。
配置完成之后就可以使用它們了,代碼如下,其中denggao.jpeg為圖片,同學(xué)們替換成自己想要的圖片即可。
好了同學(xué)們趕緊去自己試試吧,最后歡迎大家來到千鋒了解一下我們的Python培訓(xùn)課程,涵蓋了Python爬蟲、Python web、Python人工智能等領(lǐng)域,歡迎同學(xué)們前來試聽學(xué)習(xí)。