tesseract-ocr安裝，OCR 工具tesseract初體驗

2023-10-17 阅读 26 评论 0

摘要：OCR 工具tesseract初體驗 @(工具使用)[工具使用, python] OCR即圖片上文字識別安裝tesseract github地址 tesseract是一個命令行程序，后面安裝的pytesseract也只是一層包裝，實際還是調用命令行下載 windows版下載地址安裝下載完之后安裝時點下一步慢點

OCR 工具tesseract初體驗

@(工具使用)[工具使用, python]

OCR即圖片上文字識別

安裝tesseract

github地址
tesseract是一個命令行程序，后面安裝的pytesseract也只是一層包裝，實際還是調用命令行

下載
windows版下載地址

安裝
下載完之后安裝時點下一步慢點，因為安裝的時候可以下載中文語言包

設置環境變量
安裝完之后需要設置兩個環境變量

把安裝路徑添加到PATH環境變量
設置TESSDATA_PREFIX環境變量，不然找不到語言包
TESSDATA_PREFIX=D:\Program Files (x86)\Tesseract-OCR\tessdata

這時命令行版tesseract就可以使用了

安裝pytesseract

pip install pytesseract

測試程序：

import pytesseract
from PIL import Image# 默認英語
image = Image.open('en.png')
text = pytesseract.image_to_string(image)
print(text)print("====================")# 識別中文, 巨慢
image = Image.open('cn.png')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)print("====================")# 設置中文和英語，識別巨慢，而且易錯
image = Image.open('en_cn_test.png')
text = pytesseract.image_to_string(image, lang='chi_sim+eng')
print(text)