Bob blog

返回上页首页

2022年4月14日 - 由Bo 0 评论 1318 阅读

python

Pytesseract是对google的Tesseract-OCR包装后的工具包，用于光学字符识别。默认对英语文本的识别是不错的，对于非英语需要设置参数和指定语言包。这里列一个备忘。

对Mac需要brew install tesseract, 对windows需要下载OCR的可执行文件并配置环境变量。

语言包的下载地址是：https://tesseract-ocr.github.io/tessdoc/Data-Files.html 比如法语就下载fra.traineddata。

在用pytesseract识别非英语时，需要指定lang即语言包名，confg即语言包文件的路径，如下

import pytesseract

text = pytesseract.image_to_string('screen.png', lang='fra', config='--tessdata-dir ./lang/')

print(text)

Bob's Blog