Pytesseract配置以检测非英语
2022年4月14日 - 由Bo 1 评论 1040 阅读
Pytesseract是对google的Tesseract-OCR包装后的工具包,用于光学字符识别。默认对英语文本的识别是不错的,对于非英语需要设置参数和指定语言包。这里列一个备忘。
对Mac需要brew install tesseract, 对windows需要下载OCR的可执行文件并配置环境变量。
语言包的下载地址是:https://tesseract-ocr.github.io/tessdoc/Data-Files.html 比如法语就下载fra.traineddata。
在用pytesseract识别非英语时,需要指定lang即语言包名,confg即语言包文件的路径,如下
import pytesseract
text = pytesseract.image_to_string('screen.png', lang='fra', config='--tessdata-dir ./lang/')
print(text)
上一篇:
YOLOV5根据屏幕图像实时给出预测结果
共有1条评论
添加评论
https://evolution.Org.ua/
2024年12月4日 06:15Wow that was odd. I just wrote an extremely long comment but after I clicked submnit my comment didn't show up. Grrrr... well I'm not writiong all that over again. Anyways, just wanted to say excellent blog! https://evolution.Org.ua/