Bob's Blog

Web开发、测试框架、自动化平台、APP开发、机器学习等

返回上页首页

Pytesseract配置以检测非英语



Pytesseract是对google的Tesseract-OCR包装后的工具包,用于光学字符识别。默认对英语文本的识别是不错的,对于非英语需要设置参数和指定语言包。这里列一个备忘。

对Mac需要brew install tesseract, 对windows需要下载OCR的可执行文件并配置环境变量。

语言包的下载地址是:https://tesseract-ocr.github.io/tessdoc/Data-Files.html  比如法语就下载fra.traineddata。

在用pytesseract识别非英语时,需要指定lang即语言包名,confg即语言包文件的路径,如下

import pytesseract

text = pytesseract.image_to_string('screen.png', lang='fra', config='--tessdata-dir ./lang/')

print(text)

 

下一篇:  Selenium做自动化时截取浏览器全屏页面
上一篇:  YOLOV5根据屏幕图像实时给出预测结果

共有1条评论

添加评论

https://evolution.Org.ua/
2024年12月4日 06:15
Wow that was odd. I just wrote an extremely long comment but after I clicked submnit my comment didn't show up. Grrrr... well I'm not writiong all that over again. Anyways, just wanted to say excellent blog! https://evolution.Org.ua/