在Mac环境安装tesseract ocr
Contents
最近工作中Python爬虫有识别验证码的需求,开始是下载到本地,人眼识别,手动
input
输入。本着能代码解决的事情,绝不手动去做的原则,找到了这个,不过仅限于识别干净的验证码,一旦有干扰线等基本就没有成功率。
先安装Xcode Command Line Tool
。输入xcode-select --install
进行安装。
再安装marport
,http://www.macports.org/。安装后重启计算机。
命令行输入:sudo port install tesseract
随后安装语言包:
第二个语言包直接下载,在解压zip的时候出现error,一百多个文件迫不得得,只能一个一个的下载,耗时甚巨。
在这两个地址下载语言包后,拷贝到/opt/local/share/tessdata
目录下。
使用方式及其简单,如下:
import pytesseract
from PIL import Image
if __name__ == "__main__":
image = Image.open("Captcha.jpg")
code = pytesseract.image_to_string(image)
print(code)