Contents

最近工作中Python爬虫有识别验证码的需求,开始是下载到本地,人眼识别,手动input输入。本着能代码解决的事情,绝不手动去做的原则,找到了这个,不过仅限于识别干净的验证码,一旦有干扰线等基本就没有成功率。

先安装Xcode Command Line Tool。输入xcode-select --install进行安装。

再安装marporthttp://www.macports.org/。安装后重启计算机。

命令行输入:sudo port install tesseract

随后安装语言包:

第二个语言包直接下载,在解压zip的时候出现error,一百多个文件迫不得得,只能一个一个的下载,耗时甚巨。

在这两个地址下载语言包后,拷贝到/opt/local/share/tessdata目录下。

使用方式及其简单,如下:

import pytesseract
from PIL import Image

if __name__ == "__main__":
    image = Image.open("Captcha.jpg")
    code = pytesseract.image_to_string(image)
    print(code)
Contents