验证码识别 发表于 2022-03-10 | 分类于 python爬虫 OCR识别12345678910111213141516171819202122232425brew install imagemagickbrew install tesseract-langpip3 install tesserocr pillow# 普通无干扰情况下的识别import tesserocrprint(tesserocr.file_to_text('code.jpg'))# 有多余点干扰的识别(其中干扰点的颜色比文字浅,比如文字黑色,干扰点彩色)import tesserocrfrom PIL import Imageimport numpy as npimage = Image.open('captcha2.png') #图一# 将图片由彩色转为灰度图像image = image.convert('L') # 图二# 设定灰度阈值 自设置根据实际情况设置阈值去除噪声threshold = 50# 将图片转为Numpy数组array = np.array(image)# 通过where方法对数组进行筛选# 将灰度大于阈值的图片像素设置为255,也就是白色,否则设置为0,也就是黑色(去噪处理)array = np.where(array > threshold, 255, 0)image = Image.fromarray(array.astype('uint8')) # 图三print(tesserocr.image_to_text(image)) 一些深度学习的办法目前无法理解,之后了解完深度学习再回来补充 赏个🍗吧 打赏 微信支付 支付宝 本文作者: Keeep 本文链接: http://Keeep.coding.me/blog/验证码识别/ 版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 许可协议。转载请注明出处!