Python案例如何实现验证码识别？

wen python案例 2026-06-18 8

Python验证码识别实战：从图像处理到深度学习全解析

📖 目录导读

验证码识别的底层逻辑 – 为什么简单的OCR无法直接使用？
图像预处理四大金刚 – 灰度、二值化、降噪、分割的Python实现
传统方法：模板匹配与OCR结合 – 适合简单数字/字母验证码
深度学习方案：CNN+CRNN实战 – 复杂扭曲验证码的终极解法
真实案例：三方平台验证码破解 – 规避反爬策略的注意事项
常见问题Q&A – 识别率低？训练数据不够？滑动验证码如何处理？
总结与SEO优化建议 – 代码可复现性、学习路线图

验证码识别的底层逻辑

验证码识别本质是多分类图像识别任务，但传统OCR引擎（如Tesseract）对字符重叠、扭曲、噪点干扰的验证码几乎失效,因此需要定制化流水线：

Python案例如何实现验证码识别？

原始验证码 → 图像预处理 → 字符分割/序列建模 → 分类器输出文本

Q：为什么不直接调用百度OCR API？
A：API对简单验证码有效，但成本高、依赖网络、且容易被服务商限流（如修改User-Agent）,本地化部署的Python方案更可控。

图像预处理四大金刚（Python代码实战）

1 灰度化与二值化

import cv2
import numpy as np
def preprocess(img_path):
    img = cv2.imread(img_path)
    # 灰度化
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    # 自适应二值化（处理光照不均）
    binary = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C,
                                   cv2.THRESH_BINARY_INV, 11, 2)
    return binary

2 噪点消除（中值滤波+开运算）

def denoise(binary):
    # 中值滤波
    denoised = cv2.medianBlur(binary, 3)
    # 开运算（先腐蚀后膨胀，消除孤立噪点）
    kernel = np.ones((2,2), np.uint8)
    opened = cv2.morphologyEx(denoised, cv2.MORPH_OPEN, kernel)
    return opened

3 字符分割（投影法）

def segment(opened):
    # 水平投影切割行
    h_proj = np.sum(opened, axis=1) // 255
    rows = np.where(h_proj > 0)[0]
    # 垂直投影切割字符
    v_proj = np.sum(opened[rows[0]:rows[-1], :], axis=0) // 255
    cols = np.where(v_proj > 0)[0]
    # 返回每个字符的边界框
    return [(rows[0], rows[-1], start, end) for start, end in zip(cols[::2], cols[1::2])]

Q：字符粘连严重怎么处理？
A：使用连通域分析或水漫填充法，若仍需分割，可改用序列标注模型（如CRNN）直接识别整图。

传统方法：模板匹配+OCR（适合简单验证码）

针对纯数字、无旋转的验证码，可建立字体模板库,进行相关性匹配：

from skimage.measure import compare_ssim
def match_template(char_img, templates):
    best_match = None
    max_score = 0
    for label, template in templates.items():
        score = compare_ssim(char_img, template)
        if score > max_score:
            max_score = score
            best_match = label
    return best_match

Q：模板匹配精度上限？
A：对干扰因素（旋转、缩放、噪点）鲁棒性差，准确率通常低于80%。

深度学习方案：CNN+CRNN（复杂验证码的克星）

1 数据生成（防止过拟合的关键）

from captcha.image import ImageCaptcha
import random, string
# 生成与真实验证码风格类似的合成数据
def gen_data(num=5000):
    generator = ImageCaptcha(width=160, height=60)
    for _ in range(num):
        chars = ''.join(random.choices(string.digits+string.ascii_uppercase, k=4))
        generator.write(chars, f'data/{chars}.png')

2 构建CRNN模型（PyTorch/TensorFlow）

核心架构：CNN提取特征 → LSTM序列建模 → CTC损失函数解码

import torch.nn as nn
class CRNN(nn.Module):
    def __init__(self, num_classes):
        super().__init__()
        self.cnn = nn.Sequential(
            nn.Conv2d(1, 64, 3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),  # 80x30 -> 40x15
            nn.Conv2d(64, 128, 3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2, 1),  # 40x15 -> 20x15
        )
        self.lstm = nn.LSTM(128*15, 256, bidirectional=True, num_layers=2)
        self.fc = nn.Linear(512, num_classes)  # 输出字符概率
    def forward(self, x):
        x = self.cnn(x)  # (batch, 128, 20, 15)
        x = x.permute(0, 3, 2, 1).reshape(x.size(0), -1, 128*15)  # (batch, seq_len, feat)
        x, _ = self.lstm(x)
        return self.fc(x)

3 训练与推理注意事项

损失函数：torch.nn.CTCLoss
推理解码：使用贪心搜索或Beam Search
特殊字符处理：加入<blank>符号对应CTC空白符

Q：训练需要多少数据？
A：4字符验证码建议至少5万张，若缺少样本，可使用迁移学习（预训练OCR模型微调）。

真实案例：三方网站验证码破解（含反爬）

场景：某电商平台登录验证码（扭曲数字+背景条纹）

操作步骤：

抓取验证码图片URL（注意cookie关联）
图像预处理：去除背景条纹（颜色滤波HSV inRange）
训练一个字符分类器（ResNet18微调）
使用Selenium或requests模拟提交

# 反爬规避技巧
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Referer': 'https://api.example.com/captcha',
}
# 识别后延时提交（模拟人类）
time.sleep(random.uniform(0.5, 1.5))

风险声明：仅限合法授权测试,不得用于恶意攻击。