wordpress怎么搜索网站,免费网站推广咱们做,百度网址大全官方下载,设计非常好的网站#x1f680; 前言#xff1a;为什么要自己造轮子#xff1f;
在爬虫与反爬虫的博弈中#xff0c;图形验证码是最基础也最有效的第一道防线。
传统的解决方案通常有两个#xff1a;
OCR 识别#xff08;如 Tesseract#xff09;#xff1a;对付规整的数字还行#xff… 前言为什么要自己造轮子在爬虫与反爬虫的博弈中图形验证码是最基础也最有效的第一道防线。传统的解决方案通常有两个OCR 识别如 Tesseract对付规整的数字还行遇到扭曲、粘连、噪点多的现代验证码准确率基本归零。第三方打码平台准确率高但要花钱有网络延迟且把数据交给第三方存在隐私风险。为什么是 CNN ONNXCNN (卷积神经网络)图像识别领域的王者它能像人眼一样提取图片中的线条、纹理特征是对抗扭曲图形验证码的最佳武器。ONNX (Open Neural Network Exchange)它是一个AI模型的“通用翻译器”。你可以在 PyTorch/TensorFlow 中训练模型然后导出为 ONNX 格式。部署时你无需安装庞大的 PyTorch只需要一个轻量级的 ONNX Runtime 库即可运行推理速度极快且方便跨语言如 C/Java部署。今天我们将实现一个端到端的解决方案从数据生成到模型训练再到 ONNX 部署。️ 一、 技术架构路线图我们的目标是构建一个能够识别定长例如 4 位字母数字组合验证码的模型。这本质上是一个多标签分类问题。核心流程 (Mermaid):数据准备: 批量生成/采集验证码模型构建: 设计 CNN 网络结构模型训练: PyTorch 迭代优化模型导出: 转换为 .onnx 格式生产部署: ONNX Runtime 推理 二、 核心步骤实战1. 数据是王道生成海量训练集想要模型达到 99.9% 的准确率几百张图片是不够的我们需要几万甚至几十万张数据。对于通用型验证码最好的办法是自己生成数据。我们将使用 Python 的captcha库来模拟各种复杂的验证码环境。# pip install captcha opencv-pythonfromcaptcha.imageimportImageCaptchaimportrandomimportstringimportcv2importnumpyasnp# 定义字符集数字 小写字母CHAR_SETstring.digitsstring.ascii_lowercase CAPTCHA_LEN4WIDTH,HEIGHT160,60defgenerate_captcha(batch_size1):generatorImageCaptcha(widthWIDTH,heightHEIGHT)images[]labels[]for_inrange(batch_size):# 随机生成4位文本text.join(random.choices(CHAR_SET,kCAPTCHA_LEN))# 生成图片imagegenerator.generate_image(text)# 转为灰度图并归一化 (重要!)imagecv2.cvtColor(np.array(image),cv2.COLOR_RGB2GRAY)imageimage/255.0images.append(image)labels.append(text)returnnp.array(images),labels# 测试生成一张看看# img, label generate_captcha(1)# print(fGenerated: {label[0]})# cv2.imshow(captcha, img[0])# cv2.waitKey(0)注在实际训练中你需要编写 Dataset 类来实时生成这些数据喂给 GPU。2. 设计 CNN 网络 (基于 PyTorch)对于这种简单的图像任务我们不需要 ResNet50 这样的大杀器。一个简单的 3-4 层卷积网络足够了。网络的输出层是关键我们需要输出CAPTCHA_LEN * len(CHAR_SET)个节点。例如 4 位验证码字符集 36 个则输出层有 个节点。importtorchimporttorch.nnasnnclassCaptchaCNN(nn.Module):def__init__(self,num_chars,num_classes):super(CaptchaCNN,self).__init__()# 输入是 [Batch, 1, 60, 160] (灰度图)self.layer1nn.Sequential(nn.Conv2d(1,32,kernel_size3,padding1),nn.BatchNorm2d(32),nn.ReLU(),nn.MaxPool2d(2))# - [32, 30, 80]self.layer2nn.Sequential(nn.Conv2d(32,64,kernel_size3,padding1),nn.BatchNorm2d(64),nn.ReLU(),nn.MaxPool2d(2))# - [64, 15, 40]self.layer3nn.Sequential(nn.Conv2d(64,128,kernel_size3,padding1),nn.BatchNorm2d(128),nn.ReLU(),nn.MaxPool2d(2))# - [128, 7, 20]# 全连接层self.fcnn.Sequential(# 展平: 128 * 7 * 20nn.Linear(128*7*20,1024),nn.Dropout(0.5),nn.ReLU(),# 输出层: 4个字符每个字符36种可能nn.Linear(1024,num_chars*num_classes))defforward(self,x):xself.layer1(x)xself.layer2(x)xself.layer3(x)xx.view(x.size(0),-1)# Flattenxself.fc(x)# 关键将输出 reshape 成 [Batch, 4, 36] 以便计算每个字符的损失returnx.view(x.size(0),4,-1)(训练过程略使用 CrossEntropyLoss对 4 个位置分别计算损失并求和。经过几万次迭代你的 PyTorch 模型captcha_cnn.pth准确率应该能达到 95%)3. 关键一步导出为 ONNX 模型这是本文的精髓。假设你已经训练好了 PyTorch 模型现在我们要把它“固化”成通用的 ONNX 格式。# 假设 model 是你训练好并加载了权重的模型实例model.eval()# 1. 定义一个样例输入 (Dummy Input)形状必须和训练时一致# [BatchSize, Channels, Height, Width]dummy_inputtorch.randn(1,1,HEIGHT,WIDTH).to(device)# 2. 指定导出路径onnx_pathcaptcha_cnn_v1.onnx# 3. 执行导出torch.onnx.export(model,# 运行的模型dummy_input,# 模型输入样例onnx_path,# 保存路径export_paramsTrue,# 是否存储权重文件opset_version11,# ONNX算子版本推荐11或以上do_constant_foldingTrue,# 是否执行常量折叠优化input_names[input_image],# 输入节点的名称方便推理时调用output_names[output_code],# 输出节点的名称# 动态轴允许推理时 Batch Size 可变dynamic_axes{input_image:{0:batch_size},output_code:{0:batch_size}})print(fModel successfully exported to{onnx_path})4. 终极实战使用 ONNX Runtime 进行推理在生产环境或爬虫代码中我们不再需要 PyTorch只需要安装轻量级的onnxruntime。pipinstallonnxruntime-gpu# 如果有显卡# 或者 pip install onnxruntime推理代码 (极其简洁):importonnxruntimeasortimportnumpyasnpimportcv2# 1. 加载 ONNX 模型 (自动选择 GPU 或 CPU)ort_sessionort.InferenceSession(captcha_cnn_v1.onnx,providers[CUDAExecutionProvider,CPUExecutionProvider])# 2. 准备输入数据 (假设你从网络下载了一张验证码 target.jpg)# 预处理必须与训练时完全一致(灰度、大小、归一化)imgcv2.imread(target.jpg,cv2.IMREAD_GRAYSCALE)imgcv2.resize(img,(160,60))imgimg.astype(np.float32)/255.0# 增加 Batch 和 Channel 维度: [60, 160] - [1, 1, 60, 160]input_tensornp.expand_dims(img,axis(0,1))# 3. 执行推理# input_image 是我们导出时设置的输入名称ort_inputs{input_image:input_tensor}# output_code 是我们设置的输出名称ort_outsort_session.run([output_code],ort_inputs)[0]# 4. 解析结果# ort_outs 形状是 [1, 4, 36]result_indicesnp.argmax(ort_outs,axis2)[0]# 取出概率最大的索引 - [idx1, idx2, idx3, idx4]CHAR_SETstring.digitsstring.ascii_lowercase pred_text.join([CHAR_SET[i]foriinresult_indices])print(fAI 识别结果:{pred_text}) 三、 如何达成 99.9% 的“变态”准确率模型结构只是基础真正的功夫在数据上。如果你想让模型达到商用级别必须做到数据量级准备 20万 的训练数据。针对性训练所谓“通用”是指架构通用。如果你要攻克某个特定网站必须采集该网站的真实样本进行微调Fine-tune。数据增强 (Data Augmentation)在训练时实时对图片进行随机旋转、添加噪点、随机遮挡、弹性形变。这能极大提高模型的泛化能力防止过拟合。难例挖掘 (Hard Example Mining)把模型识别错的样本挑出来重点训练。⚖️ 免责声明本文介绍的技术仅供深度学习与计算机视觉研究学习使用。请勿将技术用于任何非法用途如侵入计算机信息系统、非法采集数据等。技术的价值在于创造而非破坏。