常见的图形验证码与验证码识别技术的破
解
一 图形验证码的介绍
验证码是一种区分用户是计算机和人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。 二 常见的验证码类型 1 纯数字 2 纯英文字母 3 字母数字结合 4 纯汉字
5 数字英文汉字混合 三 答题吧验证码自动识别过程 第一步: 二值化
所谓二值化就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只剩下需要识别的文字,让图片变成2进制点阵。 第二步: 文字分割
为了能识别出字符,需要对要识别的文字图图片进行分割,把每个字符作为单独的一个图片看待。 第三步:标准化
对于部分特殊的验证码,需要对分割后的图片进行标准化处理,也就是说尽量把每个相同的字符都变成一样的格式,减少随机的程度最简单的比如旋转还原,复杂点的比如扭曲还原等等 第四步:识别
这一步可以用很多种方法,最简单的就是模板对比,对每个出现过的字符进行处理后把点阵变成字符串,标明是什么字符后,通过字符串对比来判断相似度。 四、验证码识别技术的破解
1 找到一款能够识别验证码的平台;(以答题吧为例)
2 进行代码破解。