百哥么么哒|个人网站

Amazonz验证码机器算法识别

分类： ML

TTyb 2016-12-10 2784

在破解Amazon的验证码的时候，利用机器学习得到验证码破解精度超过70%，主要是训练样本不够，如果在足够的样本下达到90%是非常有可能的。 update后，样本数为2800多，破解精度达到90%以上，perfect!

文档结构为

-- iconset1
   -- ...
-- jpg
   -- img
   -- jpg
      -- ...
   -- error.txt
-- py
   -- crack.py

需要的库

pip3 install pillow or easy_install Pillow

必须文件下载地址

Amazon验证码识别

1.读取图片，打印图片的结构直方图

遍历出所有的jpg文件，

import os

# 找出文件夹下所有xml后缀的文件
def listfiles(rootdir, prefix='.xml'):
    file = []
    for parent, dirnames, filenames in os.walk(rootdir):
        if parent == rootdir:
            for filename in filenames:
                if filename.endswith(prefix):
                    file.append(rootdir + filename)
            return file
        else:
            pass


if __name__ == '__main__':
    path = "../jpg/img/"
    jpgname = listfiles(path, "jpg")

jpgname为一个数组，将文件夹中的jpg文件全部遍历出来

['../jpg/img/056567f5e15f8d5f46bc5e07905009fd.jpg', '../jpg/img/05796993cf0a3c779b6fe83db2a27ac3.jpg', '../jpg/img/073847b62252c63829850cb1bd49601e.jpg', '../jpg/img/07aafc4694264509135490b85630aaf5.jpg', '../jpg/img/07d126e49e42143e0d21a0dafd522ac8.jpg', '../jpg/img/07dbfd0bd41d11e9475a96bc724e9f56.jpg', '../jpg/img/07fb8e7163e2ebd36e90c209502051ed.jpg', '../jpg/img/08ff7dc78f348ad7e4309eda9588a5f5.jpg', '../jpg/img/09dc3340f3c4a77c61cd18da7b3eca82.jpg', '../jpg/img/0b354ba9e9a132075fcc3dff6f517106.jpg', '../jpg/img/0bdca69fec2089cfaa46b458f5e483c3.jpg', '../jpg/img/0d0b1d778e00a1c84001d5838b9f5ef1.jpg', '../jpg/img/0d14f8838c30f6b54f266d9eb02e1b93.jpg', '../jpg/img/0e8d3e12d36d39314acfcd3bb8c3970a.jpg',...]

读取图片，得到图片的结构直方图

from PIL import Image

for item in jpgname:
    newjpgname = []
    im = Image.open(item)
    print(item)
    # jpg不是最低像素，gif才是，所以要转换像素
    im = im.convert("P")

    # 打印像素直方图
    his = im.histogram()

像素直方图打印结果为 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 2, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 1, 0, 0, 0, 2, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 1, 2, 0, 1, 0, 0, 1, 0, 2, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 3, 1, 3, 3, 0, 0, 0, 0, 0, 0, 1, 0, 3, 2, 132, 1, 1, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 15, 0, 1, 0, 1, 0, 0, 8, 1, 0, 0, 0, 0, 1, 6, 0, 2, 0, 0, 0, 0, 18, 1, 1, 1, 1, 1, 2, 365, 115, 0, 1, 0, 0, 0, 135, 186, 0, 0, 1, 0, 0, 0, 116, 3, 0, 0, 0, 0, 0, 21, 1, 1, 0, 0, 0, 2, 10, 2, 0, 0, 0, 0, 2, 10, 0, 0, 0, 0, 1, 0, 625]

该数组长度为255，每一个元素代表（0-255）颜色的多少，例如最后一个元素为625，即255（代表的是白色）最多，组合在一起

values = {}
for i in range(0, 256):
    values[i] = his[i]

# 排序，x:x[1]是按照括号内第二个字段进行排序,x:x[0]是按照第一个字段
temp = sorted(values.items(), key=lambda x: x[1], reverse=True)
# print(temp)

打印结果为 [(255, 625), (212, 365), (220, 186), (219, 135), (169, 132), (227, 116), (213, 115), (234, 21), (205, 18), (184, 15), (241, 10), (248, 10), (191, 8), (198, 6), (155, 3), (157, 3), (158, 3), (167, 3), (228, 3), (56, 2), (67, 2), (91, 2), (96, 2), (109, 2), (122, 2), (127, 2), (134, 2), (140, 2), (168, 2), (176, 2), (200, 2), (211, 2), (240, 2), (242, 2), (247, 2), (43, 1), (44, 1), (53, 1), (61, 1), (68, 1), (79, 1), (84, 1), (92, 1), (101, 1), (103, 1), (104, 1), (107, 1), (121, 1), (126, 1), (129, 1), (132, 1), (137, 1), (149, 1), (151, 1), (153, 1), (156, 1), (165, 1), (170, 1), (171, 1), (175, 1), (186, 1), (188, 1), (192, 1), (197, 1), (206, 1), (207, 1), (208, 1), (209, 1), (210, 1), (215, 1), (223, 1), (235, 1), (236, 1), (253, 1), (0, 0), (1, 0), (2, 0), (3, 0), (4, 0), (5, 0), (6, 0), (7, 0), (8, 0), (9, 0), (10, 0), (11, 0), (12, 0), (13, 0), (14, 0), (15, 0), (16, 0), (17, 0), (18, 0), (19, 0), (20, 0), (21, 0), (22, 0), (23, 0), (24, 0), (25, 0), (26, 0), (27, 0), (28, 0), (29, 0), (30, 0), (31, 0), (32, 0), (33, 0), (34, 0), (35, 0), (36, 0), (37, 0), (38, 0), (39, 0), (40, 0), (41, 0), (42, 0), (45, 0), (46, 0), (47, 0), (48, 0), (49, 0), (50, 0), (51, 0), (52, 0), (54, 0), (55, 0), (57, 0), (58, 0), (59, 0), (60, 0), (62, 0), (63, 0), (64, 0), (65, 0), (66, 0), (69, 0), (70, 0), (71, 0), (72, 0), (73, 0), (74, 0), (75, 0), (76, 0), (77, 0), (78, 0), (80, 0), (81, 0), (82, 0), (83, 0), (85, 0), (86, 0), (87, 0), (88, 0), (89, 0), (90, 0), (93, 0), (94, 0), (95, 0), (97, 0), (98, 0), (99, 0), (100, 0), (102, 0), (105, 0), (106, 0), (108, 0), (110, 0), (111, 0), (112, 0), (113, 0), (114, 0), (115, 0), (116, 0), (117, 0), (118, 0), (119, 0), (120, 0), (123, 0), (124, 0), (125, 0), (128, 0), (130, 0), (131, 0), (133, 0), (135, 0), (136, 0), (138, 0), (139, 0), (141, 0), (142, 0), (143, 0), (144, 0), (145, 0), (146, 0), (147, 0), (148, 0), (150, 0), (152, 0), (154, 0), (159, 0), (160, 0), (161, 0), (162, 0), (163, 0), (164, 0), (166, 0), (172, 0), (173, 0), (174, 0), (177, 0), (178, 0), (179, 0), (180, 0), (181, 0), (182, 0), (183, 0), (185, 0), (187, 0), (189, 0), (190, 0), (193, 0), (194, 0), (195, 0), (196, 0), (199, 0), (201, 0), (202, 0), (203, 0), (204, 0), (214, 0), (216, 0), (217, 0), (218, 0), (221, 0), (222, 0), (224, 0), (225, 0), (226, 0), (229, 0), (230, 0), (231, 0), (232, 0), (233, 0), (237, 0), (238, 0), (239, 0), (243, 0), (244, 0), (245, 0), (246, 0), (249, 0), (250, 0), (251, 0), (252, 0), (254, 0)]

将占比最多的10个颜色筛选出来

# 占比最多的10种颜色
for j, k in temp[:10]:
    print(j, k)
    # 255 12177
    # 0 772
    # 254 94
    # 1 40
    # 245 10
    # 12 9
    # 236 9
    # 243 9
    # 2 8
    # 6 8
# 255是白底，0是黑色，可以打印来看看0和254

2.构造新的无杂质图片

生成一张白底啥都没有的图片

# 获取图片大小，生成一张白底255的图片
im2 = Image.new("P", im.size, 255)

利用上一步占比最多的颜色可以看出，255是白底，0是黑色，可以打印来看看0和254

最后证明0是黑色字母，254是斑点，可以舍弃！

将这些颜色根据宽和高的坐标以此写入新生成的白底照片中

# 获取图片大小，生成一张白底255的图片
im2 = Image.new("P", im.size, 255)
for y in range(im.size[1]):
    # 获得y坐标
    for x in range(im.size[0]):

        # 获得坐标(x,y)的RGB值
        pix = im.getpixel((x, y))

        # 这些是要得到的数字
        # 事实证明只要0就行，254是斑点
        if pix == 0:
            # 将黑色0填充到im2中
            im2.putpixel((x, y), 0)
            # 生成了一张黑白二值照片
            # im2.show()

黑白二值照片

3.切割图片

x代表图片的宽，y代表图片的高 对图片进行纵向切割

# 纵向切割
# 找到切割的起始和结束的横坐标
inletter = False
foundletter = False
start = 0
end = 0

letters = []

for x in range(im2.size[0]):
    for y in range(im2.size[1]):
        pix = im2.getpixel((x, y))
        if pix != 255:
            inletter = True
    if foundletter == False and inletter == True:
        foundletter = True
        start = x

    if foundletter == True and inletter == False:
        foundletter = False
        end = x
        letters.append((start, end))

    inletter = False

打印结果为 # [(27, 47), (48, 71), (73, 101), (102, 120), (122, 147), (148, 166)]

(27, 47)代表从x=27到x=47纵向切割成一条状

保存字段到本地，这里就是training_samples.py文件里面的内容，为的就是生成训练样本，这里生成的样本有2800多！

# 保存切割下来的字段
count = 0
for letter in letters:
    # (切割的起始横坐标，起始纵坐标，切割的宽度，切割的高度)
    im3 = im2.crop((letter[0], 0, letter[1], im2.size[1]))
    # 随机生成0-10000的数字
    a = random.randint(0, 10000)
    # 更改成用时间命名
    im3.save("../jpg/letter/%s.gif" % (time.strftime('%Y%m%d%H%M%S', time.localtime()) + str(a)))
    count += 1

字段样式

4.训练识别

使用的是 AI与向量空间图像识别 将标准图片转换成向量坐标a，需要识别的图片字段为向量坐标b，cos(a,b)值越大说明夹角越小，越接近重合

空间两向量计算公式

编写的夹角公式为

# 夹角公式
import math

class VectorCompare:
    # 计算矢量大小
    # 计算平方和
    def magnitude(self, concordance):
        total = 0
        # concordance.iteritems:报错'dict' object has no attribute 'iteritems'
        # concordance.items()
        for word, count in concordance.items():
            total += count ** 2
        return math.sqrt(total)

    # 计算矢量之间的 cos 值
    def relation(self, concordance1, concordance2):
        topvalue = 0
        # concordance1.iteritems:报错'dict' object has no attribute 'iteritems'
        # concordance1.items()
        for word, count in concordance1.items():
            # if concordance2.has_key(word):报错'dict' object has no attribute 'has_key'
            # 改成word in concordance2
            if word in concordance2:
                # 计算相乘的和
                topvalue += count * concordance2[word]
        return topvalue / (self.magnitude(concordance1) * self.magnitude(concordance2))

转换验证码图片为向量：

# 将图片转换为矢量
def buildvector(im):
    d1 = {}
    count = 0
    for i in im.getdata():
        d1[count] = i
        count += 1
    return d1

打印结果 {0: 255, 1: 255, 2: 255, 3: 255, 4: 255, 5: 255, 6: 255, 7: 255, 8: 255, 9: 255, 10: 255, 11: 255, 12: 255, 13: 255, 14: 255, 15: 255, 16: 255, 17: 255, 18: 255, 19: 255, 20: 255, 21: 255, 22: 255, 23: 255, 24: 255, 25: 255, 26: 255, 27: 255, 28: 255, 29: 255, 30: 255, 31: 255, 32: 255, 33: 255, 34: 255, 35: 255, 36: 255, 37: 255, 38: 255, 39: 255, 40: 255, 41: 255, 42: 255, 43: 255, 44: 255, 45: 255, 46: 255, 47: 255, 48: 255, 49: 255, 50: 255, 51: 255, 52: 255, 53: 255, 54: 255, 55: 255, 56: 255, 57: 255, 58: 255, 59: 255, 60: 255, 61: 255, 62: 255, 63: 255, 64: 255, 65: 255, 66: 255, 67: 0, 68: 0, 69: 0, 70: 255, 71: 255, 72: 255, 73: 255, 74: 0, 75: 0, 76: 0, 77: 255, 78: 0, 79: 255, 80: 255, 81: 0, 82: 0, 83: 0, 84: 0, 85: 0, 86: 0, 87: 255, 88: 255, 89: 0, 90: 255, 91: 255, 92: 255, 93: 0, 94: 0, 95: 255, 96: 0, 97: 255, 98: 0, 99: 255, 100: 255, 101: 0, 102: 0, 103: 0, 104: 0, 105: 0, 106: 0, 107: 255, 108: 255, 109: 0, 110: 0, 111: 0, 112: 0, 113: 0, 114: 255, 115: 255, 116: 255, 117: 0, 118: 0, 119: 0, 120: 255, 121: 0, 122: 255, 123: 255, 124: 255, 125: 0, 126: 0, 127: 0, 128: 255, 129: 0, 130: 0, 131: 255, 132: 255, 133: 0, 134: 0, 135: 0, 136: 255, 137: 0, 138: 0, 139: 0, 140: 0, 141: 0, 142: 0, 143: 255, 144: 255, 145: 0, 146: 0, 147: 0, 148: 0, 149: 0, 150: 0, 151: 255, 152: 255, 153: 255, 154: 255, 155: 0, 156: 0, 157: 0, 158: 255, 159: 255, 160: 255, 161: 255, 162: 255, 163: 255, 164: 255, 165: 255, 166: 255, 167: 255, 168: 255, 169: 255, 170: 255, 171: 255, 172: 255, 173: 255, 174: 255, 175: 255}

加载训练集，且把训练集也变成向量

v = VectorCompare()
iconset = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k',
           'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
import os

imageset = []
for letter in iconset:
    for img in os.listdir('../iconset1/%s/' % (letter)):
        temp = []
        if img != "Thumbs.db" and img != ".DS_Store":
            temp.append(buildvector(Image.open("../iconset1/%s/%s" % (letter, img))))
        imageset.append({letter: temp})

开始识别验证码

# 开始破解训练
count = 0
for letter in letters:
    # (切割的起始横坐标，起始纵坐标，切割的宽度，切割的高度)
    im3 = im2.crop((letter[0], 0, letter[1], im2.size[1]))

    guess = []
    # 将切割得到的验证码小片段与每个训练片段进行比较
    for image in imageset:
        for x, y in image.items():
            if len(y) != 0:
                guess.append((v.relation(y[0], buildvector(im3)), x))

    # 排序选出夹角最小的（即cos值最大）的向量，夹角越小则越接近重合，匹配越接近
    guess.sort(reverse=True)
    print("", guess[0])

排序选出夹角最小的（即cos值最大）的向量，夹角越小则越接近重合，匹配越接近

guess.sort(reverse=True)
print("", guess[0])
count += 1

运行结果

结果显示前面是匹配度，后面是匹配的字母

将图片的名字改成识别后的名字

# 得到拼接后的验证码识别图像
newname = str("".join(newjpgname))
os.rename(item, path + newname + ".jpg")

效果为

完整源码在TTyb

更多学习请看python3验证码机器学习

本文地址：http://www.tybai.com/ml/Amazonz%E9%AA%8C%E8%AF%81%E7%A0%81%E6%9C%BA%E5%99%A8%E7%AE%97%E6%B3%95%E8%AF%86%E5%88%AB.html，来源于[TTyb]，欢迎转载，转载请注明出处。

如果你觉得本站内容有帮助

我要请作者喝杯咖啡

博客作者

在巴甫洛夫条件反射试验中：给定一条狗，每次摇铃后喂食，足够次数后，狗则听到铃声将会习惯性的分泌唾液，由此引发对铃声的依恋。延伸到实际，给定一个喜欢的妹子，每次见面赠与巴甫洛夫式的礼品或者零食，由此引发妹子的依恋。引入薛定谔的猫理论，在未表白前，妹子与自己一直处于一种“概率云”的状态，一旦表白则“概率云”将..更多

微信公众号

爬虫代码不知道怎么写
关注公众号让作者帮你解决！

博客标签

MachineLearningfirst(3) markdown(1) dataanalysis(2) html(8) mysql(1) matlab(1) git(6) java(1) python(44) selenium(9) IDE(2) golang(1) javascript(2) ML(11) wechat(1) Linux(12) hadoop(3) pythontools(7) scala(33) elasticsearch(2) hive(2)

博客热点

在使用 `import org.apache.spark.ml.feature.VectorAssembler` 转换特征后，想要放入 `import org.apache.spark.mllib.classification.SVMWithSGD` 去训练的时候出现错误阅读全文 »

Python3 打包exe方式阅读全文 »

《漫威》系列电影中，距离《复仇者联盟4》上映一周，豆瓣分都是8.1分的钢铁侠》和《复仇者联盟3》，《钢铁侠》有353695人评价打分，《复仇者联盟3》有557491人评价打分，这两部电影是否一样好看？阅读全文 »

昨天收到公众号粉丝的爬虫需求:抓取平台：天猫或者淘宝;爬取对象：某个商品的各分类的价格和库存数阅读全文 »

在flask页面下载excel 阅读全文 »

java.lang.NoSuchMethodError: org.apache.spark.sql.DataFrameNaFunctions.fill(JLscala/collection/Seq;)Lorg/apache/spark/sql/Dataset 阅读全文 »

import org.apache.spark.ml.feature.{HashingTF, IDF}库中，TFIDF结果的字段含义阅读全文 »

spark读CSV为Dataframe和spark将Dataframe写入CSV 阅读全文 »

将dataframe利用pyspark列合并为一行，类似于sql的GROUP_CONCAT函数。spark和pyspark的方式不能共用阅读全文 »

想看下最近房价是否能入手，抓取链家二手房、新房的信息，发现广州有些精装修88平米的3房2厅首付只要 29 万，平均 1.1万/平，果然钱不够信息来凑，总能发现便宜的房子！阅读全文 »

hive新建分区表阅读全文 »

hive删除表和表中的数据，以及按分区删除数据阅读全文 »

csdn目前设置每日使用5次后必须登录才能看到阅读更多的内容，异常恶心。因此搜罗了方法去解决这个问题阅读全文 »

pandas和spark的dataframe互转阅读全文 »

需要将代码转换为html使其显示好看一些，可以在这里进行装换阅读全文 »

需要调用命令行来执行某些命令，主要是用subprocess实时获取结果和捕获错误，发现subprocess的很多坑阅读全文 »

ubuntu的vim取消缩进阅读全文 »

需要实现两台机器的信息交互，使用 `socket` 进行调度阅读全文 »

centos7开放端口和防火墙设置阅读全文 »
python获取set-cookies 阅读全文 »
记录在TensorFlow中使用GPU的一些操作阅读全文 »
pandas的apply操作类似于Scala的udf一样方便阅读全文 »

将dataframe利用pandas列合并为一行，类似于sql的GROUP_CONCAT函数阅读全文 »

python读取了一个list是字符串形式的[11.23,23.34]，想转换成list类型阅读全文 »

python中使用了pandas的一些操作，特此记录下来。阅读全文 »

python中使用了numpy的一些操作，特此记录下来。阅读全文 »

Python3+Flask+uwsgi部署web服务，实现在新的IP下打开网址阅读全文 »

在python中，需要将整数均分成N等分。python divide integers N equal parts sum 阅读全文 »

在Windows7下需要安装pyspark，写下教程步骤阅读全文 »

对于python数组的操作有点混乱，所以特此记录下来阅读全文 »

马尔科夫链转移矩阵计算方式阅读全文 »
需要将dataframe中的某一行变换为列阅读全文 »
scala获取某个时间间隔的时间阅读全文 »
Linux查看文件夹大小阅读全文 »

需要对dataframe按照某几列为key，对另外几列进行计算，考虑到scala的reduceByKey比groupByKey快速很多，所以使用了这个操作阅读全文 »

需要将Spark Dataframe转换为Scala Map集合阅读全文 »

Caused by: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [1/1] (Maybe ES was overloaded?). Error sample... 阅读全文 »

spark调用distinct只能删除完全相同的行，而需要一种方法按照某几列作为唯一ID来删除重复，利用dropDuplicates可以完美解决这个问题阅读全文 »

spark调用elsticsearch的API对elasticsearch进行增删查改阅读全文 »

在 hadoop中，基于Linux命令可以给hdfs创建文件和文件夹，或者删除文件和文件夹阅读全文 »

spark调用hdfsAPI查询文件名字、删除文件阅读全文 »

hadoop使用出现安全模式错误Name node is in safe mode，退出安全模式阅读全文 »

在提取dataframe里面的列时，需要传入不定参数，即dataframe.select(args) 阅读全文 »

github pages一直想添加代码高亮highlighter，基于jekyll 3.0的rouge终于搞定了阅读全文 »

System memory * must be at least *.Please increase heap size using the --driver--memory option or spark.driver.memory 阅读全文 »

python万能库阅读全文 »
spark计算两个DataFrame的差集、交集、合集阅读全文 »

记录Linux查看的系统的命令，Linux查看系统、核数、CPU、位数阅读全文 »

任何一个电子商务公司想要存活下去，必须要时时掌控市场的动态，淘宝天猫上面的商品数据刚好能满足这样子的需求，所以写下这篇抓取教程阅读全文 »

特定环境下需要安装Linux suse 11 sp1，走过太多的坑，所以记录下安装的过程方便以后再使用阅读全文 »

在抓取网页的时候只想抓取主要的文本框，所以用了一个比较暴力的方法去识别阅读全文 »

python之BeautifulSoup使用阅读全文 »
selenium操控浏览器下拉到页面最底端阅读全文 »

一种去除dataframe中null、NaN和空字符串的方法，基于scala下阅读全文 »

chardet库是python的字符编码检测器，能够检测出各种编码的类型阅读全文 »

记录python读写2003和2007版本的excel的一些方式阅读全文 »

scala时间和时间戳互转阅读全文 »

在给代码带包成jar后，放到环境中运行出现No FileSystem for scheme file错误，找到解决办法阅读全文 »

在spark中给dataframe增加一列的方法一般使用withColumn，但是个人感觉少了很多功能，不如使用udf 阅读全文 »

Scala查询dataFrame结构阅读全文 »

在使用数据库的时候，需要将查询出来的一列按照逗号合并成一行阅读全文 »

日志文件太多，需要清空阅读全文 »

安装了 `ubuntu-14` ，为了连接 `xshell` ，做出的一些配置阅读全文 »

在scala里面存在调用Linux命令行的函数，得到返回的结果阅读全文 »

在scala中远程连接Linux，并发送相关命令到Linux上，得到返回的结果阅读全文 »

`spark` 中的 `reduce` 非常的好用，`reduce` 可以对 `dataframe` 中的元素进行计算、拼接等等阅读全文 »

很多人的个人博客用的是多说评论，但是最近多说突然说要关闭了... 阅读全文 »

网上很多人问绑定域名要不要备案，很多人的回答是... 阅读全文 »

从数据库提取出来的时间为 `String` 格式，现在需要转换为 `date` 并提取出里面的 *小时* 时间段阅读全文 »

为了加密 `.py` 文件，以前一般使用打包成exe ，但是最近发现可以将其编译成二进制文件pyc，虽然反编译难度不大，但是也需要一些水平阅读全文 »

python批量启动多线程阅读全文 »
Linux发现ctrl+c无法中断程序阅读全文 »
scala中spark运行内存不足阅读全文 »
scala打包jar并在Linux下运行阅读全文 »
scala的input 阅读全文 »
scala的break和continue 阅读全文 »
scala合并Array 阅读全文 »
scala读取配置文件阅读全文 »
scala读取解析json文件阅读全文 »
scala判断数据类型阅读全文 »
IntelliJ的Scala配置阅读全文 »
scala的map操作阅读全文 »
python获取当前路径阅读全文 »
python的StringIO 阅读全文 »

此方法相当于 `Linux` 系统下的`diff`，或者是 `git` 下的 `checkout` 阅读全文 »

Linux查找文件内容阅读全文 »
python日志syslog运用阅读全文 »
python连接Linux命令行阅读全文 »

由于 `python` 频繁打印会导致IDE或者系统奔溃，因此将其打印信息写入日志文件中阅读全文 »

scala安装教程图文解说阅读全文 »
python获取当前运行程序的名字阅读全文 »
python获取文件夹名字阅读全文 »
python时间和时间戳互转阅读全文 »
python判断文件是否存在阅读全文 »
python创建递归文件夹阅读全文 »
sklearn的kmeans测试代码阅读全文 »

当使用库的时候，需要传递不确定个数的参数，那么写法是怎样的？阅读全文 »

python安装万能仓库的whl文件出错，原来是文件名弄错了阅读全文 »

安装sklearn库需要很多前提条件，而且不能pip3 install sklearn，因此写下教程阅读全文 »

Oracle查询得到的时间都是1970...，在python下将其转为时间戳阅读全文 »

过年很多人会发微信的红包，但是为毛很多人说自己得不到最佳，因此作者写了一个微信红包发送的算法阅读全文 »

在Linux下安装python3且不影响系统的python2 阅读全文 »
hadoop完全分布式搭建阅读全文 »

最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM），本文讲解朴素贝叶斯阅读全文 »

数据挖掘中的ID3决策树算法，再次进行一个初步的学习阅读全文 »

虚拟机VMwareWorkstation下安装Linux系统centOS 阅读全文 »

微信小程序在2017-01-09正式上线，本着跟上时代潮流的精神，写一份教程来看看阅读全文 »

埃拉托斯特尼筛法，简称埃氏筛或爱氏筛，是一种由希腊数学家埃拉托斯特尼所提出的一种简单检定素数的算法。要得到自然数n以内的全部素数，必须把不大于根号n的所有素数的倍数剔除，剩下的就是素数阅读全文 »

层次聚类是另一种主要的聚类方法，它具有一些十分必要的特性使得它成为广泛应用的聚类方法阅读全文 »

K近邻(KNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一阅读全文 »

以前使用聚类是用spss，现在用python自己写了一次阅读全文 »

大数据时代开始流行推荐算法，所以作者写了一篇教程来介绍FP-tree推荐算法阅读全文 »

学习了一些chrome插件的基本用法阅读全文 »

大数据时代开始流行推荐算法，所以作者写了一篇教程来介绍apriori推荐算法阅读全文 »

海龟画图很好看，试着玩了一下阅读全文 »
做github静态博客，学习安装jekyll 阅读全文 »

在破解Amazon的验证码的时候，利用机器学习得到验证码破解精度超过70%，主要是训练样本不够，如果在足够的样本下达到90%是非常有可能的。阅读全文 »

妹子要去招聘会工作，奈何网上仅仅提供招聘会的公司名字，没有提供招聘的职位，SO我写了个小代码给妹子在智联上面搜索职位，由于时间紧迫，前程的就不写了阅读全文 »

selenium设置浏览器属性阅读全文 »
javascript获取浏览器属性阅读全文 »
javascript操控浏览器阅读全文 »

为了获取网站js渲染后的html，需要利用selenium加载网站，但是会出现加载时间过长的现象，因此可以限制其加载时间以及强制关掉加载阅读全文 »

win10安装配置golang 阅读全文 »
pycharm基本设置，省得每次都要去网上找阅读全文 »
百度指数抓取，再用图像识别得到指数阅读全文 »
selenium之xpath定位和input文本阅读全文 »
selenium在同一浏览器下多个窗口切换阅读全文 »
selenium识别下拉框阅读全文 »

假如外出工作，需要在另一台电脑上面pull自己的某个git远程项目到本地阅读全文 »

妹纸推荐书籍《御伽草纸》，网上找了很久都找不到下载，估计是被Amazon版权了，但是在网易云阅读看到有书，所以就写个代码下载下来。阅读全文 »

标签云是现在大数据里面最喜欢使用的一种展现方式，其中在python3下也能实现标签云的效果阅读全文 »

RGB颜色对照图阅读全文 »

python3的多线程很多人无法理解是怎么运行的，因此本文从程序猿的日常生活出发，写了一个由浅入深的多线程教程，这样子大家就不会觉得陌生了，多线程真的很简单很简单！阅读全文 »

selenium是处理异步加载的一种方法阅读全文 »
python数据库操作pymysql 阅读全文 »
详解如何搞定瀑布流阅读全文 »
详解如何搞定瀑布流阅读全文 »
java从零到变身爬虫大神阅读全文 »
github上传本地项目阅读全文 »
没事玩了一下matlab 阅读全文 »

mysql在大学学了，现在忘记得差不多了，复习复习一下阅读全文 »

css初学阅读全文 »
学习了一些html的基本用法阅读全文 »
学习了一些html的基本用法阅读全文 »
学习了一些html的基本用法阅读全文 »

EDM营销：全称Email Direct Marketing，即电子邮件营销阅读全文 »

老板要画雷达图，但是数据好多组怎么办？不能一个一个点excel去画吧，那么可以利用python进行批量制作阅读全文 »

markdown初学阅读全文 »

在上一篇算法中，逻辑回归作为一种二分类的分类器，一般的回归模型也是是判别模型，也就根据特征值来求结果概率。形式化表示为 p(y|x;θ)，在参数 θ 确定的情况下，求解条件概率 p(y|x) 。阅读全文 »

在上一篇算法中，线性回归实际上是连续型的结果，即 y∈R ，而逻辑回归的 y 是离散型，只能取两个值 y∈{0,1}，这可以用来处理一些分类的问题。阅读全文 »

今天我们这里要讲第一个有监督学习算法，他可以用于一个回归任务，这个算法叫做线性回归阅读全文 »

博客归档

1 July 2019
1 May 2019
2 April 2019
2 March 2019
2 January 2019
5 December 2018
3 November 2018
4 October 2018
6 September 2018
3 August 2018
2 July 2018
2 June 2018
1 April 2018
3 March 2018
3 February 2018
3 January 2018
4 December 2017
3 November 2017
5 October 2017
4 August 2017
2 July 2017
3 June 2017
5 May 2017
13 April 2017
15 March 2017
4 February 2017
13 January 2017
8 December 2016
8 November 2016
1 October 2016
4 September 2016
11 August 2016
3 July 2016
1 July 2009
2 June 2009
1 February 2009
4 January 2009
3 July 2007
4 June 2007
9 May 2007

博主梦想

博客日历

网站已运行

公元年月农历年年

感谢您的支持，我会继续努力的!

扫码打赏一下，你说多少就多少

打开微信扫一扫，即可进行扫码打赏哦

Amazonz验证码机器算法识别

TTyb 2016-12-10 2784

文档结构为

需要的库

必须文件下载地址

如果你觉得本站内容有帮助

博客作者

微信公众号

博客标签

博客热点

博客归档

博主梦想

博客日历

Fork me on Github

无聊就想打码打码使我快乐

网站导航

Amazonz验证码机器算法识别

TTyb 2016-12-10 2784

文档结构为

需要的库

必须文件下载地址

如果你觉得本站内容有帮助

博客作者

微信公众号

博客标签

博客热点

博客归档

博主梦想

博客日历

Fork me on Github

无聊就想打码 打码使我快乐

网站导航

无聊就想打码打码使我快乐