刚开始学习Python,不肯意看基础,记忆很差,那些语法记不住,直接上个项目,这样比较深入学习
恰好公司有个状况要查企业的信息,就想作个爬虫吧,有验证码的不肯意搞,那是个老大难问题,就选择了天眼查字体
过程都略了,直接写个结果吧,总结出来的步骤以下:编码
1、天眼查最大的障碍在于字体问题,这个网上都有介绍,大概意思就是说,在网页显示出来的某些字符,是天眼查本身的字体文件处理的。spa
好比汉字 坐 的utf-8的编码是 b'\\u5750' ,但在天眼查的字体文件里,这个编码对应的汉字是 万 。code
这样在页面上某些地方肉眼看到的好比 2500万元,但实际经过标准编码获得的是 2500坐元。其实还有数字,也所有是打乱的。xml
这样爬到的结果就是后面那个了,这不是我想要的。blog
2、该字体文件,天天都变,没有固定的,这样想经过作个编码对应表的方法也被否决了。图片
3、只能一步一步来了,先把该字体文件下载下来,而后经过 fontTools 来操做字体文件,我经过转成xml文件,结合fontCreator,看了一下字体文件的结构,大概知道是怎么回事了utf-8
from fontTools.ttLib import TTFont font1 = TTFont('D:/Temp/num4.woff') font1.saveXML('D:/Temp/font4.xml')
4、把字体结构弄清楚以后,把里面全部的编码,结合该字体,生成位图。get
import os import PIL.Image, PIL.ImageFont, PIL.ImageDraw image=PIL.Image ImageDraw=PIL.ImageDraw ImageFont=PIL.ImageFont text = u"坐" im = image.new("RGB", (300, 50), (255, 255, 255)) dr = ImageDraw.Draw(im) font = ImageFont.truetype(os.path.join("fonts", "d:/temp/num4.woff"), 14) dr.text((10, 5), text, font=font, fill="#000000") im.show() im.save("d:/temp/t.png")
#由于我只是学习,因此并无写完整代码,以上代码只是用来结合字体生成图片的示例
5、把字体文件中涉及到的字按顺序生成的图片,经过OCR识别成字,这个我前面的文章就是专门有写ocr的,识别率100%
6、获得的结果应该是这样的
7、最后经过抓取的结果,而后转成对应的编码,便可获得想要的结果了
8、其它,用fonttools直接获取字体相关的数据以下代码
from fontTools.ttLib import TTFont font1 = TTFont('D:/Temp/num3.woff') cmap=font1['cmap'] cdict=cmap.getBestCmap() acs=ord('3') print (acs) print(cdict) # print(cdict[31532]) # glyf=list(font1['glyf'].keys()) # print(glyf) # bfd=glyf.index('_#58') # print(bfd)