学习Python3 天眼查爬虫

时间 2019-11-06

标签学习 python3 python 爬虫栏目 Python 繁體版

原文原文链接

刚开始学习Python，不肯意看基础，记忆很差，那些语法记不住，直接上个项目，这样比较深入学习

恰好公司有个状况要查企业的信息，就想作个爬虫吧，有验证码的不肯意搞，那是个老大难问题，就选择了天眼查字体

过程都略了，直接写个结果吧，总结出来的步骤以下：编码

1、天眼查最大的障碍在于字体问题，这个网上都有介绍，大概意思就是说，在网页显示出来的某些字符，是天眼查本身的字体文件处理的。spa

好比汉字坐的utf-8的编码是 b'\\u5750' ，但在天眼查的字体文件里，这个编码对应的汉字是万。code

这样在页面上某些地方肉眼看到的好比 2500万元，但实际经过标准编码获得的是 2500坐元。其实还有数字，也所有是打乱的。xml

这样爬到的结果就是后面那个了，这不是我想要的。blog

2、该字体文件，天天都变，没有固定的，这样想经过作个编码对应表的方法也被否决了。图片

3、只能一步一步来了，先把该字体文件下载下来，而后经过 fontTools 来操做字体文件，我经过转成xml文件，结合fontCreator，看了一下字体文件的结构，大概知道是怎么回事了utf-8

from fontTools.ttLib import TTFont
font1 = TTFont('D:/Temp/num4.woff')
font1.saveXML('D:/Temp/font4.xml')

4、把字体结构弄清楚以后，把里面全部的编码，结合该字体，生成位图。get

import os
import PIL.Image, PIL.ImageFont, PIL.ImageDraw

image=PIL.Image
ImageDraw=PIL.ImageDraw
ImageFont=PIL.ImageFont

text = u"坐" 

im = image.new("RGB", (300, 50), (255, 255, 255))
dr = ImageDraw.Draw(im)
font = ImageFont.truetype(os.path.join("fonts", "d:/temp/num4.woff"), 14)

dr.text((10, 5), text, font=font, fill="#000000")

im.show()
im.save("d:/temp/t.png")
#由于我只是学习，因此并无写完整代码，以上代码只是用来结合字体生成图片的示例

5、把字体文件中涉及到的字按顺序生成的图片，经过OCR识别成字，这个我前面的文章就是专门有写ocr的，识别率100%

6、获得的结果应该是这样的

7、最后经过抓取的结果，而后转成对应的编码，便可获得想要的结果了

8、其它，用fonttools直接获取字体相关的数据以下代码

from fontTools.ttLib import TTFont
font1 = TTFont('D:/Temp/num3.woff')
cmap=font1['cmap']
cdict=cmap.getBestCmap()
acs=ord('3')
print (acs)
print(cdict)
# print(cdict[31532])
# glyf=list(font1['glyf'].keys())
# print(glyf)
# bfd=glyf.index('_#58')
# print(bfd)

学习Python3 天眼查 爬虫

学习Python3 天眼查爬虫