1、基本思路:spa
1.获取DTD、XSD数据的URLS(从谷歌搜索结果中获取)blog
2.打获URLS获取DTD、XSD文件(期间去除不能打开链接的,对错误的数据进行分析、对数据归类)class
2、获取DTD、XSD数据的URLS搜索
所谓的DTD、XSD数据的URLS即为红线标识的im
分析不难找出一下规律:(搜索的结果都在id='search'的div里,每个URL都在class='g'的div里class='r'的h3里的a的href属性里)数据
基本代码以下(用到第三方模块BeautifulSoup):img