pytho爬虫使用bs4 解析页面和提取数据

时间 2019-12-14

原文原文链接

页面解析和数据提取通常来说对咱们而言，须要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容通常分为两部分，非结构化的数据和结构化的数据。css 非结构化数据：先有数据，再有结构，结构化数据：先有结构、再有数据不一样类型的数据，我须要采用不一样的方式来处理。非结构化的数据处理文本、电话号码、邮箱地址用:正则表达式 html文件用:正则表达式 / xpath/css选择器/b

>>阅读原文<<