pytho爬虫使用bs4 解析页面和提取数据

页面解析和数据提取 通常来说对咱们而言,须要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容通常分为两部分,非结构化的数据 和 结构化的数据。css 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不一样类型的数据,我须要采用不一样的方式来处理。 非结构化的数据处理 文本、电话号码、邮箱地址 用:正则表达式 html文件 用:正则表达式 / xpath/css选择器/b
相关文章
相关标签/搜索