Python爬虫(七)_非结构化数据与结构化数据

页面解析与数据提取

实际上爬虫一共就四个主要步骤:html

  1. 定(要知道你准备在哪一个范围或者网站去搜索)
  2. 爬(将全部的网站的内容所有爬下来)
  3. 取(分析数据,去掉对咱们没用处的数据)
  4. 存(按照咱们想要的方式存储和使用)
  5. 表(能够根据数据的类型经过一些图标展现)

之前学的就是如何从网站去爬数据,而爬下来的数据却没作分析,如今,就开始对数据作一些分析。正则表达式

数据,可分为非结构化数据结构化数据json

  • 非结构化数据:先有数据,再有结构
  • 结构化数据:先有结构,再有数据
  • 不一样类型的数据,咱们须要采用不一样的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址网站

HTML文件code

  • 正则表达式
  • XPath
  • CSS选择器

结构化的数据处理

JSON文件xml

  • JSON Path
  • 转化为Python类型进行操做(json类)

XML文件htm

    • 转化为Python类型(xmltodict)
    • XPath
    • CSS选择器
    • 正则表达式
相关文章
相关标签/搜索