Python爬虫(七)_非结构化数据与结构化数据

时间 2019-11-08

标签 python 爬虫构化数据栏目 Python 繁體版

原文原文链接

实际上爬虫一共就四个主要步骤：html

定（要知道你准备在哪一个范围或者网站去搜索）

爬（将全部的网站的内容所有爬下来）

取（分析数据，去掉对咱们没用处的数据）

存（按照咱们想要的方式存储和使用）

表（能够根据数据的类型经过一些图标展现）

之前学的就是如何从网站去爬数据，而爬下来的数据却没作分析，如今，就开始对数据作一些分析。正则表达式

数据，可分为非结构化数据和结构化数据json

非结构化数据：先有数据，再有结构

结构化数据：先有结构，再有数据

不一样类型的数据，咱们须要采用不一样的方式来处理

文本、电话号码、邮箱地址网站

HTML文件code

JSON文件xml

XML文件htm