08-页面解析之数据提取-python爬虫

​一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。 关于结构化的数据 JSON、XML、HTML HTML文本(包含JavaScript代码)是最常见的数据格式,理应属于结构化的文本组织,但因为一般我们需要的关键信息并非直接可以得到 需要进行对HTML的解析查找,甚至一些字符串操作才能得到,所以还是归类于非结构化的数据
相关文章
相关标签/搜索