R 是统计计算和数据分析的利器。给定一个数据集,利用前几章介绍到的 R 中灵活的
数据结构或高性能计算,咱们能够很方便地进行数据转换、建模和数值分析。
通常来讲,商业数据库会将数据以表格的形式很好地组织起来,便于使用。然而,情
况并不是老是如此合意,输入数据集也并不是老是当即可得。有时,咱们须要本身收集数据。
对于不少研究领域而言,网页内容是一个重要的数据源。为了从互联网上收集(抓取或收
取)数据,咱们须要适当的技术和工具。本章将会介绍网络爬虫的基本知识和工具,包括:html
查阅网页内容数据库
使用 XPath 选择器数据结构