数据爬取之后,做ETL增量更新数据到原始表

接上面的文章,继续做大数据平台。在前些天将所有的数据都爬完了,也都导入的爬虫数据库(我们自己建了三个库,爬虫库、原始库、正式库)。今天演示从爬虫库到原始库的步骤。 思路: 首先要在原始库中创建时间戳表,用于保存更新数据后的时间。其次获取原始表中最后一次更新操作的时间,作为时间配置。然后对垃圾数据进行删除(此处的垃圾数据指的是任务中途停止,时间未更新,但原始数据库里存在新插入的部分新数据)。其次增量
相关文章
相关标签/搜索