使用rabbitmq对文本使用tf_idf算法进行分析的项目记录

之前用爬虫爬了三个源,共爬取了30w左右的博客,爬虫项目:itmap_spiders。 接着对这些文本进行分析,要求是找出每篇文章的关键词。我对TF*IDF算法有一些了解,就选择了它。项目:itmap_data_analysis。 业务架构 由于数据量有点大,所以使用消息队列进行拆分,拆分标准是按照步骤来。具体的步骤如下图所示。 architecture 技术栈: 使用pika来与RabbitMQ
相关文章
相关标签/搜索