使用rabbitmq对文本使用tf_idf算法进行分析的项目记录

时间 2021-01-02

原文原文链接

之前用爬虫爬了三个源，共爬取了30w左右的博客，爬虫项目：itmap_spiders。接着对这些文本进行分析，要求是找出每篇文章的关键词。我对TF*IDF算法有一些了解，就选择了它。项目：itmap_data_analysis。业务架构由于数据量有点大，所以使用消息队列进行拆分，拆分标准是按照步骤来。具体的步骤如下图所示。 architecture 技术栈：使用pika来与RabbitMQ

>>阅读原文<<