这篇文章搞头条号、运营知乎等流量的兄弟们能够看看,可让你了解到你的文章是怎么被推荐的、经过很好的配合头条、知乎等的技术架构、机制能够增长你文章的曝光。算法
今日头条之前进入各大app的流量主要被几部分刮分,一个是app内搜索、一个是固定频道、、一个是用户在闲逛。当前各大app、不管是电商、知乎、新闻等流量一部分仍是app内部搜索,另外大头就是各大频道、内容、问答板块都被个性化推荐把持。微信
今日头条是怎么实现个性化推荐的呢?一个是用户画像,一个是文章分类,分类是由多种纬度组成,经过用户在app内搜索、点击视频、文章、浏览、收藏等app内一些列的操做会不断对用户画像进行完善,而且生成用户对文章分类的喜爱,经过喜爱给你推荐类似的视频、文章,最终让用户刷不完、离不开。架构
最开始冷启动今日头条会推荐给你些八卦、娱乐新闻、热门新闻、其余类型文章等多个池子,由于最开始是没有你的用户画像的,由于你在app内没有行为,经过微博帐号登陆抓取微博信息进行分析生成画像这种方式暂时不谈。app
个性化推荐系统主体三部分:文章分类、用户画像、用户喜爱均是经过用户在app行为,经过数据分析师对数据分析,构建的策略算法,算法工程师构建的模型、以及推荐引擎、特征工程等一系列的算法、工程最终构成一个内容个性化推荐系统。框架
这篇主要讲下文章分类主要包含哪些,怎样构建文章分类、分类后怎么使用三个问题。工具
当下内容推荐引擎,文章由标签、兴趣、主题、其中标签规模最大,标签oop
又分为粗标签数据规模亿级别、精标签数据规模千万级别,兴趣数据规模粗几十万级、精十万级、主题几百级。多种类型的分类综合构成文章数据来源。来供feed流使用。搜索引擎
文章分类构建主要由hadoop、hive、spark、strom等工具实现,标签的构建主要经过对文章进行分词、经过TF-IDF等算法找出文章能够由哪些标签来抽象表达。标签好比:锤子、坚果、老罗,乔布斯、苹果、iPhoneX。标签下文章几百万、几十万、几千不等。兴趣的构建与标签相似但力度更大、更粗些,兴趣好比:星座、二次元、抖音等等。spa
主题分类由LDA模型经过spark框架计算实现,主题好比:体育新闻、it新闻、娱乐新闻等构成。设计
个性化推荐本质就作一件事:排序。数据计算主要经过hive、spark实现离线的数据排序,排序特征包含曝光量、点击量、点击率、做者权重、文章质量分、等几十个特征综合进行排序,排序结果做为备选集合。光有离线计算是不够的、当下推荐系统更增强调实时性,strom准实时框架会根据实时线上上报特征对文章的排序进行实时调整、好比某大V做者的文章权重很高,排名好得到不少曝光机会,可是曝光机会并转化成点击量、这时strom计算会将文章曝光下降,已给其余文章更多的曝光机会。
搜索引擎的曝光更加集中、最大的曝光基本集中在首页前三篇,而推荐引擎会拉取多个分类类别、标签下选择用户多个喜爱标签下文章、多个兴趣下用户喜爱文章、多个主题下用户喜爱文章。调取特征、再经过模型实时预估每篇文章点击量,经过点击量预估模型预估文章被当前用户点的概率。
若是文章在热门的标签下,偏好标签的用户会多,文章排到热门标签前几,那一定会带来特别大的曝光量、但热门标签竞争激烈。冷门标签偏好人少,可是冷门标签下文章会少、竞争少,维护好冷门标签,在固定人群下也会取得持续不错的曝光。
后边文章会详细写下怎样构建用户画像、构建热门分类、通用分类、用户偏好分类、突发新闻分类召回集、搭建特征工程、构建点击量预估模型过程,以及推荐引擎架构、设计、实现。
微信搜索:mydevclub
扫描二维码关注: