如何在没有大量用户数据的状况下设计个性化推荐系统而且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。冷启动问题主要分为三类:算法
用户冷启动主要解决如何给新用户作个性化推荐的问题。当新用户到来时,咱们没有他的行为数据,因此也没法根据他的历史行为预测其兴趣,从而没法借此给他作个性化推荐。那么,咱们能够利用用户的注册信息来解决冷启动问题。用户信息一般分为三种:网站
人口统计学信息
主要是用户的年龄、性别、国际、籍贯、学历等等。这些特征对预测用户的兴趣有很重要的做用,好比男性和女性的兴趣不一样, 不一样年龄的人兴趣也不一样。spa
用户兴趣的描述
有一些网站会直接让用户描述本身的兴趣。设计
从其余网站导入的用户站外行为数据
好比豆瓣、微博等用户注册时会使用他们的行为数据或者社交信息。开发
另外要解决用户冷启动问题,能够给用户提供一些物品,让用户提供反馈,这样根据用户的反馈再提供个性化的推荐。好比,在电影推荐网站,用户注册时须要先对提供的电影进行评分,这样推荐网站才能给用户作出推荐。一般来讲,提供的物品具备如下特色:微博
热门。
用户会了解所提供的物品。class
具备表明性和区分性。
做为个性化推荐的依据,使得物品须要有必定的区分性。用户体验
多样性。
为了匹配多样的兴趣,咱们须要提供具备很高覆盖率的启动物品集合,这些物品能覆盖几乎全部主流的用户兴趣。方法
Nadav Golbandi的算法首先会从全部用户中找到具备最高区分度的物品\(i\),而后将用户分红3类。而后在每类用户中再找到最具区分度的物品,而后将每一类用户又各自分为3类,也就是将 总用户分红9类,而后这样继续下去,最终能够经过对一系列物品的见解将用户进行分类。而在冷启动时,咱们从根节点开始询问用户对该节点物品的见解,而后根据用户的选择将用户放到不一样的分枝,直到进入最后的叶子节点,此时咱们就已经对用户的兴趣有了比较清楚的了解,从而能够开始对用户进行比较准确地个性化推荐。统计
以前的博文讲到了UserCF算法,UserCF算法对物品冷启动问题并不很是敏感。由于,UserCF在给用户进行推荐时,会首先找到和用户兴趣类似的一群用户,而后给用户推荐这一群用户喜欢的物品。在不少网站中,推荐列表并非给用户展现内容的惟一列表,那么当一个新物品加入时,总会有用户从某些途径看到这些物品,对这些物品产生反馈。那么,当一个用户对某个物品产生反馈后,和他历史兴趣类似的其余用户的推荐列表中就有可能出现这一物品,从而更多的人就会对这个物品产生反馈,致使更多的人的推荐列表中会出现这一物品,所以该物品就能不断地扩散开来,从而逐步展现到对它感兴趣用户的推荐列表中。
解决第一推进力 最简单的方法是将新的物品随机展现给用户,但这样显然不太个性化,所以能够考虑利用物品的内容信息,将新物品先投放给曾经喜欢过和它内容类似的其余物品的用户。那么什么算是物品内容信息呢?
物品的内容信息多种多样,不一样类型的物品有不一样的内容信息。若是是电影,那么内容信息通常包括标题、导演、演员、编剧、剧情、风格、国家、年代等。若是是图书,内容信息通常包含标题、做者、出版社、正文、分类等。咱们能够由文本到分词,到实体检测,到关键词排名,再到关键词向量。
系统冷启动主要解决如何在一个新开发的网站上(尚未用户,也没有用户行为,只有一些物品的信息)设计个性化推荐系统,从而在网站刚发布时就让用户体验到个性化推荐服务这一问题。
不少推荐系统在创建时,既没有用户的行为数据,也没有充足的物品内容信息来计算准确的物品类似度。那么,为了在推荐系统创建时就让用户获得比较好的体验,不少系统都利用专家进行标注。