Instagram 是如何利用AI深度学习进行内容推荐的(翻译)


1.强如Instagram和Facebook,资源也是受限的
算法

与一些人倾向于按时间顺序显示摘要不一样,“浏览”选项仍须要经过算法来驱动。可是理解图片社交网络上发生的事情并向人们推荐新内容是一个很是困难的过程。网络

若是相关企业有充足的能力与时间,那么他们可能会在解决此类问题上作出一些成果。但事实上,这些企业在短期内须要为数亿人提供服务,这意味着须要庞大的数据资源。机器学习

2.所有与帐户有关,而与帖子自己无关ide

如此海量的信息发布到Instagram上,单独跟踪并推荐每张照片几乎是不可能作到的。与之相比,跟踪做者账户显然更简单且更高效,由于同一个帐户里的内容一般具备共同性,或者有一个共同的话题,好比“旅游”。学习

用户喜欢某个帐号中的一条帖子并不必定意味着这位用户会喜欢该帐号中的其余内容,但这至少能够代表用户对该帐号的主题感兴趣。图片

3.复杂的用户习惯完善了算法资源

值得注意的是,Instagram不只使用图像功能来肯定哪些帐户是按主题连接的,他们也会根据你的行为进行判断。it

例如,当你连续喜欢几个帖子时,即便Instagram的算法看不太清楚,它们也更有可能以某种方式链接起来:class

若是一我的在同一会话中与一系列帐户交互,那么与来自各类Instagram帐户的随机帐户序列相比,它更有可能具备主题一致性,这有助于识别局部类似的账户。神经网络

人们只是倾向于以这种方式看待事物,从一个旅游专题转到另外一个,或者关注动物。全部这些信息都被算法吸取并检查相关性。固然,像“少看这样的帖子”和屏蔽帐号这样的故意行为也有很大的份量。

4.从“种子帐户”到前25名

将几十亿个帖子压缩到24个是至关困难的,可是你能够经过将Explore标签限制到与用户已经喜欢或保存的帖子相关的帐户,从而将问题缩小到可管理的范围。这些被称为“种子帐户”,由于在这个过程当中其余的一切都是从它们中产生的。

想象一下,若是你知道有人喜欢某个特定的红橙色大理石,你须要找到更多相似的。若是你只是把手伸进一袋弹珠里,你不太可能很快找到一个。即便你把它们倒在地板上,你仍是得找一下子。可是若是你已经根据颜色来组织它们了,你所要作的就是找到它们喜欢的大理石的大体位置,几乎能够保证你会选出一个获胜者。

机器学习模型经过给全部这些帐户一个虚拟空间中的位置来实现这一点,两个帐户在虚拟空间中的距离越近,它们在局部上的距离就越近。

所以,把一个几十亿削减到一个几百的真正困难的部分基本上已经经过帐户分类的方式完成了。

从那时起,Instagram经过神经网络进行三次传递,其复杂性不断增长。

首先,稍微使人困惑的是接下来的两个流程的更简单的组合版本,将其从500个帐户增长到150个帐户。这有点奇怪,但请这样想:这个神经网络已经看到步骤2和步骤3屡次发生,而且对它们的做用有了很好的了解。有点像你看到饼干作了足够的次数,你能够猜出一个食谱。您可能会接近,但也不想将其发布给一亿人。所以,此步骤能够正确处理显而易见的内容。

其次是一个计算成本低廉的神经网络,它使用的信号比上面提到的简单主题类似度更多。这就是你的我的喜爱发挥做用的地方,以及关于帐户的更深层次的数据。固然,你喜欢旅行,但你更喜欢情侣旅行——上面的大理石分类算法对这两种状况都有帮助。其余参数,好比一篇文章的受欢迎程度,或者它与其余文章的不一样之处,也会被计算在内。

第三种方法是上述方法的一个计算代价高昂的版本,它对这50个数据进行另外一次传递,并将其减半,基本上是经过仔细观察并花时间将每一个数据点包含1000个数据点而不是100个数据点。

相关文章
相关标签/搜索