《Predict Anchor Links across Social Networks via an Embedding Approach》阅读笔记

时间 2019-12-14

标签 predict anchor links social networks embedding approach 阅读笔记繁體版

原文原文链接

基本信息

文献：Predict Anchor Links across Social Networks via an Embedding Approachhtml

时间：2016跨域

期刊：IJCAI网络

引言

预测跨社交网络的锚连接对于一系列应用具备重要意义，包括跨网络信息扩散和跨域推荐。一个具备挑战性的问题是：若是只有网络的结构信息可用，咱们是否可以以及在多大程度上解决锚链预测问题。dom

有关锚连接的信息一般在实际状况下不可用，由于大多数用户没有动机或不肯意在不一样的在线社交网络中明确关联他们的身份。这就引出了锚连接预测的问题，即，识别跨不一样社交网络的隐藏锚连接。利用网络结构进行锚链预测的现有方法分为两大类：函数

第一类方法是以无监督的方法来解决，所以不须要任何关于跨网络的显式对应的信息。这些方法将锚连接预测问题看做一个网络结构对齐问题，经过在网络中找到节点之间的某些结构类似性来进行解决，但这种方法一般是 NP-Hard 的组合优化问题。所以，这些方法要么限于具备中等规模的网络，要么仅适用于稀疏假设下的大规模网络。学习

第二类方法是采用监督的方法，即经过已知的锚连接的监督来解决锚连接预测问题。大多数现有的监督方法直接采用社交网络的结构特征，例如度，聚类系数，涉及的三角形的数量，共同的邻居等。在没有捕获社交网络的内在结构规律的状况下，这些方法对网络结构特别敏感，所以网络结构的轻微变化或噪声可能致使显着不一样的结果。优化

为了弥补这些差距，做者提出了一个新的监督方法，称为 PALE（Predicting Anchor Links via Embedding）来解决锚连接预测问题。该模型包含两个锚连接感知阶段，即嵌入和匹配。人工智能

嵌入（Embedding）：该阶段主要是将每一个网络嵌入到一个低维向量空间来学习每一个节点的有效表示。经过这种方式，能够很好地捕获网络的主要结构规律，同时滤除可有可无的一些细节。同时，利用观察到的锚链做为监督信息，网络嵌入也保留了特定的结构规律，该方法使咱们的模型对网络结构的微小变化具备鲁棒性。spa

匹配（Matching）：该阶段主要是将节点的低维表示做为特征，并以已经观察到的锚连接做为监督信息，从而学习两个低维空间之间的映射函数。为了使得两个潜在空间能够灵活地进行非线性相关，做者采用了多层感知器（MLP）来学习映射函数。最后，对于一个网络中的每一个节点，咱们根据学习的映射函数识别另外一个网络中最可能的对应节点。3d

除了鲁棒性以外，做者提出的模型的另外一个重要优势是网络结构的低维表示能够容易地与内容和人口统计特征相结合，以进一步提升锚链预测的准确性。

Predict Anchor Links via Embedding

令 \(G=\lbrace V,E \rbrace\) 表示一个社交网络，\(V\) 表示节点集合，\(E\subset (V\times V)\) 表示边集合。在生活中，存在一些用户同时涉及到两个不一样的社交网络中，从而两个社交网络间的锚连接。为了避免失通常性，将其中一个网络做为源网络，另外一个网络做为目标网络，分别用 \(G^s\) 和 \(G^t\) 表示。对于源网络的每个节点，咱们的目的是在目标网络中识别其对应的节点（若是存在的话）。这能够正式表述为如下锚连接预测问题。

Anchor link prediction：

给定两个社交网络 \(G^s=\lbrace V^s,E^s \rbrace\) 和 \(G^t=\lbrace V^t,E^t \rbrace\) ，和一个已经观察到的锚连接集合 \(T=\lbrace (v,u)|v\in V^s, u\in V^t \rbrace\)，该问题旨在识别 \(G^s\) 和 \(G^t\) 间的其它隐藏锚连接。

做者经过将两个社交网络分别表示为两个低维空间 \(Z^s\) 和 \(Z^t\) ，而后再学习两个嵌入空间的映射函数： \(\phi:Z^s \to Z^t\)。所以，PALE 模型的目的就是经过最小化下列目标函数来找到最佳的 \(Z^s\)， \(Z^t\) 和 \(\phi\) 。

其中，\(L_e(G^s,Z^s,G^t,Z^t,T)\) 表示将源网络 \(G^s\) 和目标网络 \(G^t\) 分别转化为低维空间 \(Z^s\) 和 \(Z^t\) 的损失，而 \(L_m(\phi, Z^s,Z^t,T)\) 是匹配时的损失函数，反映了匹配函数 \(\phi\) 是否将在 \(T\) 中已知的锚连接正确预测。

然而，因为 \(Z^s\)， \(Z^t\) 和 \(\phi\) 之间的相互依赖，上述的目标函数很可贵到有效地最优解。所以，做者采用了两阶段的嵌入和匹配的方法来转而去找到一个近似解。以下图所示：

嵌入阶段

该阶段将每个网络都嵌入到一个低维潜在空间，每一个节点 \(v_i\) 被表示为一个低维向量 \(z_i\)。该问题的关键是对社交网络中那些未观察到的边的处理，即那些还未明确创建地或者没有爬取成功的社交关系。当将网络嵌入潜在空间时，这些缺失的边可能致使不可靠的表示。

跨网络扩展

所以，做者提出了一个基于已经观察到的锚连接和其它网络的社交结构来识别隐藏的边的策略。若是两个节点在一个社交网络中没有关联关系，可是他们在另外一个社交网络中的对应节点间存在关联关系，则应该在当前网络中增长这两个节点间的边，如 Figure 2 所示：

即，对于给定的两个社交网络 \(G^s\) 和 \(G^t\)，以及它们之间的已观察到的锚连接集合 \(T\)。源网络 \(G^s\) 的扩展网络 \(\tilde{G}^s\) 能够表示为：

注意，在该模型中，扩网络扩展并非强制要求的。该步骤只是为了更好地进行网络表示。

网络嵌入

因为是独立地将两个网络嵌入到两个向量空间，因此该部分对于源网络和目标网络使用不加上标的统一表示。对于一对节点 \(v_i\) 和 \(v_j\)，给定他们的 \(d\) 维表示 \(z_i\) 和 \(z_j\)，则它们之间观察到边的几率为：

为了学习网络的潜在表示，做者采用极大似然估计的方法，即根据给定的网络结构来反推出最有可能出现该结构的节点表示，即最大化如下目标函数：

\[L=\prod_{(i,j)\in \tilde{E}}{p(v_i,v_j)}\]
将其转化为对数似然函数：

\[\sum_{(i,j)\in \tilde{E}}{\log p(v_i,v_j)}=\sum_{(i,j)\in \tilde{E}}{\log \sigma(z_i^T\cdot z_j)}\]

做者进一步引入了负采样机制，可是这部分的原理本人没有弄懂：

直接使用极大似然估计会存在什么问题？

负采样的原理和机制是怎么样的？

负采样的推理过程？

其中，第一项对已观察的边进行建模，第二个指望项从一个空模型中采样负边（negative edges），每一个节点以几率 \(P_n(v)\sim d_v^{3/4}\)，\(K\) 为采样的负边的数目，\(d_v\) 为节点的度。经过分别对两个社交网络中全部边按照公式（5）求和并进行最大化就能获得两个社交网络的潜在表示，最大化的过程能够将其转化为最小化而使用随机梯度降低的方法。

负采样

本文提到的负采样机制参考了 skip-gram 模型，具体内容能够参看文献一和基于 Negative Sampling 的模型。

该思想是采用了噪音对比估计（Noise Contrastive Estimation, NCE），该方法认为一个好的模型应该可以经过逻辑回归将数据与噪声区分开来。因为 Skipgram 模型仅关注学习高质量的向量表示，所以只要向量表示保持其质量，咱们就能够自由地简化 NCE 。采用公式（4）的方式定义负采样来替换 Skip-gram 目标函数中的每个 \(\log P(w_O|w_I)\) 项。所以，任务是使用逻辑回归将目标词 \(w_O\) 与从噪声分布 \(P_n(w)\) 抽样的词区分开，其中对于每一个数据样本存在 k 个负样本。负采样和 NCE 之间的主要区别在于 NCE 须要样本和噪声分布的数值几率，而负采样仅使用样本。

匹配阶段

在匹配阶段，基于学习到的两个网络的潜在表示，其目的是利用已知的锚连接 \((v_l^s,u_n^t)\in T\) 以及对应的潜在表示 \(z_l^s\) 和 \(z_n^t\) 来学习一个映射函数 \(\phi\)。映射函数的目的是使得在源网络 \(Z^s\) 中的节点表示 \(z_l^s\) ，通过映射函数 \(\phi\) 后，其与在目标网络 \(Z^t\) 中对应节点的距离应该最小。令 \(\Theta\) 表示映射函数的全部参数，则损失函数能够以下定义：

\[L_m(\phi,Z^s,Z^t,T)=\sum_{(v_l^s,u_n^t)\in T}{||\phi(z_l^s;\Theta)-z_n^t||_F}\]

对于映射函数，做者分别考虑了线性和非线性函数。

对于线性映射函数，\(\Theta\) 是一个 \(d\times d\) 维的矩阵，即：

\[\phi(z_l^s;\Theta)=\Theta \times z_l^s\]
其目的是找到一个最好的矩阵 \(\Theta\) ，使得对于全部标记的锚连接对 \((v_l^s,u_n^t)\in T\) 都有 \(\Theta \times v_l^s\) 很是近似于 \(v_n^t\) 。

对于非线性映射函数，做者采用了多层感知器（MLP）来捕获源空间和目标空间的非线性关系。以这种方式，在网络嵌入阶段中得到的两个空间不须要线性对齐，这为嵌入阶段提供了更大的灵活性以捕获网络的结构规律。

锚连接预测

预测阶段，对于源网络中的任意一个节点 \(v_l^s\)，首先获取其嵌入表示 \(z_l^s\)；而后根据学习到的映射函数 \(\phi(z_l^s; \Theta)\) 将其映射到目标向量空间；最后经过识别与 \(\phi(z_l^s; \Theta)\) 最接近的对应节点 \(u_n^t\) 来预测锚连接，对应节点能够经过如下方式查找：

\[\min_n||\phi(z_l^s; \Theta)-z_n^t||_F\]

对于源网络的每一个节点，均可以经过上述方式提供目标网络中的一个候选节点列表。从而用 hits 指标评估。

时间复杂度

在嵌入阶段，一个网络 \(G\) 的总时间复杂度为 \(O(kd|E|)\)，其中 \(k\) 为迭代次数，\(d\) 是嵌入向量的维度，\(|E|\) 是网络中边的数目。

在潜在空间匹配阶段，线性映射函数和非线性映射函数有不一样的时间复杂度。线性映射函数的时间复杂度为 \(O(|T|d^3)\)；而使用 MLP 做为非线性映射函数，其时间复杂度为 \(O(kd|T|)\)。

在预测阶段，对于任意一个节点，识别其在目标网络中的对应节点的时间复杂度为 \(O(|V|d^2)\)。

实验

实验采用两个数据集，一个是基于 Facebook 采样的两个子网络，另外一个则是不一样研究领域的两个共同做者网络。对比方案分别为：

Degree-Based Alignment：即依据节点的度来进行匹配，做为一个基线方法；
Matching Across Domains（MAD）：它经过奇异值分解来匹配同构网络上的共享节点，采用无监督方法；
Multi-Network Anchoring（MNA）：它从部分对齐的社交网络中提取成对的社交特征，而后将锚连接预测问题解决为分类问题；
Collective Random Walk（CRW）：在具备锚连接的网络上进行随机游走以识别另外一网络中的每一个节点的对应物；
PALE（LIN）：PALE 模型加上线性映射函数；
PALE（MLP）：PALE 模型加上 MLP 做为非线性映射函数。

评估指标采用 F1-measure 和 MAP@30。

基于 Facebook 的实验

第一个数据集为 Facebook 数据集，做者首先过滤了那些度小于 5 的节点，最终保留了 40710 个用户和 766519 条边。接着做者基于过滤的数据采样获得两个子网络，每一个网络都保留了原始网络中的全部节点。而对于每一条边，利用 [0, 1] 均匀分布来生成一个随机值。若是 \(p\leq 1-2\alpha_s+\alpha_s\alpha_c\)，直接丢弃这条边；若是 \(1-2\alpha_s+\alpha_s\alpha_c < p \leq 1-\alpha_s\)，则将其只保留在第一个子网络中；若是 \(1-\alpha_s< p \leq 1-\alpha_s\alpha_c\) ，则将其只保留在第二个子网络中；不然，将该条边同时保留在两个子网络中。经过上述方式，两个子网络都平均保留了原始网络中的 \(\alpha_s\) 比例的边。参数 \(\alpha_c\) 代表了两个子网络中有多少比例的边是共享的。

因为两个子网络都保留了原始网络中的全部节点，因此源网络和目标网络中的每对对应的节点都是能够做为 ground truth 的锚连接，实验选择其中的 \(\alpha_t\) 做为监督锚连接集合 \(T\)，并分别在不一样的稀疏级别 \(\alpha_s\) 和不一样的覆盖级别 \(\alpha_c\) 上进行实验。

基于共同做者网络的实验

第二个数据集是由人工智能（AI）和数据挖掘（DM）领域的会议论文组成的共同做者网络，表示为 AI-DM。该数据集来源于 MAG ，这是一个异构图，包含出版物的数目信息，出版物之间的引文关系，以及做者和机构的信息。做者分别选择了 AI 和 DM 领域的 10 个会议，而后在这两组论文上创建了两个共同做者网络，而且过滤掉少于 3 个共同做者关系的做者。这两个网络间有 1154 个共同做者，造成了锚连接的 ground truth。