来源:社媒派SMP
题目:E-Net: 网络数据的增强方法
作者:许嘉蓉(浙江大学)、杨洋(浙江大学)、王春平(信也科技)、刘宗涛(阿里巴巴)、张静(中国人民大学)、陈磊(信也科技)、卢建刚(浙江大学)
期刊:IEEE Transactions on Knowledge and Data Engineering (TKDE)
背景
“网络”或者“图”作为一种重要的数据形态,在很多领域中扮演着越来越重要的角色,如社交网络网络分析、搜索与推荐、生物化学分子结构分析等。然而,由于采样不完全、数据不可得、量化标准有误差等等原因,现实中收集到的数据一般带有偏差和噪声。而复杂网络数据更为关注节点之间的关联,更容易受到边上噪声的影响。我们把网络中的缺陷边(flawed link)分为缺失边(missing link)和噪声边(noisy link)。噪声边,即为真实情况下并不存在的边,比如用通话网络来构建社交状况,可能因为误拨的电话或者一些推销、外卖电话而加上了一些不反映社交状况的边;缺失边,则是真实情况下存在,数据中却并没有观测到的边,比如以用户之间的转账来构建关系网络,一家银行往往只有用户在本行转账的数据,而观察不到本来存在的他行转账数据。这些缺陷边会直接影响到图上的信息传播过程,从而引发下游任务的误导性结论。
本文提出了E-Net模型(Enhanced Network model),充分考虑了缺失边与噪声边的识别会相互影响,并提出了一个端到端的基于图神经网络的模型,来联合学习噪声边和缺失边。
联合学习网络缺失边和噪声边
该篇论文的一个重要贡献是充分考虑了缺失边与噪声边的识别会相互影响。一方面,我们在图1(c)中展示了噪声边对缺失边的影响:当预测节点B和D之间是否存在一条缺失边时,如果我们已经识别到边A-D和B-C是噪声边并事先将其删除了,这将降低B和D之间存在边的可能性。另一方面,我们在图1(d)中展示了噪声边对缺失边的影响:当检测边B-G或H-I是否是噪声边时,如果已经预测到边G-H为缺失边并事先补全了这条边,则B和G之间的连接或H和I之间的连接将得到加强,这将减少边B-G或H-I被删除的可能性。此示例表明,两个任务之间的相互影响可以提高每个任务的性能。
因此,本文要解决的主要挑战是如何捕获缺失边和噪声边之间的相互影响。噪声边被识别出来并去除掉,会有利于缺失边的预测;另一方面,缺失边预测的目标函数可以为噪声边的识别提供间接的监督。
E-Net框架
为了能快速处理大规模网络,我们首先基于两个查询节点走多步的重启随机游走(Random Walk with Restart)来提取子图(如图2(a))。其次,我们注意到预测缺失边和检测噪声边的这两个目标可能会相互影响,比如,一条噪声边会将错误的信息传播到它的邻居,这可能会导致我们可能学到误导性的节点表示甚至是图表示,从而影响到预测两个查询节点之间的缺失边的性能。
为此,我们提出了一种端到端的基于图神经网络的模型,通过一个Noisy link detection layer来预测子图中的噪声边(如图2(b)所示),再经过Denoising graph convolution layers来阻断或减少沿噪声边的信息流,学习到鲁棒的节点表示(如图2(c)所示),再经过一个Pooling layer将节点表征映射到图表征(如图2(d)所示),最后通过一个Missing link prediction layer来预测两个查询节点之间是否存在缺失边(如图2(e)所示)。
实验分析
我们的实验结果表明,在预测缺失边的任务中,当我们的模型共同学习网络缺失边和噪声边时,与不对网络进行降噪的模型相比,F1增益可达10.5%; 此外,与分开预测缺失边和检测噪声边的模型相比,F1增益可达2.6%(见图1右上角统计图)。并且,我们的模型在预测缺失边和检测噪声边上都能有很好的表现,具体结果以及更多分析可以参考论文。
责任编辑:宫继兵
来源:CIPS-SMP 社媒派SMP
原文链接:http://mp.weixin.qq.com/s?__biz=MzA5OTQ5MDE0Mw==&mid=2651122798&idx=1&sn=c210c2788678f8833d36b35a5121af39&chksm=8b71cc5ebc064548a5e8865e87d0c5f3c901034e5d5d2bfa5a1b8f2722ee9a5dd796ac8ffc51&scene=27#wechat_redirect
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn