作者都给出了具 体做法

2017-12-31 作者:admin   |   浏览(62)

  本文是蚂蚁金服技术团队在代表公司参加了今年2月份在美国新奥尔良召开的人工智能顶级会议AAAI 2018 后写下深度的分享。在这篇文章里你能看到此次会议的各类优秀论文解读和蚂蚁金服在AAAI的论文成果。

  今年的AAAI本届共收到了3808篇论文投稿,其中录用了938篇,较去年的投稿量增加了47%。

  可以看到,machine learning methods由于有不同子领域的论文,所以投稿和录用量均为最高。在各个子领域中,图像的投稿和录用居于首位,相比于去年,更是增加了257%的投稿和285%的录用数量。

  AAAI 2018上发表的这篇论文引入生成对抗网络(GAN)的框架,结合了GAN和Graphlearning,关于这方面的survey,参考这篇文章:

  这两个热点,利用生成器和判别器的对抗训练进行网络特征学习,尝试提升效果。

  GraphGAN尝试学习两个模型:(1)生成模型G(VVc)试图去接近一个真实的概率分布:Ptrue(VVc);(2)判定模型D(VVc),它的目标是判定Vc和V之间是否有边。通过经典的min-maxgame操作,在每一步的迭代中,从Ptrue中sample出来一些跟Vc真实相邻的点,然后从G中生成一些跟Vc相连的另外一些点。将sample出来的点作为正样本,将G中生成的点作为负样本来训练D,在得到D之后,再用D中的信号去反过来训练G。不断重复这个过程,直到生成器G和Ptrue极为接近。文章中为了克服softmax和层次softmax的缺陷,还提出了一种Graph Softmax作为G的实现,在5个公开数据集合上测试,证明了GraphGAN的效果。

  谷歌于2013年公开了word2vec,在学术界和工业界引起了巨大的关注。该方法通过无监督学习将单词映射到低维度连续的向量上,称之为“词向量”。词向量融入了单词的语义信息,将其作为输入,自然语言处理的诸多领域产生了非常好的效果。在图计算领域,是否也可以将一个图上的节点映射到一个低维的向量空间,且图节点向量可以表示该节点在整个网络中的拓扑特性呢?

  传统的算法都是“一次性”完成节点向量表示的学习,不同于前人工作,这篇论文的核心思想是“层次的”学习节点向量表示。首先,作者发现两点问题:

  基于这两点发现,作者提出了层次学习的方法。首先,将相近的节点进行坍缩,得到了更小的图,然后在这个更小的图上学习节点向量表示,再将该向量表示作为原图的初始值,学习原图上的节点向量表示。如果连续坍缩多次,然后逐步从最坍缩的图上学习节点向量表示,然后作为初值再学习下一层更大的图上的节点向量表示,就构成了一种层次的学习方式。

  关于坍缩的方式,文中也列举了两种情况,一种叫做“边坍缩”,另一种叫做“星状坍缩”,分别对应了图上的两种不同的节点连接方式。对于不同的坍缩方式,作者都给出了具体做法。

  与作者交谈期间发现,HARP也提供了一种新的思路去解决超大规模的图节点向量表示学习,即当节点很多且很稀疏的时候,可以进行坍缩,然后用坍缩图上的节点向量表示直接作为原图的节点近似向量表示。当然,这种近似方法虽然提供了高效率的计算,但也会带来一定的误差,实际效果也有待考究。

  在多标签分类实验中,可以看出HARP在不同数据集上有一致性的提升。图中横轴均为训练集占总的标注数据的百分比。此外,带有标注的训练数据越多,所有算法的准确度均越高,同时,在不同百分比的训练数据下,HARP也有一致性的提升。目前论文可以从arxiv上下载:

  隐私数据泄露是社交推荐中常见的问题,即用户个人的隐私数据被社交网络中的邻居或推荐平台获取,从而导致泄露的问题。为解决这一问题,文章提出了一种社交网络场景下保护用户隐私数据的推荐方法,即PrivSR。

  隐私数据泄露问题如图所示,该推荐例子中,总共有4个用户,6个物品。其中u1, u2,u4是正常用户,u3是坏用户。用户u1共评价了4个物品,其中R11和R13是敏感数据,即用户u1不想让其他用户及推荐平台知道的,R12和R14是可以公开的数据。社交推荐场景下的一个假设就是好友之间有相似的偏好,所以此时当用户u1将非敏感数据(R12和R14)发布时,坏用户(u3)以及推荐平台(Recommender)便可以反推出敏感数据。

  文章提出的PrivSR推荐框架如图2所示。该方法是一种半去中心化式的推荐方法,也就是说推荐平台只能获得用户的部分未敏感数据,同时用户自己保留自己的敏感数据。

  右上:用户u1能接触到的资源,包括他自己的评分,所有用户的非敏感数据,他的好友集合,所有物品的潜在向量,以及他自己的用户潜在向量。

  左下:推荐平台(recommender)能接触到的资源,包括所有用户的非敏感数据,以及所有物品的潜在向量

  右下:社交关系,对关系强度加噪,因为社交关系限制了好友具有相似的潜在向量

  第二行是对非敏感数据的误差优化,以及对非敏感数据加噪,强度为y,这里非敏感数据加噪强度要小于敏感数据的加噪强度;

  第三行是社交关系的正则化项,限制好友之间有相似的偏好,同时对好友关系加噪,强度为q;

  同时,文章里对加噪方法满足差分隐私(Differential privacy)做了证明,感兴趣的可以查看文章详情。

  文章选择了Ciao及Epinions两个公开数据集,使用MAE作为评价指标。对比结果如图3所示,从中可以看出,在数据完全公开的情况下,PrivSR要比已有的社交推荐方法(Soreg)稍差。但随着越来越多的数据变成隐私数据,由于PrivSR可以使用这些数据,因此效果会越来越好。

  迁移学习技术近年来广为流行,主要思想是使用辅助域的丰富数据帮助解决目标域因数据稀少造成的性能差的问题。该文章提出的迁移学习方法主要是为了解决迁移学习中,辅助域及目标域标签数据稀少的问题,即半监督学习问题。为此,文章首先提出了一种半监督的深度学习模型,如图所示:

  结合非监督及监督的损失函数,对于单个目标域或者辅助域而言,整个损失函数为:

  使用以上单个域的训练结果,作为以下迁移学习模型的初始化。迁移学习模型如下图所示:

  首先对于监督部分,文章使用了两部分的约束,第一部分是学习辅助域和目标域的一个线性变换G,即:

  第二部分是使用这一变换,把目标的数据变换为辅助域的数据,进而用于优化目标域的分类结果,即

  文章声称这样做的目的是可以加强对辅助域丰富数据的使用,同时可以防止将辅助域的无用数据迁移进来。

  其次,对于非监督部分,文章使用Maximum Mean Discrepancy (MMD)来约束辅助域和目标域的分布相似,即:

  文章使用了Block Coordinate Descent (BCD)分别去优化模型,并在两个公开数据集上做了丰富的实验。

  最后,一个比较有意思的是,他给出了自己理解的未来深度学习的几大研究趋势,其中automated machine learning是他非常看好的一个方向。

  今年,蚂蚁金服在AAAI 2018上有两篇文章被录用,论文的作者天霁和星至在现场分别进行了分享,收到了在场学者和观众的极大兴趣。

  这是一篇蚂蚁金服人工智能部的论文,被今年的AAAI高分录用。重庆时时彩官网指定平台针对无监督中文词向量生成问题,我们设计了一种新的算法:cw2vec。该算法充分利用了中文的语言学特性,让机器懂得汉字一笔一画之间的奥秘。在公开数据集上准确度超过了谷歌的word2vec,斯坦福的GloVe,清华的CWE等其他业界最优的算法。

  作为一项基础研究成果,cw2vec在蚂蚁和阿里的诸多场景上也有落地。在智能客服、文本风控和推荐等实际场景中均发挥了作用。此外,不单单是中文词向量,对于日文、韩文等其他语言我们也进行类似的尝试,相关的发明技术专利已经申请近二十项。

  现有的兴趣点推荐系统,都属于集中式(centralized)训练的方法,也就是说,传统的矩阵分解技术,首先构建该推荐系统的人(或平台),要获取用户对物品行为(如购买,点击,评分等行为)数据,然后利用这些数据来构建一个矩阵分解推荐系统。这样做有两个弊端:

  (1)耗费存储计算资源。一方面,所有用户对物品的行为历史数据,都要集中式的存储在某个服务端,因此浪费存储资源。另一方面,在训练矩阵分解模型时,需要在服务端机器上训练,模型的训练速度受限于服务端机器数量,因此浪费了计算资源;

  (2)不能保护用户隐私数据。因为用户对物品的行为历史,都被该服务端获取了,假设该服务端不会主动泄露用户隐私,那也存在会被黑客攻击,从而导致用户隐私泄露的事情发生。

  为解决这两个问题,我们提出了一种用户隐私保护的去中心化式的矩阵分解方法,如图1右所示。简单而言,用户的数据存在在自己的设备上,如手机和pad,不向服务端上传,这样解决了集中式训练造成的存储资源浪费。另一方面,模型的训练,也都在用户端完成,用户之间通过交互非原始数据信息来完成模型的协同训练。这样的去中心化式的训练方法可视为分布式算法,每个用户都是一个计算节点,因为可以解决集中式训练造成的计算资源浪费。

  通过参会,我们获取了更多业界最新的算法和经验,接下来期待我们能把本次会议收获的一些好的想法在阿里和蚂蚁的场景中落地,也期待未来中国能有更多的创新在类似AAAI这样的人工智能顶会上展示。