我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:东方心经资料 > 浩瀚 >

“神经网络之父”Hinton 引领机器感知浩瀚的人类语言文明【算力

归档日期:04-29       文本归类:浩瀚      文章编辑:爱尚语录

  在自然语言处理(NPL)领域,深度学习正是目前热门的研究方向。在谈到实体识别、机器翻译等神经网络的高级功能前,最先需要解决的问题是如何让人类语言成为神经网络可以识别的数据类型。相比于图像、语音等较为低级的数据表示形式,语言是人类在数百万年演进中产生的一种抽象思维表达工具,机器在字面不同的两个词面前难以刻画它们之间的联系。视觉图像嵌入技术将帮助神经网络在复杂的上下文中获得丰富的语义信息,跨越语义的鸿沟。

  本期编译文章来自于“深度学习之父”Geoffrey Hinton于2018年在自然语言处理领域顶级会议ACL上的获奖论文——《说明性语言理解:大规模的视觉基础与图像搜索》(Illustrative Language Understanding: Large-Scale Visual Grounding with Image Search)。Hinton在该文中探讨了图像搜索引擎在获得语言和图像之间通信的作用,重点介绍了一种大规模的基础语言查找操作系统Picturebook,并在单词相似性、语义相关性、情感/主题分类等广泛的任务中进行实验并报告结果。

  Geoffrey Hinton被称为“神经网络之父”、“深度学习教父”,是美国人工智能协会AAAI院士,谷歌人工智能首席科学家,首先将反向传播算法应用到神经网络与深度学习领域。

  自然语言处理领域中,尽管词嵌入技术在将文本数据转换成便于机器直接使用的实值向量时是有效的,基于图像搜索引擎的视觉化语言模型将允许模型学习语言的更高级细微差别。Word2Vec、Grove等词嵌入技术通过分析一个词的邻词(也称作语境)来确定该词的含义并转换为易于使用的数字特征,但词嵌入技术无法捕捉到可能发挥更大作用的高层次信息,且初始化的模型需要从头开始学习。

  Picturebook嵌入法作为使用图像获取单词表达的新方式,将在大型数据集上学习分类图像,并可以与其他信息嵌入模式相融合。在本文的一系列模型实验中,这种嵌入方式在辨识单词近邻、情感偏向和机器翻译等任务中表现良好,这预示着自然语言处理或取得阶段性进步。

  近年来,大量的研究集中在视觉与语言的结合上,以获得视觉化的单词和句子表征。在现有的工作中,被使用的一个基础资源是图像搜索引擎。搜索引擎允许我们获得语言和图像之间的通信,这比现有的多模态数据集的词汇限制要小得多。虽然真正的自然语言理解可能需要完全嵌入的认知,但搜索引擎让我们能够从数百万覆盖了物理世界的“快照”中找到准基础。

  本文将介绍使用单词作为查询对象进行图像搜索生成的Picturebook嵌入法。Picturebook嵌入法是通过一个经语义排序和目标训练的卷积网络,在一个拥有1亿多张图像的专有图像数据集上获得。使用谷歌图像搜索,将卷积网络的k个特征向量连接到检索到的top-k搜索结果上,便可以得到一个单词的图集嵌入。

  图2:图像搜索的现有方法及其考虑的任务(图片来源:该篇论文Table 1)

  在生成模型问题时,我们希望执行相反的操作。给定一个图片集嵌入,我们希望找到与其表示形式最接近的单词或短语。例如,给定英语单词“bicycle”及其图册嵌入,能够生成这种表示的最相近法语单词(即“vélo”)。我们想要在Picturebook嵌入法下执行这个逆图像搜索操作,所以引入一种辨别机制(differentiable mechanism),它将允许我们在图片集嵌入域内对源语言和目标语言中的单词进行对齐。

  为了了解模型学习的表示形式,我们首先计算几个单词的最近邻结果,如图3所示。这些结果可以这样解释:“邻近单词”与查询中的单词在语义上相似,通常这也能捕捉到视觉上的相似性。

  图3:语言的近邻:检索超过10万个最频繁的单词(图片来源:该篇论文Table 2)

  有些词具有多模态性,比如“deep”既指深海,也指人工智能;像“sun”这样的单词在不同的语言中也会返回相应的单词,比如西班牙语中的“Sol”和法语中的“Soleil”。

  值得强调的是,一个单词最频繁的关联可能不是图像搜索结果中所表示的。例如,“is”这个词会被返回到与有关的词汇中,而“it”则会被返回到与和小丑有关的词汇中,因为2017年上映的同名电影中出现了这些词汇。

  此定量实验旨在确定Picturebook嵌入在捕获单词相似性上的能力。我们使用SimLex-999数据集,报告9个类别的结果:all(整体评估)、adjs(形容词)、nouns(名词)、verbs(动词)、 conc-q(具结四分位数)和最难的333对。对于具结四分位数,第一个四分位数对应最抽象的单词,而最后一个四分位数对应最具体的单词。最难的配对是那些很难区分相似性和亲缘关系的配对。

  图4:SimLex - 999结果(斯皮尔曼相关系数):整体上最好的结果是粗体显示的,每个部分的最佳结果都有下划线,括号内的数字表示使用的图像数量。(图片来源:该篇论文Table 3)

  首先,我们发现将Glove和Picturebook结合起来可以提高大多数类别的相似性。对于形容词和最抽象的类别,Glove的表现明显更好,而对于最具体的图片类书籍,Picturebook的表现则明显更好。这一结果证实了Glove和Picturebook能够捕捉到非常不同的单词属性。

  其次,Picturebook的性能在每一个具体的四分位等级上都有逐步提高,在大多数具体类别上比Glove提高了20分。对于最难的单词子集,Picturebook的表现略好于Glove,尽管Glove在单词组中总体表现得更好。

  传统上,词的表示是建立在相邻词同时出现的基础上,这种表示只使用文本分布的统计数据。Picturebook嵌入法为构建基于图像搜索引擎的单词表示提供了另一种方法。

  在未来的工作中,我们希望探索搜索引擎在其他方面的语言基础,以及这些嵌入法可能对学习一般句子表示的影响。最近,语境化的单词表示在与现有的嵌入法相结合时表现出了改善,我们希望将Picturebook与这些嵌入法集成在一起,进一步提高性能。

本文链接:http://gulf-coast-info.com/haohan/77.html