• 916彩票
  • 916彩票网
  • 916彩票官网
  • 916彩票app
  • 916彩票下载
  • 916彩票新闻
  • 916彩票注册
  • 916彩票登录
  • 916彩票简介
  • 916彩票招聘
  • 916彩票玩法
  • 916彩票开奖
  • 916彩票直播
  • 916彩票手机版
  • 916彩票平台
  • 916彩票活动
  • 916彩票视频
  • 916彩票技巧
  • 916彩票优惠
  • 916彩票图片
  • 916彩票会员
  • 916彩票资质
  • 916彩票资讯
  • 916彩票版本
  • 916彩票正版
  • 916彩票官方
  • 916彩票软件
  • 916彩票客服
  • 916彩票导航
  • 916彩票地址
  • 916彩票提现
  • 当前位置:916彩票 > 新闻动态 >
    如何可视化BERT?你必要先理解神经网络的说话、树和几何性质
    来源:未知发布时间:2019-07-05 11:47

    总结

    给定两个迥异的树节点 x 和 y,m 是它们的树距离 d(x,y),则吾们可使用 m 个互相垂直的单位步从 f(x) 移动到 f(y),因此:

    因为是在。高维空间中,(1)来自单位高斯分布的向量的长度有很高的能够性专门挨近于 1;(2)当 m≫n 时,一组 n 个单位高斯向量将很有能够挨近于彼此正交。

    定理 1.2

     

     

     

    毕达哥拉斯嵌入很简洁,而且它们源自片面随机模。型,这表明它们在。外征树方面能够是广大有效的。要仔细,树的大幼受场景的维度所限制,它们能够是基于双弯几何的手段的矮技术替代手段。

    吾们已描述了树嵌入的数学理想式样,现在。回到神经网络世界。

     

    令 M 为一个度量空间,其度量为 d。设倘若对。于一切的 x,y∈M,都有

     

    也能够轻盈地望到,表明中构建的特定嵌入是一个 ℓ1 度量的树等距映射(tree isometry),尽管这专门倚赖于轴对。齐。

    另一方面,当 p<2 时,原形表明幂为 p 的树嵌入甚至纷歧定存在。。

    其它嵌入和匮乏嵌入的情况

    注:定理 1.2 的嵌入不再位于单位超立方体上,而是在。其一个压扁的版本中:边长为

    图 6:在。使用了 Hewitt-Manning 探针后两个句子的嵌入的可视化。在。每一对。图像中,左图是传统的解析树试图,但每个分支的竖直长度外示嵌入距离。右图是上下文嵌入的 PCA 投影,其中的颜色外示偏离预期距离的水平。该图的交互式版本请访问原文。

    注:更众相关双弯树外征的知识请参阅《Hyperbolic Embeddings with a Hopefully Right Amount of Hyperbole》:https://dawn.cs.stanford.edu/2018/03/19/hyperbolics/ 或 Nickel & Kiela 的《Poincaré Embeddings for Learning Hierarchical Representations》:https://arxiv.org/abs/1705.08039

    这两个示例都不是未必破例。实际上吾们能清晰地直接写出任何树在。单位超立方体的顶点上的毕达哥拉斯嵌入。

    毕达哥拉斯嵌入的性质专门郑重,起码在。维度广大于树周围的空间中是如许。(举个例子,这就是吾们的说话处理神经网络的激励示例的情况。)在。上面的表明中,除了使用基向量 e_1,...,e_(n−1) ∈R^(n−1),吾们本能够从 R^m 的单元高斯分布中十足随机地选出 n 个向量。倘若 m≫n,那么终局有很高的能够性会是近似的毕达哥拉斯嵌入。

    备注

     

     

    注:PCA 能得到比 t-SNE 或 UMAP 更可读。的可视化。当点在。一个矮维流形上聚类或星散时,非线性手段的成。果能够最益——基本上与 n-立方体的顶点相逆。

    相关炎词搜索:BERT自然说话处理

    PCA 投影已经很风趣了——BERT 嵌入和理想式样之间有清晰的相通性。图 5c 展现了一系列随机分支的嵌入,也相通于 BERT 嵌入。图 5d 是基线,展现了一系列词是随机地自力安放的嵌入。

    对。于肆意 p<2,存在。「异国幂为 p 的嵌入」的树。

    定义

    图 3:四个顶点组成。的链也有在。单位正方体的顶点上的毕达哥拉斯嵌入

    图 1 中的树有毕达哥拉斯嵌入吗?有的:如图 2 所示,吾们能够将各个点分配到一个单位正方体的邻近顶点,毕达哥拉斯定理(即勾股定理)就能挑供吾们想要的终局。

    上一篇:Keras官方出调参工具了,然而Francois说先别急着用 末了一页下一篇:

    从理论上解读。树嵌入

     

     

    令 M 为一个度量空间,其度量为 d。倘若对。于一切 x,y∈M,吾们有

    吾们这边不会细腻描述 BERT 架构,只是浅易说一下该网络的输入是词序列,经过一系列层之后能为其中每个词得到一系列嵌入。由于这些嵌入考虑了上下文,因而它们常被称为上下文嵌入(context embedding)。

    ,则吾们说 f:M→R^n 是幂为 p 的嵌入。

     

    自然,吾们并不实在。清新其形状,由于该嵌入只是近似的毕达哥拉斯嵌入。但理想形状和实际形状之间的迥异能够专门风趣。实验中的嵌入和它们的数学理想式样之间的编制性迥异能够能为 BERT 处理说话的手段挑供进一步的线索。

    基于这些不益望察,吾们决定更编制地钻研迥异的依存相关将能够如何影响嵌入距离。回答这一题目的一栽手段是考虑一个大型句子集并测试词对。之间的平均距离是否与它们的句法相关存在。任何相关。吾们使用一个 Penn Treebank 句子集以及派生的解析树执走了这个实验。

    但有一点要仔细:最先你必要始末一个特定的矩阵 B(即所谓的组织探针(structural probe))对。这个上下文嵌入进走变换。但在。此之后,两个词的上下文嵌入之间的欧几里德距离的平方挨近两个词之间的解析树距离。这就是前一节的数学计算发挥奏效的地方。用吾们的术语说,这个上下文嵌入挨近一个句子的依存解析树的毕达哥拉斯嵌入。这意味吾们对。树嵌入团体形状有很益的认知——就是浅易地源自平方距离性质和定理 1.1。

     

     

    可视化和测量解析树外征

     

    表明。

    但这一发现还陪同着一个很风趣的谜题。树距离与欧几里德距离之间的映射不是线性的。相逆,Hewitt 和 Manning 发现树距离对。答于欧几里德距离的平方。他们挑出了疑问:为什么必需平方距离,是否存在。其它能够的映射。

    这栽构建甚至能够始末一个迭代过程完善,仅需「片面」新闻。使用十足随机的树嵌入进走初首化,再为每个顶点选取一个稀奇的随机向量;然后在。每个步骤移动每个子节点,使其更挨近其父节点添该子节点的稀奇向量。其终局会是近似的毕达哥拉斯嵌入。

    任何有 n 个节点的添权的树都有在。 R^(n-1) 中的毕达哥拉斯嵌入。

    BERT 是现在。最佳的自然说话处理模。型之一,也因此极其复杂。Google AI 的 People AI Research(PAIR)团队近日发布的论文《Visualizing and Measuring the Geometry of BERT》挑出了一栽可视化和度量 BERT 的几何性质的手段,可协助吾们理解 BERT 等神经网络说话模。型外征新闻的手段。该团队在。发布论文后还会发布一系列注释表明文章,现在。公布的第一篇介绍了神经网络中的说话、树和几何性质。本文对。该文章进走了编译介绍,更众细目请参阅原论文。

    实践中的树嵌入

    神经网络外征说话新闻的实在。手段照样照样一个谜。但吾们已经最先望到了有吸引力的线索。Hewitt 和 Manning 的近期钻研为解析树的直接的几何外征挑供了证据。他们发现了一栽风趣的平方距离效答,吾们认为这逆映了一栽数学上自然的嵌入类型——这能为吾们挑供一栽惊人。完善的嵌入几何思维。与此同时,对。 BERT 中解析树嵌入的实验钻研外明能够还有更众知识有待挖掘,还有在。解析树外征的更众定量方面有待追求。

    为了钻研这些迥异,吾们创造了一栽可视化工具。吾们的论文给出了细腻情况,这边只挑供些概述。该工具的输入是带有相关的依存解析树的句子。该柔件会从 BERT 挑掏出该句子的上下文嵌入,经过 Hewitt 和 Manning 的「组织探针」矩阵的变换,得到一个在。 1024 维空间中的点集。

    毕达哥拉斯嵌入(Pythagorean embeddings)

     

    图 7:给定的依存相关下,两个词之间的平方边长的平均

    注:吾们仔细到与定理 1.1 的表明相通的论据也出现在。 Hiroshi Maehara 的「有限度量空间的欧几里德嵌入」中:https://doi.org/10.1016/j.disc.2013.08.029

     

    吾们也能够对。定理 1.1 进走略微的泛化。考虑边有权重的树,两个节点之间的距离是它们之间的最短路径上边的权重的和。在。这栽情况下,吾们也总是能够创建毕达哥拉斯嵌入。

    此外,定理 1.1 中的嵌入也有一个清亮的非式样化的描述:在。图的每个嵌入顶点,一切连接邻近顶点的线段都是单位长度的线段,且与彼此和其它每条边线段正交。望一下图 1 和图 2 就能发现它们已足这栽描述。

     

    原文链接:https://pair-code.github.io/interpretability/bert-tree/

    表明。

     

     

    倘若你要将一个树(tree)嵌入到欧几里德空间中,为什么不直接将树距离对。答于欧几里德距离呢?一个因为是:倘若这个树有分支,则无法实现等距离扩展。

    相逆,平方距离嵌入实际上要益得众——它是如此益用以至于有专属名称。这个名字的来由将在。后面介绍。

    图 7 展现了这一实验的终局。终局外明每个依存相关的平均嵌入距离的转折周围很大:从大约 1.2(compound : prt, advcl)到 2.5(mwe, parataxis, auxpass)。钻研这些编制性迥异的含义是很风趣的。也许能够使用添权的树,BERT 的句法外征有优于清淡依存语法的其它定量方面。

    图 2:在。单位正方体的顶点上的一个浅易毕达哥拉斯嵌入

    任何有 n 个节点的树都有在。 R^(n-1) 中的毕达哥拉斯嵌入。

    定理 1.2 中嵌入固然是轴对。齐的,但在。 ℓ1 度量方面不再是等距离映射。但是,倘若吾们使用向量 w_ie_i 而不是

    说话的组织是离散的,而神经网络则基于不息数据运作:高维空间中的向量。成。功的说话处理网络必须要能将说话的符号新闻转译为某栽几何外征——但是这栽外征该是怎样的式样呢?词嵌入挑供了两栽著名的示例:用距离编码语义相通度,特定的倾向则对。答于极性(比如男性与女性)。

    定义:毕达哥拉斯嵌入

     

    原形上,图 1 中的树就是一个标准示例,外明并非一切度量空间都能够等距离地嵌入到 R^n 中。由于 d(A,B)=d(A,X) d(X,B),因而在。肆意嵌入中 A、X 和 B 都是共线的。基于联相符逻辑,A、X 和 C 也是共线的。但这就意味着 B=C,这是矛盾的。

    令树 T 的节点为 t_0,...,t_(n−1),其中 t_0 为根节点。令 {e_1,...,e_(n−1)} 为 R^(n-1) 的正交单位基向量。经过归纳,定义一个嵌入 f:T→R^(n−1):

     

    换句话说,在。有余高维度的空间中,树的随机分支的嵌入(其中每个子节点都与其父节点偏移一个随机的单位高斯向量)将挨近于毕达哥拉斯嵌入。

    论文:https://arxiv.org/pdf/1906.02715.pdf

    近段时间,一个激动人。心的发现带来了一栽崭新类型的外征手段。关于一个句子的说话新闻中,一大关键片面是其句法组织。这栽组织能够外示成。树,其节点对。答于句子的词。Hewitt 和 Manning 在。论文《A Structural Probe for Finding Syntax in Word Representations》中外明某些说话处理网络能够构建这栽句法树的几何副本。词是始末在。一个高维空间的位置给定的,而(按照肯定的变换)这些位置之间的欧几里德距离映射了树距离。

     

    博客:https://pair-code.github.io/interpretability/bert-tree/

     

    定理 2

     

    这个表明的价值不光是表明存在。这个终局,而且是在。清晰的几何构建中存在。这个终局。联相符个树的任何两个毕达哥拉斯嵌入都是等距离的——而且始末旋转或逆射而存在。相关,由于两者之中一切点对。之间的距离都相通。因而吾们说对。于树的毕达哥拉斯嵌入,该定理向吾们表清新其实在。模。样。

    然后,吾们始末 PCA 将这些点映射到二维。为了表现其底。层的树组织,吾们连接了外示有依存相关的词的点对。。下图 5 展现了一个样本句子的终局。为了比较,还给出了一个准确毕达哥拉斯嵌入、随机分支的嵌入、节点坐标十足随机的嵌入的相通数据的 PCA 投影。

    注:BERT 背景:这是谷歌博客的介绍:https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html ;这边还有一篇很棒的总结:https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270。还有许众论文分析了这些网络,比如《BERT Rediscovers the Classical NLP Pipeline》:https://arxiv.org/abs/1905.05950。

    定理 1.1

    图 4:左:将基向量分配给边。中:两个示例嵌入。右:平方的距离等于树距离。

     

     

    Hewitt 和 Manning 问是否还有其它有效的树嵌入类型,能够是基于欧几里德度量的其它幂。吾们能够挑供一些相关这些嵌入的片面结论。

    所得到的图像既能让吾们望到树嵌入的团体形状,也能让吾们望到离实在。毕达哥拉斯嵌入的偏离水平的细粒度新闻。图 6 给出了两个示例。它们都是典型的情况,展现了一些常见的主题。图中,橙色虚线连接了 part/of、same/as、sale/of。这个成。果很有特点,能够望到介词嵌入的位置与它们所相关的词出乎料想地近。吾们还能够望到蓝色标示的两个名词之间的连接,这表明它们比预期的更远——另一个常见模。式。

     

    随机分支的嵌入近似为毕达哥拉斯嵌入

    和前线相通,令树 T 的节点为 t_0,...,t_(n−1),其中 t_0 为根节点。令 {e_1,...,e_(n−1)} 为 R^(n-1) 的正交单位基向量。现在。令 w_i=d(t_i,parent(t_i))。经过归纳,定义嵌入 f 为:

    望待这栽构建手段的一个角度是:吾们为每条边分配了一个基向量。为了得到节点的嵌入,吾们走回到根并将吾们经过的边的一切向量添首来。见下图。

    吾们能够索引这个树的边,其中每条边的索引都与在。该边上的子节点相通。令 P 为 x 与 y 之间的最短路径上边的索引的荟萃,则

     

    其它幼型的树又如何呢,比如四个顶点组成。的链?这也能在。正方体的顶点中有很益的毕达哥拉斯嵌入。

    图 1:你无法在。保证距离不变的同时将这个树嵌入到欧几里德空间中

    文末的图 8 展现了这些可视化的更众示例,你能够进一步查望这些模。式。

    注:对。于欧几里德空间中的嵌入的清淡性题目的更众注释,请参阅这篇时兴的概述:https://arxiv.org/pdf/1502.02816.pdf 和这个有效的书籍章节:http://www.csun.edu/~ctoth/Handbook/chap8.pdf

    表明过程请参阅吾们的论文(这边也有另一个表明:https://www.sciencedirect.com/science/article/pii/S0012365X13003841)。总结来说,对。于肆意给定的 p<2,异国有余的「空间」来嵌入带有有余众子节点的节点。

     

     

    固然使用的名字各不相通,但清淡度量空间的幂为 p 的嵌入已被钻研了数十年。这方面的奠基做事是 Schoenberg 1937 年的论文:https://www.jstor.org/stable/1968835。该论文的一个关键终局用吾们的术语说来就是:倘若一个度量空间 X 有在。 R^n 中的幂为 p 的嵌入,那么对。于肆意 q>p,它也有幂为 q 的嵌入。因此当 p>2 时,肆意树都总是有幂为 p 的嵌入。而 p=2 的情况则很纷歧样,吾们还异国一栽用于描述这栽嵌入的几何性质的简片面法。

    吾们会在。一个网络(BERT)平分析和可视化实活着界的嵌入以及它们与其数学理想式样(mathematical idealizations)的编制性迥异,以对。这些几何论点进走增添表明。这些实证钻研将挑供用于思考神经网络中句法外征的新的定量手段。

    人。们已经挑出了许众描述句法组织的手段。在。依存语法中,每个词都是树的一个节点,如下图所示。

     

    图 5:PCA 视图。a)BERT 解析树嵌入。b)准确毕达哥拉斯嵌入。c)迥异的随机分支嵌入。d)节点位置是随机地自力选择的迥异嵌入。该图的交互式版本请访问原文。

    但吾们还能够更进一步,展现嵌入迥异于理想模。型的手段。在。下面的图 6 中,每条边的颜色外示欧几里德距离与树距离之间的差。吾们也用虚线连接了异国依存相关但位置(在。 PCA 之前)比预期的近得众的词对。。

    这篇文章将为这个谜题挑供一些湮没的解答。吾们将从数学角度外明:树的平方距离映射是尤其自然的。甚至某些随机化的树嵌入也将按照近似的平方距离定律。此外,只是清新平方距离相关,就能让吾们浅易清晰地描述树嵌入的团体形状。

    倘若一个树包含分支,则其将包含该配置的一个副本,也无法以等距离的手段嵌入。

     

    图 8:其它解析树示例;表明见图 6。该图的交互式版本请访问原文。

    吾们钻研的对。象是 BERT 模。型,这是近期一栽针对。自然说话处理的成。功模。型。吾们对。这一模。型感趣味的一大因为是其在。许众迥异义务上都外现优厚,这表明其能够挑掏出广大有效的说话特征。BERT 基于 Transformer 架构。