萧箫 发自 凹非寺
量子位 报道 公众号 QbitAI
最新消息,谷歌推出了 NLP 系列「芝麻街」的新成员 Big Bird。
这个在外界眼中看起来有点可爱的动漫小鸟,摇身一变,解决了 BERT 模型中的全注意力机制带来的序列长度二次依赖限制,可以兼顾更长的上下文。
△ 「芝麻街」中的 Big Bird
众所周知,谷歌开发的 BERT,曾经被称为「地表最强」NLP 模型。
而 BERT,则与美国知名动画片「芝麻街」(Sesame Street)里的虚拟人物同名。
此前,谷歌的「芝麻街」系列已经有 5 个成员(论文链接见传送门),现在 Big Bird 的到来,意味着谷歌在 NLP 的研究上更进一步。
△ 少了一位 ELMo
来看看 Big Bird 实现了什么。
突破全注意力机制的局限
在 NLP 模块表现最好的几种深度学习模型,例如 BERT,都是基于Transformer作为特征抽取器的模型,但这种模型有它的局限性,核心之一就是全注意力机制。
这种机制会带来序列长度二次依赖限制,主要表现在存储方面。
为了解决这个问题,团队提出了一种名为 Big Bird 的稀疏注意力机制。
作为更长序列上的 Transformers,Big Bird 采用稀疏注意力机制,将二次依赖降至线性。
下面这张图片,展示了 Big Bird 所用的注意力机制模块构建。
其中,白色的部分代表着注意力的空缺。
图(a)表示r=2 的随机注意力机制,图(b)表示w=3 的局部注意力机制,图(c)表示g=2 的全局注意力机制,图(d)则是前三者融合起来的 Big Bird 模型。
之所以提出这样的模型,是因为团队希望能在将二次依赖降至线性的同时,Big Bird 的模型还能最大程度上接近并保持 BERT 模型的各项指标。
从下图来看,无论是单一采用随机注意力机制、局部注意力机制,还是二者结合的方式,都没有将三者进行结合的效果好。
也就是说,随机+局部+全局的注意力机制融合,最大程度上接近了 BERT-base 的各项指标。
不仅如此,这种稀疏注意力机制的一部分,还包括了采用O(1) 的全局词例(global token),例如 CLS。
这部分使得长程注意力开销从O(N√N)降至O(N)。
NLP 问答和摘要任务中超越了 SOTA
模型采用 Books、CC-News、Stories 和 Wikipedia 几种数据集对四类模型进行了训练,根据留出法评估,BigBird-ETC 的损失达到了最低。
从结果来看,Big Bird 在问答任务中展示出的精度非常不错。
下图是 Big Bird 与 RoBERTa 和 Longformer 对比所展现出来的精度效果,可以看见,在各项数据及上,BigBird 的两个模型都展现出了更高的精度。
而在对模型进行微调后,可以看见,BigBird-ETC 在 HotpotQA 的 Sup、NaturalQ 的 LA、TriviaQA 的 Verified 和 WikiHop 上均超越了 SOTA。
与此同时,Big Bird 在 NLP 的摘要任务中表现也比较亮眼。
摘要,顾名思义是从一段长文字中提炼出这段话的核心思想和意义。下面是从三个长文章数据集 Arxiv、PubMed 和 BigPatent 中测试的效果。
从图中来看,与其他非常先进的 NLP 模型相比,BigBird 极大地提高了摘要任务的各项精度,性能表现非常优异。
不仅如此,Big Bird 被证明是图灵完备的,这也就意味着,一切可以计算的问题,Big Bird 都能计算,理论上,它能够用来解决任何算法。
此外,Big Bird 在基因组数据处理方面也极具潜力。
但虽然如此,也有网友认为,这样的模型与 Longformer 在概念上并无本质区别,不能算是一个大突破。
你怎么看?
作者介绍
论文的两位共同一作是 Manzil Zaheer 和 Guru Guruganesh,均来自谷歌。
△ Manzil Zaheer
Manzil Zaheer,CMU 机器学习博士,3 篇论文曾经发表于 NIPs 上,除此之外,在 ACL 和 EMNLP 等顶会上也发表过相应文章。
△ Guru Guruganesh
Guru Guruganesh,CMU 机器学习博士,主要在近似算法、拉姆齐定理、半正定规划等方向有所研究。
传送门
「芝麻街」系列论文列表:
- ELMo:https://arxiv.org/abs/1802.05365
- BERT:https://arxiv.org/abs/1810.04805
- ERNIE:https://arxiv.org/abs/1904.09223
- Grover:https://arxiv.org/abs/1905.12616
- KERMIT:https://arxiv.org/abs/1906.01604
- Big Bird:https://arxiv.org/abs/2007.14062
— 完 —