谷歌提出可量化评估NLG模型性能的BLEURT指标

　　过去几年，自然语言生成（NLG）模型得到了巨大的发展，通读、总结文本、以及参与对话的能力都已大幅提升。为便于研究团队评估不同 NLG 模型的性能，搜索巨头谷歌（Google）特地提出了一个名叫 BLEURT 量化指标。通常情况下，我们可以通过人工和自动化流程来评估 NLG 模型，比如双语评估学习（BLEU）。前者的缺点是太费人力，后者的优势是具有更高的准确性。

（来自：MIT Tech Review）

　　谷歌研究人员称，BLEURT 是一种针对自然语言模型（NLG）的全新自动化评估指标，可为不同模型打出可靠的评分，结果接近、甚至超越了人类指标。

　　据悉，BLEURT 的核心为机器学习。对于任何 ML 模型，最重要的就是训练用的数据有多丰富。然而对于 NLG 模型来说，其训练数据是相当有限的。

　　实际上，在 WMT Metrics Task 数据集中（目前人类汇聚的最大集合），也仅收集了涵盖新闻领域的大约 26 万数据。

　　若将之用作唯一的训练数据集，那 WMT 度量任务数据集将失去训练模型的通用性和鲁棒性。为攻克这一问题，研究人员采取了转移学习的方法。

　　首先，研究团队使用了 BERT 的上下文词，且其已顺利聚合到 Yis 和 BERTscore 等 NLG 量化工具中。

　　接着，研究人员介绍了一种新颖的预训练方案，以提升 BLEURT 的鲁棒性和准确度，同时有助于应对模型的质量偏移。

　　在微调人工量化标准前，BLEURT 借助了数以百万计的合成句子，对 NLG 模型展开了“预热”训练。其通过来自维基百科的句子、加上随机扰动来生成训练数据。

　　研究团队未手机人工评分，而是使用了相关文献（含 BLEU）中的指标与模型集合，能够以极低的代价来扩大训练示例的数量，然后对 BLEURT 进行了两次预训练。

　　其一阶段目标是语言建模，二阶段目标则是评估 NLG 模型，此后团队在 WMT 指标数据集上对模型进行了微调。一旦受过训练，BLEURT 就会试着与竞争方案对抗，以证明其由于当前的指标。

　　据悉，BLUERT 在 Python 3 上运行，且依赖于 TensorFlow，详情可参阅 GitHub 项目介绍页（传送门）。有关这项研究的详情，可翻看 ArXiv 上的预印本。

　　最后，研究人员还总结了其它结果，比如 BLEURT 试图“捕获表面重叠以外的 NLG 质量”，该指标在两项学术基准评估中获得了 SOTA 的评价。

谷歌提出可量化评估NLG模型性能的BLEURT指标

微软Xbox Series X购买页面正式上线

斥资35亿元！传大众将收购江淮50%股权

最新文章

AMD新一代GPU蓄势待发竞争力飙升压力给到英伟达

净水器经销商（国产净水器十大名牌）

空客是哪个国家的公司(美国停止向c919提供发动机)

辣根是什么（辣根与芥末的区别）

中国洛阳（洛阳靠什么成为十三朝古都的？）

容祖儿新恋情（容祖儿和谁在一起过）

n是什么意思(N代表爱情含义)

电脑怎么设密码（电脑如何设置开机密码的图文教程）

美丽的诗句(中国最美的十大名诗)

三次元是什么意思（二次元、二点五次元、三次元、四次元是什么？）

标签

热评文章

网上电信流量卡不是本地卡_网上电信流量卡不是本地卡可以用吗(不是本地的手机卡流量卡吗)

网上电信卡流量卡怎么注销_网上购买的电信流量卡在哪儿注销(电信流量卡你们都是怎么注销实名的)

网上电信卡流量怎么查询_网上电信卡流量怎么查询到(电信卡怎么查流量)

网上申请纯流量卡_在网上申请流量卡(在网上申请流量卡要注意什么)

网上电信大流量卡靠谱吗_网上购买的电信流量卡安全吗(某宝上卖的电信流量卡靠谱么)

谷歌提出可量化评估NLG模型性能的BLEURT指标

微软Xbox Series X购买页面正式上线

斥资35亿元！传大众将收购江淮50%股权

最新文章

AMD新一代GPU蓄势待发 竞争力飙升 压力给到英伟达

标签

热评文章

网上电信流量卡不是本地卡_网上电信流量卡不是本地卡可以用吗(不是本地的手机卡流量卡吗)

网上电信卡流量卡怎么注销_网上购买的电信流量卡在哪儿注销(电信流量卡你们都是怎么注销实名的)

网上电信卡流量怎么查询_网上电信卡流量怎么查询到(电信卡怎么查流量)

网上申请纯流量卡_在网上申请流量卡(在网上申请流量卡要注意什么)

网上电信大流量卡靠谱吗_网上购买的电信流量卡安全吗(某宝上卖的电信流量卡靠谱么)

关注我们的公众号

AMD新一代GPU蓄势待发竞争力飙升压力给到英伟达