阿里研发AI技术0.15秒识别拦截外语脏话图覆盖近30个语种

一年多前，阿里巴巴国际安全内容风控小二小荷（化名）在用户交互场景发现了特殊的为规避平台审查的“脏话”案例。

她的工作是借助技术和规则识别与清扫影响清朗环境的违规内容，刚开始，一些小广告和口吐芬芳的脏话只是以文字形式呈现，后来随着对抗升级，一些脏话嵌入到图片中，甚至会使用多国语言进行伪装。

为解决这个问题，阿里安全进行了多语种识别技术升级。近日，阿里安全算法团队宣布，其研发用于网络脏话的AI（OCR）技术，已能识别近30种语言，包括嵌入图片中的英文、阿拉伯、俄语、法语、西语、日语、韩语、泰语、越南语、波斯语、孟加拉、尼泊尔、僧伽罗、朝鲜、苏丹、德语、荷兰语，以及马来语、塔加洛语、土耳其语、意大利语、印尼语等国语言，甚至还包括三种中国少数民族语言。

在部分国际平台中，“买家”在商品评论中以英语评论图骂人，或者在交互场景中，买卖双方以俄语脏话图片对阵。国际平台风控团队和算法团队复盘了很多案例，发现除了多语种脏话，多语种垃圾广告以及不良信息也会暗藏在图片中，试图对抗风控。

全球有几百种语言，重点的语言也有几十种，一个工作人员最多认识三四种语言，在国际化场景下，靠人工识别风险图片是不现实的，多语言识别的技术需求应运而生。

图（左）为俄语脏话示意图图（右）为暗藏英语脏话的骂人图

阿里安全高级算法工程师沄帆介绍，要识别多语种文字，就要了解各个语言文字特点，以及影响算法识别的问题。每种文字体系都有自己的字体，不同字体会导致同一字符出现字形上的差异，例如下左图展示了汉字“字”在不同字体时的形态，以及手写文字中的字符变化。下右图则展示了俄语字母在手写体和印刷体时的差异，红框标出了部分字符会出现字形上的巨大变化。

不同字体会导致同一字符出现字形上的差异（图片来源：网络）

“字符连接导致字形变化，不同文字体系，书写及阅读顺序是不同的，这些都会影响AI识别和对语义的判断。”沄帆说。例如，相同的单词在不同的语种里也可能有不同的含义，“jammer”在荷兰语里是“遗憾”的意思，但是在英语中是“信号屏蔽器”，可能涉及违规。

“以前没有多语种识别功能的时候，我们如果把这个口语词直接拦截，可能会造成‘误杀’，脏话图识别也是如此，要依据语种来判断。”小荷说。

除此之外，还有脏话图以置换正常字符顺序，对抗风控的情况出现，如下图所示，即使调换字符顺序，人还是可以轻而易举地判断单词的含义，但这种“攻击”试图以打乱字母顺序的方式骗过机器识别。

对抗的脏话图

当然，要训练如此多语种的识别模型，并解决多种对抗情况并不容易。技术团队既要保证好的识别效果，又要尽可能提高计算效率及控制成本，解决好训练样本及模型方案的问题。

通过一年多努力研究，阿里安全算法团队对这些点进行了逐个突破，通过改进多语言样本生成方案与多语种识别模型框架，在多种图片语言的识别上做到了高识别率，以及做到识别1张脏话图只需0.15秒的速度，目前该技术也已应用在阿里多项国际业务中，总体识别准确率可达95%以上，并对各种艺术字体、复杂背景以及手写图进行了针对性识别优化。

其实，脏话拦截只是多语种OCR识别技术应用的场景之一，阿里安全国际风控小二文萱介绍，在交互场景里，违规信息中还有大部分属于垃圾信息。

现在，基于阿里安全的算法能力，每天仅单个国际平台就为全球用户拦截几万次包含危险、辱骂、垃圾文本的多语言脏话图片。阿里安全图灵实验室算法负责人薛晖表示：“期待以科技创新解决实际业务问题，帮助造就更好的网络环境和网络安全。”

阿里研发AI技术0.15秒识别拦截外语脏话图覆盖近30个语种

媲美原装！曝iPhone 13包装贴纸已被破解：华强北出品

恒大汽车终止A股上市

最新文章

通讯地址是指什么（通讯地址指的是什么？教你怎么填写）

比重公式(计算相对密度的公式)

is的过去式是什么（什么第三人称单数形式）

护理老人的保姆（家政护理照顾老人）

许文强简介（上海滩的许文强原型是谁）

怎样查询网上在逃人员（怎么查网上通缉人员）

动车在哪里坐(动车站怎么坐车)

投影仪的流明值是多少？越高越好吗

「达人分享」卡西欧手表带怎么拆卸图解

红尾鲶鱼养殖环境介绍

标签

热评文章

网上流量卡靠什么赚钱_网上流量卡有风险吗(网上的流量卡靠谱吗)

网上激活流量卡_网上激活流量卡怎么激活(网上买的流量卡怎么激活)

网上热卖的流量卡可靠吗_网上热卖的流量卡可靠吗安全吗(网上的流量卡可靠吗)

网上物联网流量卡_网上物联流量卡能放心使用吗(物联网流量卡靠谱吗)

网上特别便宜的流量卡套路_网上特别便宜的流量卡套路有哪些(流量卡的套路有哪些)

阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种

媲美原装！曝iPhone 13包装贴纸已被破解：华强北出品

恒大汽车终止A股上市

最新文章

通讯地址是指什么（通讯地址指的是什么？教你怎么填写）

标签

热评文章

网上流量卡靠什么赚钱_网上流量卡有风险吗(网上的流量卡靠谱吗)

网上激活流量卡_网上激活流量卡怎么激活(网上买的流量卡怎么激活)

网上热卖的流量卡可靠吗_网上热卖的流量卡可靠吗安全吗(网上的流量卡可靠吗)

网上物联网流量卡_网上物联流量卡能放心使用吗(物联网流量卡靠谱吗)

网上特别便宜的流量卡套路_网上特别便宜的流量卡套路有哪些(流量卡的套路有哪些)

关注我们的公众号

阿里研发AI技术0.15秒识别拦截外语脏话图覆盖近30个语种