请在Chrome、Firefox等现代浏览器浏览本站。另外提供付费解决DEDE主题修改定制等技术服务,如果需要请 点击 加我 QQ 说你的需求。XML地图

Facebook如何提高内容理解系统的准确性和效率

NLP 采集侠 评论

对于希望系统可以增加理解语言数量的研究人员来说,这样的跨语言技术提供了一种更具可扩展性的替代方案,可以

去年陷入“数据丑闻”后的 Facebook 日子并不好过,在这之后他们对外界强调的关键词大部分都是“隐私”和“安全”。即便如此,在刚刚过去的 Facebook F8 大会上,扎克伯格忍不住自嘲,由于在数据隐私方面的问题,很多人依然不信任 Facebook。

不过,不止 Facebook 一家公司,如何使用现有的 AI 等技术最大限度保护用户不受伤害是每个公司都要不断探索的问题。而对于经历过一年大风浪的世界级企业, Facebook 为重视数据隐私和平台安全的努力也有目共睹。

Facebook CTO Mike Schroepfer 和 Facebook AI 部门的研究科学家 Manohar Paluri 在近日的 F8 大会上发表了主题演讲,他们主要谈到了如何使用 AI 技术来保护平台用户安全地使用产品,需要做到两点:1、理解内容;2、Facebook 如何使用自监督学习方法来提高内容识别的准确性,同时减少翻译、NLP、图像识别等应用中对标记数据的要求。

Yann LeCun 对此评论称,这有助于改进对具有暴力画面、仇恨的言论、干扰选举、错误信息、僵尸账户等违规内容的过滤。

抛开对 Facebook 依然怀疑的目光,我们或许更应该去看看它在技术上到底做了哪些努力,他们的 AI 等技术实践也可能对其他公司在保护用户数据和使用体验方面有重要的技术指导意义。

具体技术细节,都在以下演讲全文里:

AI 在 Facebook 的各种应用中无处不在,其中最重要的一项工作是帮助我们平台上的用户安全使用。

为了使所有这些系统更加有效,我们需要在两个方面继续改进 AI 技术:理解内容以及使用少量的标记训练数据高效工作。

我们最近在 NLP和 CV 方面取得的进展表明,内容理解方面的工作如何产生效益。在 NLP 领域,我们开发了一个共享的多语言嵌入空间,可以作为一种通用语言来对有害内容进行处理,即使在资源匮乏的语言中也是如此。在 CV 领域,基于行业领先的研究基础,我们可以识别图像中更多部分的内容,并使用标签为视频理解实现创纪录的准确性。

随着我们理解内容的能力在不同模式下不断提升,我们在自监督技术的新前沿也取得了进展。这种技术将通过预训练系统加速学习,可以成为下一代更快、更灵活工具的基础技术。

我们将在此重点介绍 Facebook 如何提高内容理解系统的准确性和效率,并找到通过较少监督学习方法来完成更多工作的新方法。

一、使用多语言句子嵌入来处理违规内容

为了检测人们何时发布了违规内容,我们的系统需要理解语言。具体来说,我们的系统使用机器学习来扫描给定的句子并回答一系列问题,例如“它是否有害的(hateful)?”使用这些问题的答案,以及互动的语境和其他信号,我们可以确定系统是否采取行动,例如标记给人工审核员。

为了让 ML 系统来回答这些问题,我们则需要用给定语言的数千个例子来进行训练。世界上大约有 6500 种语言,这包括目前缺乏大量培训数据集的语言,找到足够的例子来开发支持所有语言的内容理解系统是巨大的挑战。

Facebook如何提高内容理解系统的准确性和效率

通过在共享嵌入空间中以多种语言映射相似的句子,我们可以更好地理解相关内容而无需翻译每个句子。

为了帮助解决训练数据的稀缺性,我们正利用我们最近开源的工具包 LASER(Language-Agnostic SEntence Representations),该工具包通过训练单个模型来理解大量语言。以前我们需要为每种语言准备不同的模型,LASER 的表示空间允许我们训练一种语言模型,然后将该模型应用于一系列语言,而无需特定语言的训练数据,也无需进行翻译,这被称为“零样本迁移学习(zero-shot transfer learning)”。LASER 还允许我们通过在语言未知的表示空间内将这些句子相互映射,来识别出在意义上相似的句子。

LASER 开源地址:https://github.com/facebookresearch/LASER

对于希望系统可以增加理解语言数量的研究人员来说,这样的跨语言技术提供了一种更具可扩展性的替代方案,可以尝试收集和注释每种语言的数据。这种方法还允许我们挖掘用于机器翻译的并行训练数据,并且对于低数据资源语言(我们的训练示例较少)特别有用。识别跨语言的类似句子有助于同时捕获多种语言的类似违规行为。为了生成每个句子级别的嵌入,我们首先使用字节对编码表示给定句子的单词,然后使用一个五层双向 LSTM(长短期记忆)模型,然后是最大池化(max pooling)操作(因为句子包含任意字数)。

TAG: 警察的好文章 陆谷孙好文章 写好文章有哪些好方法 关于钢厂安全的好文章 说话难听人很好文章 可以分享的好文章 在哪里才能看到好文章 谚语开头的好文章 政协好文章 各种好文章的结尾 好文章怎么赞美 对学生有启示的好文章 关于坚持的好文章 免疫荧光 发好文章 护理新三好文章 健身好文章 适合朗诵的好文章 过年一家团聚的好文章 好文章模板 记事好文章
喜欢 (0) or 分享 (0)
发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论