请在Chrome、Firefox等现代浏览器浏览本站。另外提供付费解决DEDE主题修改定制等技术服务,如果需要请 点击 加我 QQ 说你的需求。XML地图

好文章摘抄加书名一篇四段_超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布

nlp书籍 采集侠 评论

还发布了已经处理好的大规模中文语料,可用于语言理解、预训练、文本生等任务,包含14G左右数据,含30亿中文字,

超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布

2019-10-26 14:49 来源:新智元.

原标题:超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布

好文章摘抄加书名一篇四段_超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布

【新智元导读】首个专为中文量身打造的ChineseGLUE来袭!目前拥有八个数据集的整体测评及其基线模型,20多位来自各个顶尖机构的自愿者加入并成为了创始会员。还发布了已经处理好的大规模中文语料,可用于语言理解、预训练、文本生等任务,包含14G左右数据,含30亿中文字,已在新智元小程序宣布首发!欢迎来新智元 AI 朋友圈与大咖一起讨论~

GLUE终于有中文版了!

如果要评选NLP领域基准TOP 3,GLUE必须拥有姓名。GLUE是一个自然语言任务集合,包含了以下任务:

好文章摘抄加书名一篇四段_超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布

但一直以来GLUE只针对英文,没有专门针对全世界使用人数最多的语言汉语的GLUE基准。

为什么会有ChineseGLUE?

和英文这种基于字母的语言不同,中文是象形文字,字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。显然当前的GLUE无法满足中文NLP。

展开全文

好文章摘抄加书名一篇四段_超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布

相对于英文的数据集,中文的公开可用的数据集还比较少。很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。

如今,预训练模型极大的促进了自然语言理解。不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。

是时候推出针对中文的GLUE基准了!

现在,由算法专家、AlBERT第一作者等20余位顶尖专业人才成立“开源协助组织”,共同推出了针对中文的GLUE基准:ChineseGLUE。

【中文任务基准测评ChineseGLUE】地址:

https://github.com/chineseGLUE/chineseGLUE

专为中文量身打造的ChineseGLUE,还发布了已经处理好的大规模中文语料,可用于语言理解、预训练、文本生等任务,包含14G左右数据,含30亿中文字,已在新智元小程序宣布首发!

地址:

:8003/index

针对中文的GLUE基准:ChineseGLUE诞生!

好文章摘抄加书名一篇四段_超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布

ChineseGLUE即中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。

新智元获悉,团队的“目标”是跑遍主流的中文数据集。解决当前中文任务公开可用数据集匮乏、没有基准测评、最先进的预训练模型不足等中文任务基础设施问题。

为更好的服务中文语言理解、任务和产业界,做为通用语音模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展。

该基准会选择一系列有一定代表性的任务对应的数据集,作为测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。中文任务的基准测试也会覆盖多个不同程度的语言任务。

除此之前,ChineseGLUE也包括了:

公开的排行榜

基线模型,包含开始的代码、预训练模型

语料库,用于语言建模、预训练或生成型任务

可用于语言建模、预训练或生成型任务等,数据量超过14G,主要部分来自于nlp_chinese_corpus项目。

当前语料库按照【预训练格式】处理,内含有多个文件夹;每个文件夹有许多不超过4M大小的小文件,文件格式符合预训练格式:每句话一行,文档间空行隔开。

包含如下子语料库(总共14G语料):

这些语料,可以通过这两个项目,清洗数据并做格式转换获得;也可以通过邮件申请(chineseGLUE#163.com)获得单个项目的语料,告知单位或学校、姓名、语料用途;如需获得ChineseGLUE项目下的所有语料,需成为ChineseGLUE组织成员,并完成一个(小)任务。

ChineseGLUE vs GLUE,区别仅仅在于语言不同吗?

我们知道,本土化意味着不仅仅只是将界面语言翻译成中文,其实还连带着思维转换、认知差异等更深层的改变,NLP基准也不例外。

新智元获悉,ChineseGLUE并不仅仅是名字里加了个Chinese,其实背后做了非常大的改动。

最大的不同,首先就是数据集。GLUE和ChineseGLUE的数据集完全不同,很多非常好的英文的数据集是没办法直接用的。

好文章摘抄加书名一篇四段_超30亿中文数据首发!首个专为中文NLP打造的GLUE基准发布

其次是开源问题。英文很多数据集、预训练模型都是开源的,而中文这方面非常稀缺,该项目发起者徐亮说这是目前ChineseGLUE面临最大的障碍了。

TAG: 名家好文章摘抄 怎样借鉴好文章 凤凰网好文章 微信里好文章公众号 微信订阅号好文章 小狗的好文章 高中语文好文章摘录800 于丹的好文章怎么形容 好文章美文100 形容好文章的优美诗句 避暑好文章 高考论文好文章 有什么希望教练为人正直的 微信好文章怎么存到电脑文 遇见你真好文章 意林好文章读后感 道家香火好文章 村庄的好文章 一篇好文章的读后感 推荐适合讲述的好文章
喜欢 (0) or 分享 (0)
发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论