请在Chrome、Firefox等现代浏览器浏览本站。另外提供付费解决DEDE主题修改定制等技术服务,如果需要请 点击 加我 QQ 说你的需求。XML地图

自然语言处理带你深入了解《复联3》的超级英雄们

NLP 采集侠 评论

关于剧情,观众们的感受千人千面,但数据从来都是最诚实的见证者。所以让我们来重温一下《复联3》,只不过回顾

经过漫长的等待,漫威迷心心念念的《复联4》(《复仇者联盟4:终局之战》)终于来了,相信有不少人在工作日的凌晨守在大荧幕前,目睹了超级英雄们是如何再次拯救世界的。同时这场持续10年(甚至不止10年)的超级英雄故事也随着《复联4》的上映画上了句号。

关于剧情,观众们的感受千人千面,但数据从来都是最诚实的见证者。所以让我们来重温一下《复联3》,只不过回顾的不只是剧情,而是用自然语言处理(简称NLP)研究电影的脚本。

在本文中,我们会用NLP Python开源库spaCy来帮助我们处理和理解大量的文本,并分析电影脚本,以研究以下概念:

电影中排名前10位的动词,名词,副词和形容词。

由特定角色说出的动词和名词。

电影中排名前30位的实体。

每对人物台词之间的相似性,例如,雷神和灭霸台词之间的相似性。

除了这些,我们同时还会用代码解释spaCy是如何进行这些研究的。

对代码和技术词汇感兴趣的朋友可以关注本文,文中使用的词汇和术语大部分都是非技术性的,所以即使你没有NLP、AI、机器学习等专业技能,也能够理解本文想要表达的主要想法和概念。

终于等到你!《复联4》上映,上部剧情你还记得吗?

疯狂泰坦

处理数据

实验中使用的数据或文本语料库(在NLP中通常称为语料库)是电影脚本。但是,在使用数据之前,我们需要对数据进行清理。主要是删除一些描述动作的评论或场景,以及说出该行台词的角色名字(实际上,该名称用于了解谁说了什么,但不是用于分析的实际语料库的一部分)。此外,作为spaCy数据处理步骤的一部分,我们不用标记为停止字的术语,也就是常用的单词,如"I"、"you"、"an"等。而且,我们只使用引理,也就是每个单词的正则形式。例如,动词"talk"、"talking"和"talking"是同一个词素的形式,其引理是"talk"。

在spaCy中处理一段文本时,我们首先需要加载语言模型,然后在文本语料库上调用模型。结果是一个Doc对象,一个保存已处理文本的对象。

import spacy # load a medium-sized language model nlp = spacy.load("en_core_web_md") with open('cleaned-script.txt', 'r') as file:  text = file.read()   doc = nlp(text)

在spaCy中创建Doc对象

现在我们已经有了经过处理的语料库,接下来要开始我们的研究了。

十大动词、名词、副词和形容词

仅仅看动词就能知道电影的整体动作或情节吗?本文的第一个图表说明了这一点。

终于等到你!《复联4》上映,上部剧情你还记得吗?

TAG: 警察的好文章 陆谷孙好文章 写好文章有哪些好方法 关于钢厂安全的好文章 说话难听人很好文章 可以分享的好文章 在哪里才能看到好文章 谚语开头的好文章 政协好文章 各种好文章的结尾 好文章怎么赞美 对学生有启示的好文章 关于坚持的好文章 免疫荧光 发好文章 护理新三好文章 健身好文章 适合朗诵的好文章 过年一家团聚的好文章 好文章模板 记事好文章
喜欢 (0) or 分享 (0)
发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论