办事指南

O分数,我的分数!机器在文学分析方面越来越好应该庆祝识别作者和角色的声音的算法,而不是嘲笑2018年3月8日

点击量:   时间:2019-01-04 14:19:05

<p>在“死亡诗人社会”(1989)中,约翰基廷,一位20世纪50年代美国寄宿学校的老师,由罗宾威廉姆斯饰演,绘制了一张图表,其形状由一篇名为“理解诗歌”的虚构文章决定</p><p>横轴测​​量诗歌的技巧质量,垂直轴显示其重要性,两者的结合决定了它的伟大在允许他的学生为拜伦勋爵和威廉莎士比亚绘制这样的图表之后,基廷先生宣称文章“粪便”,并命令他们撕掉它他们的诗歌选集“这是一场战争,一场战争,伤亡可能是你的心灵和灵魂”,他发出隆隆声“有一群学者前进测量诗歌”,很少考虑激情,美丽或浪漫无疑无疑的基廷先生上个月在“文化分析杂志”上发表的一篇论文作者特德·安德伍德和萨布丽娜·李(Sabrina Lee)发表的一篇文章,本来会对“英语小说中的性别转型”感到沮丧</p><p>伊利诺伊大学和加州大学伯克利分校的David Bamman在1700年至2010年之间的104,000件小说作品中培养了一系列机器学习模型</p><p>该数据库由学术界从HathiTrust Digital编写而成图书馆和芝加哥小说语料库是巨大的但并非详尽无遗它包含了几乎所有的经典小说,但只有大约一半的书出现在美国商业杂志“出版商周刊”中</p><p>尽管如此,作者认为这是一个合理的代表性</p><p>小说的整体市场,因为女性作者的历史份额与“出版商周刊”中的相似,他们对数据进行过培训的算法使他们能够探索一系列性别问题(见图表)升级您的收件箱并获取我们的每日调度和编辑推荐一个模型确定了作者的性别,并发现女性写的书籍份额从一开始就下降了一半左右</p><p> 19世纪到20世纪60年代不到四分之一,然后今天反弹到大约40%第二个模型通过他们的名字和代词识别角色的性别,准确率超过90%,并显示出类似的趋势:分享给予虚构女性的叙述减少超过150年,然后略微恢复第三种模式试图仅根据描述,行动和对话中使用的语言来确定角色的性别这种预测在1800年的时间是正确的,但只有65% 2000年有百分之一的时间,暗示着虚构的女性和男性表现得不那么刻板印象,基廷先生会称之为这样的研究方式</p><p>他教导说,阅读的目的是要“感受细语和语言”:医学,法律商业和工程是让我们活着的崇高追求,但是文学激起了让生活变得有价值的情感然而在2014年大西洋的一篇3500字的文章中,Kevin Dettmar,英语教授在波莫纳学院,批评了这部电影的反智主义他认为,仅仅因为其感情价值来捍卫文学,就会鼓励人们认为“人文是容易的,软的选择;人文科学不培养思想家“两者都是部分正确的伟大的文学可以以一种其他学术科目很少的方式移动读者</p><p>当批判性地阅读时,它也可以激发推理,同理心和辩论神经学家一直在努力证明阅读小说实际上改善了这些功能,但他们已经证明,查询文本会激活大脑的相关部分对于那些认为批判性地研究文学是值得的人来说,从大数据和机器学习中可以收集的教训是有价值的</p><p>作者的性别应该是文学学者要回答的最基本的问题之一:小说是否或多或少地受到男人的支配</p><p>在数字人文学科(一个将计算机科学应用于艺术)的领域出现之前,回应只能是主观的或基于小样本“性别转型”提供了一个客观的答案,会让很多人感到惊讶,应该引发更多的研究</p><p>例如,20世纪60年代女性作者的反弹可能有很多原因李女士指出,它跟随平装小说的兴起,恰逢浪漫印记的扩散阅读器也会被图表显示用于描绘男性和女人变了 “心脏”,“心灵”和“精神”曾经是强烈的女性化,但现在已经变得中性,而“房子”已经从有地的男性所有者转变为国内女性居住者但是Bamman先生认为这种研究最有希望的产品是基本的一:机器识别文学人物的能力英国小说家EM福斯特将故事中的人描述为“单词群众”,仅仅是描述,行动和对话</p><p>现在算法可以摄取文本,使用上下文识别每个单词的主题,并将它们分成这些质量确实,本文中使用的技术之一被称为“词袋模型”Underwood先生指出算法远非完美尽管它们可以用于检查个别书籍(见图表),他们也会犯错误,特别是当第一人称叙述者构成故事时,更广泛的样本,然而,他们可以更自信地部署</p><p> Bamman在2013年能够识别42,000个维基百科电影摘要中的人物刻板印象,其中蝙蝠侠与Jason Bourne聚集在一起,而Joker与Dracula A在2014年的后续行动中确认了关于Charles Dickens和Jane Austen小说中人物之间相似性的各种文学理论,其他作家后一项研究也能够将作者的声音 - 也就是说,使每个作家独一无二的特质 - 与那些有自己怪癖的角色分开,Bamman先生解释说识别个人也可以帮助算法</p><p>了解情节,因为人员的突然变化通常表明场景的变化隔离这些正式的写作要素并将其与大量工作进行比较的能力也被其他学者所利用最新版的“新牛津莎士比亚”根据对他同时代人的分析,“已经声称这部吟诗人的44部剧中有17部是合作制作的使用“功能词”,如“和”或“与”这样的作者属性自20世纪50年代以来被使用,当时两位统计学家(历史上没有背景)证明了12篇论文来自“联邦党人论文”,亚历山大·汉密尔顿都声称和詹姆斯麦迪逊一样,更像是麦迪逊的风格</p><p>看看那些功能词(比如“while”与“while”,或“between”与“between”之间)比检查论文中的想法更明确但是计算机和数字语料库今天要快得多:本·布拉特在“纳博科夫最喜欢的词是淡紫色”中采用了这些技巧进行了许多聪明的实验,他的2​​017年人工智能的书还远远没有能够连贯地写出新的论点,正如我们最近发现的那样</p><p>试图为我们的科学和技术部门自动化一篇文章当涉及到隐喻和典故时,人类将始终相信他们占了上风但是这将是愚蠢的机器学习可以为那些寻求文学问题的经验答案的人提供帮助这些技巧可以丰富读者对他们喜爱的书籍的理解,而不会平息他们的热情借用基廷先生的另一行,因为他鼓励他的学生站在他们的办公桌: