Skip to content

sg-first/text2story-paper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Text2Story论文精选

2018

通过博客圈分析欧洲移民叙事的转变

与其他社交媒体平台不同,博客不受任何权威机构的监管。这为博客作者提供了更丰富的内容空间。博客还充当议题设置和内容框架的平台,助长武器化叙事。博客是社会学家和政治学家通过跟踪不同政治观点的形成获取各种事件情境意识的良好数据来源。在这项研究中,我们通过分析博客来研究在欧洲移民危机期间博客圈对难民或移民的叙事转变。我们使用Blogtrackers工具分析了从2005年12月到2016年3月中旬发表的9000多篇博客文章。我们使用命名实体提取来识别不同的主题和主题,然后使用有针对性的情绪分析来研究博客圈中对移民叙事的转变。

通过分析电影脚本来衡量基于角色的故事相似性

本文的目的是测量电影分类中故事之间的相似性。用户很难通过电影类型预测电影的内容。因此,我们提出了基于故事的电影分类法以及自动构建电影分类法的方法。为了反映故事的特点,我们使用电影人物之间的接近性和电影类型两种特征。基于这些特征,我们通过对电影进行聚类来构建基于故事的分类法。我们期望所提出的分类法能够让用户通过理解哪些电影包含相似的故事,来想象和预测电影的内容。

匈牙利共产主义时代政治报告的文本网络分析和可视化

本文过滤和可视化匈牙利共产党时代政治报告中嵌入的权威网络。由于档案材料、报告和访谈记录齐全,当局网络的结构和发展是可以重建的。研究的重点是权力网络中潜在的非正式关系。分析的语料库主要来源于党委会议记录的大量文本数据。这些文件的数字化质量是在完全可读性和完全不可用性的大范围内进行的;因此,处理这些文档是一个巨大的挑战。本文介绍了文本网络分析过程的基础、工具和方法;此外,还提供了可视化技术的逐步论证。最后,在初步分析的基础上,展示了文本分析的绝佳机会。此外,本研究旨在未来情绪和话题分析的应用,以支持或否定先前的研究结果。

2019

NOVEL2GRAPH:通过机器学习创建的叙事文本的可视化摘要

本文提出了一种机器学习方法来创建叙事文本的可视化摘要。我们使用命名实体识别的标准自然语言处理工具与聚类算法一起用于检测小说的角色及其别名。在简单统计分析的基础上,对最相关的数据及其关系进行评估。这些角色可视为无向图的节点,其边描述与其他角色的关系。基于句子嵌入的专门情感分析技术决定了角色/节点及其关系/边的颜色。关于角色(如性别)及其关系(如兄弟姐妹或伙伴关系)的附加信息由二分类器返回,并在图中直观地描述。对于那些专门的任务,少量手动注释的数据足以实现良好的准确性。与类似的工具相比,我们提出的机器学习方法允许对此类文本进行更丰富的表示。

从侦探小说中提取证据摘要

本文探讨了为侦探小说中的所有人物提取证据摘要的问题。在这一领域,没有标准的注释文本为证据提供ground truth,也没有固定的评估标准。为了提取摘要,我们探索了无监督的学习方法。我们首先假设所有角色都同样可能是罪犯,并针对每个角色建立证据。根据这些证据,我们评估每个角色是罪魁祸首的可能性,最终找到真正的罪魁祸首。我们的贡献是为确定罪犯的角色制定证据摘要。我们的实验基于过去一百年的侦探小说语料库。我们在人类读者的帮助下对这些摘要进行评估以供理解,并将小说大致分为三类。

基于社会科学视角的激进主义叙事文本分析

网络可以作为激进主义媒介。因此,开发能够检测激进化内容的信息系统是社会在防止和尽量减少激进化方面面临的关键挑战之一。幸运的是,社会学家已经做了大量工作来理解激进主义过程中的关键因素和常见的叙事。本文介绍了以一种有助于设计和开发信息系统的方式重用社会科学的工作。我们目前的工作总结了关于叙事概念的各种观点,以及它们如何应用于激进主义领域。我们将伊斯兰激进主义作为激进主义的一个重要例子,介绍了三种分类法,以帮助捕获激进化叙事的不同方面,并提出了一个系统,用于识别文本中潜在的伊斯兰激进化的战略激进化叙事。

叙事戏剧单元的自动识别:一种结构化学习方法

戏剧是通过人物的真实动作讲述的故事;戏剧写作的特点是以识别、解释和关联故事不同元素为中心。戏剧本体论被提出用以表示戏剧文本的核心要素,即由单个文本单元引发的动作、主体、场景和冲突。无论是在粗粒度文本还是细粒度文本层面,自动识别戏剧中的这些元素是识别其演变的第一步。在本文中,我们讨论了分割问题,即将戏剧分割成有意义的单元序列。我们研究编辑(editorial)以及基于内容的文本属性的作用,而不依赖于深层的本体论关系。我们提出了一个生成归纳机器学习框架,将隐马尔可夫模型和支持向量机相结合,并讨论了事件信息(因此涉及agent和动作)在词汇和语法层面的作用。

在大量文本内容中识别故事情节

在这篇论文中,我们提出了一种方法和愿景,我们称之为Semantic Storytelling。其想法是开发一个系统,该系统能够(半)自动提取或生成不同的故事路径或情节线,以支持知识工作者(记者、作家、学者、政治家、业务分析师等)在日常工作中处理大量传入的内容。我们概述了所需的几个组件,这些组件可以概括为预处理、语义分析和内容充实化,以及生成故事情节。我们的想法是考虑不同文本类型的特殊性,我们相信,这将有助于我们根据各自文本类型的需求和特点产生更好的结果。我们给出了一个可以应用Semantic Storytelling的简单例子,并试图指出仍然需要充分解决的主要概念、科学和技术差距,以实现我们对Semantic Storytelling系统的愿景。

在线患者社区中的叙事检测

尽管患者论坛上的叙事是医疗信息的宝贵来源,但其系统检测和分析目前十分缺乏。在这项研究中,我们检验了心理语言学特征或文档嵌入是否有助于识别叙事。我们还调查了患者社区中的叙事与其他社交媒体帖子的区别。这项研究在患者论坛上自动确定叙事中讨论的主题。我们的研究结果表明,在对叙事进行分类时,字符3-gram优于心理语言特征和文档嵌入。我们发现叙事的特点是使用过去时态、健康相关词和第一人称代词,而非叙事文本则与将来时态、情感支持词和第二人称代词相关。对患者叙事的主题分析揭示了14个不同的医学主题,从肿瘤手术到副作用。未来的工作将使用这些方法从社交媒体中提取经验患者知识。

2020

催泪瓦斯、水炮和推特:2013年土耳其抗议镇压事件的案例研究

自2011年阿拉伯之春以来,抗议活动因不同原因在世界各地蔓延,这些抗议活动往往面临暴力镇压。研究抗议镇压需要适当的数据集。GDELT等现有数据集主要关注新闻媒体报道的事件。然而,新闻媒体的报道存在审查和报道偏见等问题。最近,社会科学家已经开始使用机器学习来检测政治事件,但是手工标注数据来训练模型既昂贵又耗时。本文使用机器学习和众包技术来检测来自Twitter的抗议镇压事件。我们的案例研究是2013年土耳其格齐公园抗议活动。我们的研究结果表明,Twitter是一个可靠的信息来源,它能及时反映真实发生的事件。此外,在众包标记数据上训练传统的机器学习模型得到了很好的结果,检测抗议事件的AUC得分为0.896,检测镇压事件的AUC得分为0.8189。

电视剧中的场景链接注释和自动场景表征

在多媒体文档或场景之间创建链接有助于组织归档。对于电视剧来说,这种组织可以通过场景链接提取叙事结构来实现。叙事特征,如说话的角色、提及的实体和主题,可用于描述场景。因为电视剧中的故事以不同的粒度进行,场景的链接可以是一集内的场景之间、也可以是不同集或不同季节的场景之间。在这项工作中,我们使用预定义的故事和子故事,注释了电视连续剧《权力的游戏》前两季场景之间的联系。我们还自动提取了每个场景的叙事特征。该数据集由444个场景组成,涉及154个讲英语的角色,共46个故事,分为151个子故事和5个子故事。

通过分析文本叙述中的动态交互网络来衡量叙事的流畅性

本研究旨在评估文本多媒体(如新闻文章、学术出版物、小说等)中叙述的流畅性。我们根据叙事中实体(即构成叙事的事件的主体和客体)之间的关系是否以足够快的速度趋于一致,来描述来衡量叙事流畅性。这些关系由动态交互网络(称为“实体网络”)表示,该网络将实体作为节点,实体之间的共现作为边。缺乏一致性会让用户对文本叙述想要呈现的内容感到困惑。如果一个叙述始终集中在一个主题或主题上,那么它的实体网络将很少有具有高节点中心性的实体。基于高中心性实体的一致性这一特征,我们用三个标准来评估流畅性:(i)每个段落的一致性,(ii)整体叙述的一致性,(iii)标题和正文的一致性。叙事发展的速度必须适合文本叙事的预期读者。太低的速度会导致冗余,而高速度会阻碍叙事的可理解性。我们假设实体网络的结构变化反映了叙事的快速性。结构变化通过嵌入实体网络的结构来衡量。最后,我们使用《纽约时报》社论和人类评估者评估了所提出方法的有效性。

用于叙事文本理解的动态词嵌入和transformer模型

我们提出了两种深入学习的方法来理解人物关系模型的叙事文本。这些关系的时间演变是通过动态单词嵌入来描述的,其目的是了解语义随时间的变化。对相应角色轨迹的实证分析表明,这些方法在描述动态演化方面是有效的。基于最先进的transformer模型BERT的监督学习方法被用来检测角色之间的静态关系。验证表明,即使使用自动标注的数据,也可以很好地准确地发现此类事件(例如,属于同一家族的两个角色)。这在识别关键事实的基础上加深了对叙事情节的理解。标准聚类技术最终用于角色消除混叠(de-aliasing),这是两种方法所必需的预处理步骤。总的来说,深度学习模式似乎适合于叙事文本理解,同时也为一般自然语言理解提供了一个具有挑战性和未开发的benchmark。

2021

博客故事:叙事的计算提取和可视化

社交媒体平台旨在成为人们与志同道合的人交流意见和促进民主的渠道。然而,它们已经成为越轨者破坏这一点的工具。由于匿名性和较低的个人风险,越轨组织在这些平台上协调传播假新闻、错误信息和虚假信息。博客等不受监管、为内容生成提供更丰富空间的社交媒体平台被战略性地用于议题设置、内容框架和武器化叙事,以煽动激进分子暴动。迫切需要工具尽早识别这些激进叙事。在本文中,我们演示了一个叙事可视化工具,它为分析人员提供了识别突出主题和相关叙事的能力。该工具基于已发布的框架从博客中提取叙述,并可通过Blogtrackers应用程序供公众使用。

针对故事的缺失位置预测

故事完成(SC)是一种生成不完整故事中缺失部分的方法。尽管这种方法在提供创造性支持方面很有用,但其适用性有限。这种限制是由于用户对故事缺失部分的先验知识要求。为了克服这一限制,我们提出了一种称为“缺失位置预测”的新方法。预测一个不完整的故事中缺失部分的位置。

COVID19假消息的叙事趋势

COVID-19大流行已经引起了许多有害的网络叙事的兴起。这些叙事已经渗透到现实世界,并带来了不可预测的健康风险。因此,我们利用了现有的技术并开发了一些工具来加深我们对网络谣言及其动态演化的理解。这为政策制定者提供了更多的工具来分析那些原本无法分析的大数据集。

一个不同的故事:保守派叙事如何在Twitter和Parler之间分歧

在新冠大流行、总统选举和国会暴动中,Parler成为一些Twitter用户选择的新社交媒体平台(这些用户受到了政治上的谴责)。用户在Parler这种不受限制的平台上的行为与在温和的平台(如Twitter)上行为的区别尚待探索。本文聚焦于一组精选的美国公共政治人物,他们同时使用Twitter和Parler。我们比较这一群体在两个平台上的行为,以观察政治保守主义叙事的分歧。利用媒体偏见/事实核查的分数,我们发现Parler上的这些用户的媒体偏见水平高于Twitter上的相同用户,个人层面上有明显的例外。通过引用网络,我们还发现,Parler上有影响力的新闻来源在政治上更具多样性。最后,我们观察到Twitter上的话题在Parler上出现了分歧。我们的发现提供了对新社交媒体平台Parler的早期洞察。

针对故事中角色讲述的故事:一种解释模型

故事中角色讲述的故事称为嵌入式故事。它们经常出现在叙事中,对叙事解释模式构成了重大挑战。解释一个故事的计算过程需要考虑这些嵌入式故事如何表示,以及如何在作为故事框架的故事上下文中处理它们。本文提出了一个简化的计算模型,能够表示嵌入式故事的语篇,并将其解释为一种能够捕获其递归结构的表示。然后,通过来自不同领域的故事实例对该模型进行测试,并得出嵌入式故事在叙事解释方面意味着什么的一些结论。

种姓相关新闻故事的社交媒体叙事建模

种姓作为一种社会分层制度,在印度次大陆创造了一种结构化的压迫文化。社交媒体的兴起为声音的民主化铺平了道路,但也为隐秘或公开的种姓者提供了一个平台,让他们在继续歧视、传播仇恨和维持种姓主义。我们工作的总体目标是模拟与特定种姓新闻故事相关的社交媒体叙事。为此,我们首先汇总用户生成的关于各种种姓相关新闻故事的社交媒体内容(如评论)。接下来,我们分析这些聚合内容,以提取不同的价值判断,代表与这些新闻故事相关的不同观点。最后,我们正在进行的研究将提供自动推断每个用户生成内容的价值判断的方法,跟踪与特定新闻故事相关的不同叙述,并利用推断的价值判断生成的反叙事处理种姓社会媒体帖子。