一个令人费解的问题是,为什么人们相信并传播那些显然是捏造的“假”新闻文章。为什么不清楚什么是事实,什么不是?

“当某些事情不真实时,没有语言上的复选标记或真实性测试向我们闪现。”

事实证明,区别是相当困难的,因为事实并不是通过特殊的语言来传达的。当某些事情不真实时,我们不会看到语言上的对勾或对真实性的检验。事实之语与谬误之语来自相同的词典和语法。然而,可能存在文体和体裁上的差异——微妙的线索可以表明作者的意图以及他们对新闻语言的熟悉程度。

借鉴语言学中体裁和风格的观点,运用语料库和计算语言学的方法,的同事们我正在学习假新闻和错误信息的语言。我们发现,尽管假新闻和基于事实的新闻很容易混淆,但大规模的文本分析指出了有趣的差异。其中一些差异与现代新闻故事的非正式和对话风格有关,这可能是其真实性的线索。

新闻真实性

“大多数主流报纸意见部分的扩大也意味着读者在阅读报纸时,无论是在报纸上还是在网上,都会遇到与硬新闻混合的意见。”

新闻文章的体裁从深入调查性新闻报道到列表。主流新闻媒体中点击诱饵、幽默文章和吹捧文章的增加,使得严肃新闻和试图报道新闻变得更加难以区分虚假信息和错误的信息.大多数主流报纸意见版块的扩大也意味着,读者在阅读报纸时,无论是在纸面上还是在网上,都会遇到意见和硬消息混杂在一起的情况。这是信息化过程的一部分,即新闻话语向会话式风格的转变,以及在新闻报道中包含大量评价的过程。1.牛津大学出版社,2017更多信息→会话性和口语性话语的一个最重要的特点是它更复杂,2.剑桥大学出版社,1988年更多信息→也就是说,它更突出了作者的观点和观点。

在这种背景下,读者很难从报道者的角度区分报道的事实和事件也就不足为奇了。这是新闻写作向更加复杂和非正式风格转变的自然结果。自然,在这种转变中有许多梯度。传统的“高质量”的大报在这种非正式风格上的投入远远少于小报、地方新闻媒体和一些在线出版物。

误传的语言

考虑下面的例子,一篇新闻文章的开头被Snopes贴上假标签和一部分数据集我们收集了。语言本身没有任何东西表明这不是基于事实的。Snopes利用外部信息来确定这篇文章是假的,包括文章来源的网站和文章附带的照片,这张照片是在另一篇关于一名男子被鳄鱼攻击而失去一只手臂的新闻文章中发现的。

昨天在印度洋,一名环境活动家差点被打死,因为他试图拥抱的大白鲨突然袭击了他并咬掉了他的手臂。
来自俄勒冈州尤金的21岁的达雷尔·沃特福德(Darrell Waterford)正在参加绿色和平组织(Greenpeace)的宣传视频,该组织距离澳大利亚城市珀斯约100海里。

lede遵循典型的新闻故事结构,用描述符识别主角(一个环保主义者),然后是文章第一段中的姓名和更多细节。该语言的其余部分与更正式的报纸语言一致。它包括姓名、年龄和出生地等详细描述。同时,它还包括非正式语言(大约100海里),这在人们感兴趣的故事中很常见。

在假新闻谱系的另一端,我们发现一些文章在第一次阅读时看起来更可疑。考虑下一个例子:

[标题:]洛蕾塔·林奇:“必须立即清除所有邦联旗帜纹身”
总的来说,历史上充满了各种各样的人工制品,它们既可以代表人类的好迹象,也可以代表人类的坏迹象。美国国旗是善的象征,因为它表明了殖民地的联合和美利坚合众国的开始。然而,也有艰难时期的象征,比如纳粹旗帜。无论他们站在哪一边,他们都代表着某种历史意义。

标题中的大写字母是不寻常的,这是非常一般的第一句话。这里的结构是:论文(文物可以是好的或坏的),证据(好:美国国旗;坏:纳粹国旗),然后是结论。这是一种常见的辩论风格,具有辩论的特点。然而,这在新闻文章中并不常见,尽管它可能出现在观点文章中。而且然而在句首不加逗号,表示作者不完全熟悉标准文体约定,也表示文章没有经过编辑的审核。

虽然第二个例子中的缺陷是微妙的,但它们应该能告诉任何精明的读者,他们是主流新闻媒体的常客。正是这种语言和文体分析可以为我们提供一些虚假新闻文章的线索。尽管它对遵循该类型惯例的文章(如第一个示例)没有帮助,但它将扫除虚假内容领域。

对抗错误信息:多条路径

当前打击假新闻问题的趋势主要有三种途径:教育公众、进行手动检查或进行自动分类。教育公众包括鼓励读者检查故事的来源,分析其分布(谁分享了它,多少次),或通过事实调查网站运行它。这当然是必要的,但这还不够,给个人带来了沉重的负担。

“我们的实验室正在研究基于语言特征的文本分类方法,以补充依赖于故事来源或传播网络的方法。”

在出版之前或之后进行有组织的手动检查是可能的,但这也不是一个现实的解决方案,因为我们现在知道,错误信息传播得又快又广。3.Soroush Vosoughi、Deb Roy和Sinan Aral,“网上真实和虚假新闻的传播,”科学359,第6380号(2018):1146-1151。计算语言和机器学习方法执行自动分类,并有助于补充事实核查网站的努力,如Snopes网站,Politifact公共编辑器. (请注意,奇怪的是Snopes网站承认抄袭网站上的一些故事。)我们的实验室正在研究基于语言特征的文本分类方法,以补充依赖于故事来源或其传播网络的方法。

用于假新闻检测的文本分类

文本分类方法依靠自然语言处理来区分不同类型的文本。文本分类已成功应用于垃圾邮件检测、情感分析、社交媒体监控和作者归属。它通常使用监督机器学习-人工智能的一种形式,用于在大型标记数据集上学习数据的特征。例如,垃圾邮件检测系统首先接收大量已标记为“垃圾邮件”和“非垃圾邮件”的电子邮件,并应用算法学习如何对新邮件进行分类。

描述中的两个关键问题是“大”和“标记”。现代机器学习模型,特别是那些部署深度学习方法的模型,特别需要数据。他们需要非常大的数据集来提取与一个或另一个类相关的特性(垃圾邮件与非垃圾邮件)。这些数据集需要准确标记;我们需要人工输入才能知道什么是垃圾邮件。

对大量标注数据的需求一直是假新闻研究的一个绊脚石。当我们第一次开始这个项目时,我们认为数据收集不会是一个问题。毕竟,我们被反复告知,假新闻和错误信息在网上自由、广泛传播。

“我们需要更多数据,我们知道其中很大一部分取决于社交媒体平台和大型科技公司。”

现实情况却大不相同。尽管研究人员多年来一直在汇编数据集,但对于判断一篇新闻文章是否包含错误信息这一简单问题来说,这些数据集都不够大,也不够准确。我们从事实核查机构收集新闻文章,但这个过程很痛苦,不完全准确,结果形成了大约3000篇文章的中型数据集。4.法蒂玛·托拉比·阿斯尔和迈特·塔巴达假新闻和假信息检测的大数据和质量数据,”大数据与社会6,第1号(2019年)。我们需要更多的数据,而我们知道,其中很大一部分取决于社交媒体平台和大型科技公司。与此同时,即使拥有中等规模的数据集,我们在根据文体特征区分假新闻方面也取得了可观的进展。我们发现假新闻文章往往比基于事实的新闻更短。它们往往包含更多的副词、更多的负面词汇,以及更多与性、死亡和焦虑相关的词汇。它们显示了不同的代词使用模式,with他们更频繁地使用(可能是由于“不相),而基于事实的新闻显示第一人称代词的频率更高.令人惊讶的是,基于事实的文章有更多的标点符号和撇号,可能是因为它们是以非正式的风格(使用不要而不是不要).这些模式可能有助于更好地识别假新闻的风格。

机器学习最近遇到了一个图像问题。我们已经了解到,根据自然发生的数据训练的模型与产生这些数据的社会遭受着同样的偏见。5.纽约:企鹅兰登书屋,2017年更多信息→除了无意识的,现有的社会偏见,许多机器学习模型有一个故意的人类偏见的动机增加参与度的愿望.为了得到准确的结果而计算大型模型所带来的环境后果也引起了人们的严重关注。6.艾米丽·m·本德等人,"关于随机鹦鹉的危险:语言模型会太大吗?FAccT'21:2021年ACM公平、问责和透明度会议记录2021年3月,610-623。

尽管如此,机器学习在与错误信息的斗争中显示出了希望。但首先,我们需要更多的数据来解决大量虚假数据造成的问题。社交媒体公司可以通过与研究人员秘密分享数据

下一个前沿

更多的数据将解决文本分类中用于假新闻检测的一些问题。文本分类有助于过滤出一些最令人震惊的假新闻,就像它有助于检测电子邮件中垃圾邮件的原始案例或在线滥用信息的清晰实例一样。但是,如果假新闻作者变得更加老练,就像一些垃圾邮件发送者那样,会怎么样呢?那么我们仍然面临着真实性的问题。

温迪·春他指出,我们希望新闻报道真实,而不是真实。当错误信息和虚假信息的作者学会听起来真实可信时,那么我们在打击错误信息的斗争中就没有什么工具了。教育和常识将成为我们唯一的工具。

横幅照片:彼得·劳伦斯/不鞭笞

引用:

1.
牛津大学出版社,2017 更多信息→
2.
剑桥大学出版社,1988年 更多信息→
3.
Soroush Vosoughi、Deb Roy和Sinan Aral,“网上真实和虚假新闻的传播,”科学359,第6380号(2018):1146-1151。
4.
法蒂玛·托拉比·阿斯尔和迈特·塔巴达假新闻和假信息检测的大数据和质量数据,”大数据与社会6,第1号(2019年)。
5.
纽约:企鹅兰登书屋,2017年 更多信息→
6.
艾米丽·m·本德等人,"关于随机鹦鹉的危险:语言模型会太大吗?FAccT'21:2021年ACM公平、问责和透明度会议记录2021年3月,610-623。