0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

信息社会产生的谣言,还是借用技术来解决

电子工程师 来源:lq 2019-05-16 18:21 次阅读

近期,HBO出品的台剧《我们与恶的距离》热播,在感慨剧情深度的同时,也引发了对于媒体行业生存现状的反思。

《我们与恶的距离》剧照

一方面,人们希望媒体能够坚持所谓“新闻理想”,另一方面,在信息爆炸讯息光速传递的今天,媒体人要坚守“客观真实”的报道,实属难得。

作为一位媒体从业者,文摘菌对于女主角新闻台副总监“宋乔安“印象深刻。

贾静雯饰演宋乔安,演技炸裂

影片一开始,我们就目睹了一起抢热点的假新闻事件。多家媒体同一时间播报了一条泰国发生爆炸的消息,令宋乔安和同事感到措手不及。这条消息没有得到前方记者的证实,也缺乏官方认证,用媒体术语来说,就是不具有权威信源。但是,该爆炸性新闻自带流量,若证实有中国游客身亡,更会让它成为一条名副其实的爆款新闻。

竞争对手们争相播报,宋乔安压力颇大,尽管没有拿到真的信源,依然硬着头皮播了这条新闻,但最终,它被证实是一条假消息。

机器学习假新闻判别

宋乔安的尴尬处境也恰恰是当代媒体真实写照。突发新热点多,真假难以被证实。或许,我们可以在算法的帮助下,打破这一困境。

《我们与恶的距离》剧照

AI谣言粉碎机

今年愚人节当天,阿里宣布了一项新技术被称为“AI谣言粉碎机”。这项技术的算法模型通过深度学习神经网络,设计了包括发布信息、社交画像、回复者立场、回复信息、传播路径在内的判断系统,将谣言识别和社交用户观点识别打通,最快1秒内判定结果。在特定场景中的准确率可达到81%。

阿里希望帮助社交平台和新闻网站在假新闻尚未造成大面积伤害时就快速识别出来,遏制其传播。在信息被证实为谣言后,AI还可通过虚假信息的传播路径,定向给阅读过此信息的用户进行辟谣。

SemEval语义测试大赛中,根据主办方提供的过去两年社交媒体Twitter和Reddit上的近500个真实言论和1万多条相关反馈数据,阿里巴巴的人工智能技术对假新闻识别的准确率创造了新的纪录。达摩院语言技术实验室首席科学家司罗表示,“AI谣言粉碎机”未来有望帮助社交媒体的审核机构承担60%的工作量。

Breaking Data

英国有一家体育媒体GiveMeSport,是一个主要基Faceboook发布体育相关的新闻,最后被人工智能公司Breaking Data 收购,目前在新闻频道的两个终端应用了AI技术,可以分析和反应片段及重大新闻报道。

Breaking Data运用自然语言处理技术扫描Twitter,通过相关推文筛选预定关键词,如运动队、球员姓名、球队名称、俱乐部、联赛或运动场。经过筛选和验证关键词,将其分为“重大事件”,“相关新闻”或“大幕新闻”等类别;并在BreakingSports Slack频道中作为警报发送给记者。GiveMeSport正在使用Breaking Data的技术将其他公开可用的数据源(如Facebook,Reddit和Wikipedia)整合在一起。

这个平台通过识别可靠的信息来源来判断推文是否可靠,例如,欧冠中当巴萨以3:0战胜利物浦时,人工智能平台可以跟踪Twitter上的内容何时首次出现,并将该帐户标记为可靠的权限。

用AI打假AI合成图片

除了假新闻,AI合成的视频和照片也越来越多,利用算法实现AI换脸技术已经很成熟。针对此种情况,成立于2017年的旧金山初创企业人工智能基金会(AI Foundation),他们正在开发的Reality Defender将帮助人们识别由人工智能算法生成的内容,以检测潜在的虚假媒体。

与病毒防护类似,他们的工具扫描每一幅图像、视频和其他媒体,寻找已知的假象,允许你报告可疑的假新闻,并使用各种人工智能驱动的分析技术,以检测变化或人为生成的迹象。

虚假、合成的照片和视频在网络的传播,也会造成品牌和个人造成不可挽回的名誉损毁。但试图监管全球媒体数据将是一项艰巨的任务,使用AI技术任何人都可以炮制出数百万张看起来逼真的假照片。鉴于虚假图像和视频的改善速度之快,或许验证“什么是真实的”的商业模式可能更有效,也许媒体和个人很快应该拥有自己的数字指纹,可AI合成的底线又在哪?

假新闻训练模型及数据集

在某种程度上假新闻的是一个微观领域问题,它和谣言分类、事实判断、标题党检测、垃圾内容挖掘等都比较类似,在宏观上说都属于内容质量的领域,所以很多方法其实是通用的框架。腾讯科技高级研究员孙子荀将假消息辨别模型分为两类:

基于内容的建模;

基于社交网络的模型。

后者可以通过对虚假新闻的传播游走轨迹跟踪,以及通过图模型和演化模型中针对特定假新闻的进一步调查;其次,识别虚假新闻的关键传播者,对于减轻社交媒体的传播范围至关重要。

在2017年,Kai Shu等人的论文中将假新闻的研究主要分为三个方向:

数据方面的研究:目前还没有标准的测评数据集,需要去建立的。可以通过传播特性提前检测假新闻。

模型特征方面的研究:通过使用用户的画像特征,内容特征(NLP、CV)结合深度学习,还有传播网络特征,比如用户和内容之间的关系构造出来的网络特征,网络本身的embedding表现。

模型方面的研究:这方面的工作可分为特征之间的组合、预测目标的变化、对内容源、内容反馈和文章风格的限制,组合这些模型,也可通过空间变换,把特征变换到另外的latent语义空间尝试解决。

鉴定假新闻是一件任重而道远的事,对假新闻机器学习模型感兴趣的同学也可以通过以下开放的数据集进行尝试。

1. FakeNewsNet

BuzzFeed和PolitiFact两个平台的数据集,包括新闻内容本身(作者,标题,正文,图片视频)和社交上下文内容(用户画像,收听,关注等)。

数据集获取方式:

https://github.com/KaiDMML/FakeNewsNet

2.LIAR

该数据集也是来自PolitiFact,包括内容本身和内容的基础属性数据,比如来源,正文等。

数据集获取方式:

http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

3. Twitter and Weibo DataSet

一个比较全的数据集包括帖子ID,发帖用户ID,正文,回复等数据。

数据集获取方式:

http://alt.qcri.org/~wgao/data/rumdect.zip

4. Twitter15 Twitter16

来自 Twitter 15、16 年的帖子,包括了帖子之间的树状收听,关注关系和帖子正文等。

数据集获取方式:

https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

5. Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 收集的选举假新闻,以及作者收集的 75个新闻故事。包括假新闻,真新闻和讽刺新闻。

数据集获取方式:

https://github.com/rpitrust/fakenewsdata1

相关链接:

http://www.sohu.com/a/311856780_99928473?sec=wd

https://zhuanlan.zhihu.com/p/57124028

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4732

    浏览量

    100374
  • 算法
    +关注

    关注

    23

    文章

    4585

    浏览量

    92443
  • 机器学习
    +关注

    关注

    66

    文章

    8337

    浏览量

    132257

原文标题:《我们与恶的距离》引发媒体反思:假新闻抢热点,机器学习能做些什么?

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI大模型的伦理与社会影响

    个人隐私得到保护,防止数据泄露和滥用。 对于敏感数据的处理,如生物识别信息或健康记录,需要遵循更严格的隐私和安全标准。 偏见与歧视 AI大模型可能会从训练数据中继承偏见,导致对某些群体或个体产生不公平的决策。 这需要在模型训
    的头像 发表于 10-23 15:13 281次阅读

    说明增强现实技术产生原因

    增强现实技术(Augmented Reality, AR)的产生,主要源于人类对信息获取和交互方式的不断追求与探索,以及计算机技术、图像处理、传感器
    的头像 发表于 09-15 14:44 432次阅读

    什么是光纤通信技术?它有哪些优劣势?

    光纤通信技术(Optical Fiber Communications),简称光纤通信,是一种利用光波作为信息载体,以光纤作为传输媒介的通信方式。它属于有线通信的一种,是现代通信技术的重要组成部分。光纤通信
    的头像 发表于 08-09 17:24 820次阅读

    电枢绕组产生的电势是直流还是交流

    基于电磁感应,即通过改变磁场产生力矩,从而驱动电机的旋转。 电枢绕组的基本概念 电枢绕组是电机中的一个重要组成部分,通常由导线绕制而成,安装在电机的转子上。电枢绕组的主要功能是接收外部电源,产生电流,并通过电
    的头像 发表于 07-25 17:39 381次阅读

    如何借用物联网快速实现高标准农田信息

    如何借用物联网快速实现高标准农田信息化 高标准农田信息化,作为现代农业发展的重要基石,是指在建设高产、稳产、节水、环保的农田基础上,深度融合现代信息技术,实现农田管理的精准化、智能化和
    的头像 发表于 06-24 13:50 254次阅读
    如何<b class='flag-5'>借用</b>物联网快速实现高标准农田<b class='flag-5'>信息</b>化

    量子加密:安全通信的未来

    随着我国信息社会、数字社会、智能社会的发展,信息安全要求越来越迫切。传统的加密方法虽然在一定程度上保障了信息的安全,但在面对日益复杂的网络攻
    的头像 发表于 06-24 10:40 363次阅读
    量子加密:安全通信的未来

    华为携手运营商及产业伙伴亮相2024年世界电信和信息社会日大会

    2024年世界电信和信息社会日大会暨系列活动在浙江省宁波市举办,本次大会主题为“数字创新赋能新型工业化”。
    的头像 发表于 05-19 11:14 548次阅读
    华为携手运营商及产业伙伴亮相2024年世界电信和<b class='flag-5'>信息社会</b>日大会

    江苏电信携手华为基于云网融合边缘网络发布的新一代智能宽带产品

    5月17日,是第55个世界电信和信息社会日(WTISD),信息通信领域的各项创新科技再次成为社会共同关注的热点。
    的头像 发表于 05-19 09:27 596次阅读

    广和通AIoT解决方案与创新技术促全球可持续发展

    今年世界电信和信息社会日主题是“数字创新促进可持续发展”(Digital Innovation for Sustainable Development)。
    的头像 发表于 05-17 09:17 295次阅读

    stm8s903如何设置计数器是在上溢时产生更新中断,还是在下溢时产生更新中断啊?

    如果将stm8s903的高级定时器tim1配置成中央技术模式的话,并且当RCR等于奇数的话,如何设置计数器是在上溢时产生更新中断,还是在下溢时产生更新中断啊???????????希望高
    发表于 05-13 08:15

    国内首个传感器产业生态服务大数据平台来了

    智能传感器和半导体作为现代信息社会的基石,在工业自动化、智能制造、物联网、人工智能等多个领域的应用日益广泛,成为推动经济社会发展的新引擎。
    的头像 发表于 05-07 14:51 538次阅读

    深圳特信电子|手机信号屏蔽器厂家:技术领先,保障信息安全.

    深圳特信电子|手机信号屏蔽器厂家:技术领先,保障信息安全在当今高度信息化的社会中,手机已成为人们日常生活中不可或缺的一部分。然而,在某些特定场合,如会议室、考场、影院等,手机信号的干扰
    发表于 04-26 09:09

    信息化与数字化:从概念到实践的探索

    信息化与数字化的关系 信息化和数字化是两个相互关联的概念。信息化主要指利用信息技术信息系统来处理和管理
    的头像 发表于 01-22 16:10 450次阅读

    拓维信息荣获第18届人民企业社会责任奖“年度企业奖”

    ,拓维信息荣获第18届人民企业社会责任奖“年度企业奖”。“人民企业社会责任奖”被视为衡量中国企业履行社会责任的重要标尺。随着全球可持续发展共识不断加深,企业如何在
    的头像 发表于 12-23 08:14 398次阅读
    拓维<b class='flag-5'>信息</b>荣获第18届人民企业<b class='flag-5'>社会</b>责任奖“年度企业奖”

    单片机按键产生的抖动是方波还是尖刺?

    单片机 按键产生的抖动是方波还是尖刺
    发表于 11-08 07:03