0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

三大算法模型引领,突围复杂网络语言分析困境

Qp2m_ggservicer 来源:未知 作者:李倩 2018-06-27 11:22 次阅读

6月23-24日,知乎在798举办了一场“阴阳怪气”主题书法展,现场不仅有阴阳怪气粉碎机、“瓦力”实验室等精彩互动,知乎社区治理团队也首次亮相,分享了知乎在识别“阴阳怪气”类内容上的探索。

据了解,知乎还将在近期对该技术进行产品化尝试,向用户提供“瓦力”阴阳怪气智能过滤选项,同时,还将对“瓦力”进行更多训练,不断提升准确率和召回率,最终将阴阳怪气识别技术全面应用到社区治理中。

三大算法模型引领,突围复杂网络语言分析困境

目前,知乎借助AI技术,并辅以人机结合和多元的产品举措,多重手段加强对社区氛围的维护。现阶段,知乎已实现对95%以上的违法违规、广告导流和不友善等内容的主动打击、覆盖和筛查 。

知乎运营总监孙达云表示, 过去一年,知乎全力探索对阴阳怪气类评论的解决方案。阴阳怪气可用“杠精”这个词来指代,通常以“不针对发言内容,而是批评对方的语气”以及“提出反对意见,但不给或给出极少数论据支持”这两类常见言论为代表,此类评论极大了伤害创作者和交流者的体验,但难以解决。

解决阴阳怪气类评论的难点核心主要在于网络语言的复杂性,情感分析不同于普通文本分析,例如经典的“呵呵”,由于双方不同关系、说话的不同场景和时间都会带来迥然不同的表意。即便是人工判定都存在标准化难度,算法模型的训练挑战就更为艰辛。

知乎团队的不懈努力下,针对阴阳怪气评论通常表达负面情感的特点,知乎构建了内容情感倾向性识别的算法模型和识别用户亲密度的模型,并通过训练不断迭代完善。

此外,针对阴阳怪气评论的典型特征,知乎建立了文本识别模型不断标记训练样本。三大模型的结合,不仅摆脱单一算法模型的局限性,也让“瓦力”的阴阳怪气识别准确率超过了大多数人工判断。

持续迭代技术方案 攻克情感分析前沿难题

知乎内容质量管理团队技术负责人刘兆来则详细介绍了“瓦力”最新的阴阳怪气技术方案:首先通过知乎社区里的举报、反对等负向用户行为收集训练数据。然后通过各种同义替换、规则模版方式对训练数据进行扩展,以缓解训练数据稀疏的问题。

同时,“瓦力”提取文本、句法、表情符等特征,并利用一个带attention的CNN和LSTM的融合模型进行分类,最终判断出内容是否为阴阳怪气。

优化技术方案后,“瓦力”已能实现对“暗藏玄机夸奖”(忍不住关注答主了,你的答案很有水平!你博士快毕业了吧!)、“好为人师”(我觉得你挺惨,虽然长这么大了,还真应该回小学改造)、“强行反驳”(你开心就好、请开始你的表演)等数类阴阳怪气内容的识别。而根据知乎社区治理团队的调查,用户最反感的阴阳怪气言论大多属于这些类型,这意味着,“瓦力”在处理网络言语暴力上取得了阶段性进展。

刘兆来表示,未来将不断优化“瓦力”的识别能力,提高模型泛化能力,同时不断迭代更新模型,紧跟学术前沿的同时,适应网络语言的变化潮流。

知乎着力阴阳怪气识别技术,正是知乎“认真、专业、友善”社区精神的一次直观体现和有力践行。日益强大的“瓦力”已能实时解决答非所问、辱骂、贴标签等不友善问题,而人机结合的社区治理方式,以及用户深度参与社区自治,更让歧视、谣言八卦、愚昧偏见等内容在知乎难以找到立足之地。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI算法
    +关注

    关注

    0

    文章

    241

    浏览量

    12177
  • ai技术
    +关注

    关注

    1

    文章

    1243

    浏览量

    23997

原文标题:GGAI 前沿 | 知乎优化AI算法“瓦力” 挑战“阴阳怪气”难题

文章出处:【微信号:ggservicerobot,微信公众号:高工智能未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    的信息,提供更全面的上下文理解。这使得模型能够更准确地理解复杂问题中的多个层面和隐含意义。 2. 语义分析 模型通过训练学习到语言的语义特征
    发表于 08-02 11:03

    【《大语言模型应用指南》阅读体验】+ 基础篇

    讲解,包括偏置、权重、激活函数;要素包括网络结构、损失函数和优化方法。章节最后总结了神经网络参数学习的关键步骤。 1.4章节描述了自然语言处理的相关知识点,包括什么是自然
    发表于 07-25 14:33

    【《大语言模型应用指南》阅读体验】+ 俯瞰全书

    松。 入门篇主要偏应用,比如大语言模型种交互方式,分析了提示工程、工作记忆和长短期记忆,此篇最后讲了ChatGPT的接口和扩展功能应用,适合大
    发表于 07-21 13:35

    基于神经网络语言模型有哪些

    基于神经网络语言模型(Neural Language Models, NLMs)是现代自然语言处理(NLP)领域的一个重要组成部分,它们通过神经
    的头像 发表于 07-10 11:15 239次阅读

    数学建模神经网络模型的优缺点有哪些

    数学建模神经网络模型是一种基于人工神经网络的数学建模方法,它通过模拟人脑神经元的连接和信息传递机制,对复杂系统进行建模和分析。神经
    的头像 发表于 07-02 11:36 577次阅读

    基于神经网络算法模型构建方法

    神经网络是一种强大的机器学习算法,广泛应用于各种领域,如图像识别、自然语言处理、语音识别等。本文详细介绍了基于神经网络算法
    的头像 发表于 07-02 11:21 297次阅读

    【大语言模型:原理与工程实践】大语言模型的应用

    ,它通过抽象思考和逻辑推理,协助我们应对复杂的决策。 相应地,我们设计了两类任务来检验大语言模型的能力。一类是感性的、无需理性能力的任务,类似于人类的系统1,如情感分析和抽取式问答
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的评测

    阅读和理解。 文案创作能力:在大语言模型应用中占据核心地位,尤其对于满足多样化、复杂化的内容需求具有不可替代的价值。这种能力不仅限于戏剧剧本、市场营销文案、学术研究论文和数据分析报告等
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的预训练

    训练数据时,数量、质量和多样性者缺一不可。 数据的多样性对于大语言模型至关重要,这主要体现在数据的类别和来源两个方面。丰富的数据类别能够提供多样的语言表达特征,如官方知识型数据、口
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》2.0

    《大语言模型“原理与工程实践”》是关于大语言模型内在机理和应用实践的一次深入探索。作者不仅深入讨论了理论,还提供了丰富的实践案例,帮助读者理解如何将理论知识应用于解决实际问题。书中的案
    发表于 05-07 10:30

    【大语言模型:原理与工程实践】大语言模型的基础技术

    ,直到现在的大语言模型。 基于Transformer结构,预训练语言模型可以大致被划分为以下类。 (1) Encoder-Only 预训
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】核心技术综述

    复杂模式和长距离依赖关系。 预训练策略: 预训练是LLMs训练过程的第一阶段,模型在大量的文本数据上学习语言的通用表示。常用的预训练任务包括遮蔽语言建模(Masked Langu
    发表于 05-05 10:56

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    能力,使其能够应对更复杂和抽象的语言任务。神经网络的前向传播和反向传播算法是其核心技术。前向传播中,模型根据输入文本的上下文和先前知识生成相
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    《大语言模型》是一本深入探讨人工智能领域中语言模型的著作。作者通过对语言模型的基本概念、基础技术
    发表于 04-30 15:35

    拆解大语言模型RLHF中的PPO算法

    由于本文以大语言模型 RLHF 的 PPO 算法为主,所以希望你在阅读前先弄明白大语言模型 RLHF 的前两步,即 SFT Model 和
    的头像 发表于 12-11 18:30 1829次阅读
    拆解大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>RLHF中的PPO<b class='flag-5'>算法</b>