0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微博Push系统的发展历程,如何利用机器学习进行热点挖掘以及个性化推荐系统的模型升级之路

电子工程师 来源:lq 2019-05-19 10:35 次阅读

想必国内绝大多数网民都有新浪微博的用户账号。据最新数据显示,2018 年第四季度财报,微博月活跃用户突破 4.62 亿,连续三年增长 7000 万 +;微博垂直领域数量扩大至 60 个,月阅读量过百亿领域达 32 个。毫无疑问,从 2009 年 8 月上线至今,微博已是当前业界领先的中文社交媒体,成绩斐然。

当年有一句话叫做 “围观就是力量,舆论改变中国”,明星绯闻、爆炸性新闻等众多热门事件从微博发出传遍全网。直到如今,微博也上线了不少新功能如 “热搜” 、“新鲜事”、“故事” 等,更加强调 “社交”、“全媒体”、“垂直领域” 发展,进一步满足社交属性下人们对获取实时、一手新闻资源的需求。

Push(消息推送)的作用则在于提高用户活跃度和粘性,提高用户留存率,进而进一步提高产品功能和用户参与度。如国内外重大事件的提醒、领域内大事件的提醒、关注人或好友的重要消息推送、感兴趣内容的消息提醒等方式,可引导用户感兴趣的内容打开应用。

然而,另一个事实是,此前频频 “吐槽” 的应对热门事件的流量暴增导致的微博服务器崩溃问题,无论是热搜消息,还是信息流方面,均受到了极大的挑战。随着用户数量和消息并发量的不断上涨,基于移动端的消息推送服务器性能和稳定性也需要经受非常大的考验。例如,在排序方面,微博平台每天的推送量可达到几个亿的规模,如果全部采用全量计算,对服务器的资源消耗会过大,微博团队采用了分片批量计算的方式。

近期,微博研发中心技术专家齐彦杰在接受 AI 科技大本营采访时表示,“微博一直致力于打造基于用户关系的社交媒体平台,让用户及时获取好友动态,随时随地发现新鲜事。如何不错过重要的信息?让用户每 5 分钟去刷新自己的关注列表显然并不现实,更高效的方式是通过系统推送进行消息提醒,但推送是一个强打扰的行为,如何做一个既不过分打扰用户,又能让用户开心吃瓜的 Push 推荐系统,就是一件很有意思的事情了。”

齐彦杰,微博研发中心技术专家

在 5 月 25 日 - 5 月 27 日杭州举办的 CTA 大会(官网:https://dwz.cn/iSZ7BQUR)上,齐彦杰将作为机器学习论坛的演讲嘉宾,向大家介绍微博 Push 系统的发展历程,如何利用机器学习进行热点挖掘、博文标注,以及个性化推荐系统的模型升级之路。

机器学习在微博的落地

实际上,微博一步步进化的背后离不开平台技术研发团队在新技术能力上的持续提升。在齐彦杰看来,“微博非常重视新技术的跟进与落地,内部团队做了大量工作。现在也非常注重对外的交流,每年会参与一些比较重要的会议。”

AI 科技大本营:在过去几年,内容推荐和用户增长领域呈现出了哪些比较突出的技术或应用?与过去传统手段有哪些区别和联系?

齐彦杰:过去几年,技术的发展可以说是一日千里,快得令人震惊。如果大家平常关注会议或比赛,会发现每年好的论文或解决方案,进步非常大。而工业界也非常努力,不断提升产品效果,让用户体验越来越好。

列举这些就是想说明,如果论年计,突出的技术也会变得不突出,因为发展太快了。仅仅在模型排序方面,比如几年前 LR + 超大规模特征还是排序标配,后来演变为了 FM+,直到现在则是 Deep+,不得不说技术一直在前进。但不变的是,更加有效地利用数据,通过计算量的提升,提高模型的准确率,服务好用户的个性化需求。

AI 科技大本营:您认为基于微博当前的技术能力,在完成精准、快速个性化推送的过程中,面临着哪些挑战?为什么机器学习方法能够适用于当前的问题解决?

齐彦杰:微博的数据是巨量的,用户行为也是极为丰富的,更别说博文中蕴含的形式、内容、情绪等复杂的信息,这是微博的优势,也是微博机器学习的挑战。如何去理解用户、理解内容,连接用户与用户、用户与内容?这些问题都需要 NLP、计算机视觉、图计算、排序模型等技术解决。也只有基于机器学习,通过超大规模数据的学习与抽象,才可以做到精准的个性化内容分发。

AI 科技大本营:您在之前的分享中,也提到 “博文质量、算法模型与分发效率共同决定了 Push 效果”,那么在您看来,微博用户类型繁多,关注的兴趣点更为广泛,在实践过程中,是如何根据用户画像进行更加精准的内容推荐?

齐彦杰:首先,博文的内容要丰富,满足个性化的需求一定要保障候选博文的范围足够广泛;然后,按需储备,根据用户画像能够知道用户对哪些内容有更大的需求,根据需求挖掘内容更能保障易消费物料的准确性与充足性;再通过丰富的召回方法和高效的排序模型进行推荐分发。

常用的推荐算法包括协同、向量、模型等。

AI 科技大本营:实际上微博文本短小、信息量少(有时还会涉黄、不健康、不适宜内容等信息),很难做到对文本内容进行细粒度表征。对此,在本文理解方面,团队有没有比较好的解决办法?

齐彦杰:这确实是一个很好的问题。前面我提到,用户理解和内容理解是痛点和难点,但也是机器学习在高速进步的领域,当前 NLP、计算机视觉方面的进步给了我们很好的支持,包括去年 BERT 模型的出现,Embedding 的实践,以及人脸识别、物体识别等,对于内容的表征都有很好的表现。

AI 科技大本营:不少人曾提到多模态融合的概念,对此您是如何看待的?在微博的相关业务中已经有实际的应用及成效了吗?

齐彦杰:这个问题和上一个问题可以联系起来看。因为现在随着个人硬件的提升,内容创作的形式也是在不断丰富,从最初的文本,到后来图片的增多,再到视频内容的涌现,甚至直播的加入,用户有太多的形式去表现自己的思想或情绪。单纯的文本维度已经不能完整的表征内容,所以多模态融合对于推荐系统的提高有很大的帮助。据我所知,有很多同事在做相关的内容,也有比较好的效果。

关于齐彦杰本人

据了解,齐彦杰最早服务于行业软件,2010 年进入互联网行业,一直从事爬虫、索引、检索、数据分析等方向的研发工作。后来用户获取信息的习惯逐渐从主动搜索转向被动接受,推荐系统进入高速发展时期,机器学习也开始了对整个社会进行改造。“机器学习最需要就是数据,不管是在数量上,还是在维度上,微博均拥有着巨量的公开语料及行为数据。我认为这是机器学习应用最好的土壤。” 后来,也就是 2016 年,齐彦杰加入新浪微博团队,目前在微博 UG 算法组主要负责 Push 相关方向的业务。

据他的观察,最近几年微博 Push 得到比较大的改造,完成了从编辑推荐向算法推荐、各业务独立到统一 Push 平台的升级,使用户在体验上有了很好的提升。

作为本次杭州 CTA 大会机器学习论坛的演讲嘉宾,齐彦杰表示:“技术的前进离不开先行者的经验,更离不开思想的撞击,期待 CTA2019 的技术盛宴。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Push
    +关注

    关注

    0

    文章

    16

    浏览量

    9416
  • 机器学习
    +关注

    关注

    66

    文章

    8344

    浏览量

    132288
  • 微博
    +关注

    关注

    0

    文章

    33

    浏览量

    6341

原文标题:“搞垮” 微博服务器?每天上亿条用户推送是如何做到的

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    科测试IPO上市观察:产品布局完善,可满足多样检测需求

    汽车测试试验系统是一个综合性的体系,它专门用于对汽车整车及其零部件的性能进行测试与检测,其中包含了各种专业设备、系统以及相关的服务。为了满足汽车领域客户多样
    的头像 发表于 11-05 14:13 61次阅读

    智慧路灯照明管理系统,呈现个性化城市照明效果

    【智慧城市】智慧路灯照明管理系统,呈现个性化城市照明效果
    的头像 发表于 10-28 14:39 109次阅读
    智慧路灯照明管理<b class='flag-5'>系统</b>,呈现<b class='flag-5'>个性化</b>城市照明效果

    以AI破解个性化客服难题

    一文汇集多个行业借助 AI 实现的个性化客服实践
    的头像 发表于 10-25 09:06 1753次阅读
    以AI破解<b class='flag-5'>个性化</b>客服难题

    嵌入式系统的未来趋势有哪些?

    (ML)技术的快速发展,嵌入式系统将更多地整合这些先进技术,以支持智能决策和自动。在设备上直接运行AI和ML模型进行图像识别、自然语言处
    发表于 09-12 15:42

    开启全新AI时代 智能嵌入式系统快速发展——“第六届国产嵌入式操作系统技术与产业发展论坛”圆满结束

    嵌入式系统是电子信息产业的基础,是智能系统的核心。大模型催生AI走入千家万户、唤醒端侧AI的需求爆发。以机器人、无人驾驶和智能制造为代表的智能嵌入式
    发表于 08-30 17:24

    Meta发布Imagine Yourself AI模型,重塑个性化图像生成未来

    Meta公司近日在人工智能领域迈出了重要一步,隆重推出了其创新之作——“Imagine Yourself”AI模型,这一突破性技术为个性化图像生成领域带来了前所未有的变革。在社交媒体与虚拟现实技术
    的头像 发表于 08-26 10:59 425次阅读

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    指标监控、容量预估弹性伸缩、告警关联、告警收敛和告警系统评估等,以及监控中出现的节假日效应、持续异常等实际情况。 ●第8章“金融领域的应用场景”:介绍量化交易的概念、发展历程,如何通过
    发表于 08-07 23:03

    深度挖掘5G网络潜在价值,满足用户的个性化需求

    、定制服务将5G潜力转化为实际收益的重要性;华为则进一步丰富了5G数据业务的计费模式,提出了以速率计费的新思路。这一系列讨论旨在深度挖掘5G网络的潜在价值,满足用户日益增长的个性化需求,进而推动运营商收入的显著增长。
    的头像 发表于 07-09 15:09 491次阅读

    Al大模型机器

    系统和平台集成,为用户提供个性化的服务和解决方案。可实现中英文双语自由流畅切换。金航标kinghelm(www.kinghelm.com.cn)和萨科slkor(www.slkormicro.com
    发表于 07-05 08:52

    AI大模型发展历程和应用前景

    随着人工智能技术的飞速发展,AI大模型逐渐成为研究与应用领域的热点。AI大模型,顾名思义,是指具有巨大参数量的深度学习
    的头像 发表于 07-03 18:20 1052次阅读

    名单公布!【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来?

    量化交易的概念、发展历程,如何通过因子挖掘从时间序列数据中提取特征并将其转化为交易策略,以及机器学习
    发表于 06-25 15:00

    宏集Panorama SCADA:个性化定制,满足多元角色需求

    企业中不同岗位的人员对于SCADA系统的功能需求可能有所差异,宏集Panorama SCADA平台支持针对不同人员角色进行个性化定制,满足多元角色需求,帮助更高效地利用SCADA
    的头像 发表于 06-05 11:34 282次阅读
    宏集Panorama SCADA:<b class='flag-5'>个性化</b>定制,满足多元角色需求

    激光打标机:精准定位,实现个性化标识需求

    激光打标机:精准定位,实现个性化标识需求激光打标机,以其精准定位的特性,成为实现个性化标识需求的得力工具。在现代制造业中,个性化标识已成为产品差异化、品牌塑造和提升附加值的重要手段。激光打标机通过其
    的头像 发表于 03-19 19:43 459次阅读
    激光打标机:精准定位,实现<b class='flag-5'>个性化</b>标识需求

    家居智能,推动AI加速器的发展

    提高了系统的运算能力和数据处理能力,还为用户带来了更加智能个性化的生活体验。   AI 加速器的发展   在人工智能和机器
    的头像 发表于 02-23 00:18 4504次阅读

    嵌入式系统发展前景?

    应用领域。随着汽车电子和智能程度的不断提高,嵌入式系统将在汽车控制、安全系统、自动驾驶等方面发挥更为重要的作用。 工智能和机器
    发表于 02-22 14:09