0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多模态与AI搜索的全球科技竞速:中国AI,且信天工

脑极体 来源:脑极体 作者:脑极体 2024-05-30 09:28 次阅读

从全球视野看,OpenAI、谷歌等AI巨头,以及百度、昆仑万维等中国科技公司,作为推动技术创新的关键力量,成为各自地区AI发展的风向标。

不同地区的AI企业各有千秋,但技术发展的潮水方向却大体相同,那就是:技术做高,产品做广

所谓技术做高,指的是模型能力的持续进阶。比如今年4月17日开启公测的天工3.0,就是全球首个多模态“超级模型”(Super Model),具备多模态、搜索增强等能力,同期,又接连发布了全球首个开源AI音乐大模型SOTA。而随后5月份OpenAI发布的最新大模型GPT-4o,也强调了多模态大一统的能力,谷歌也在随后的Gemini Astra中展示了类似能力。

所谓产品做广,指的是模型落地需要丰富的软硬件产品作为支撑。这一点上,相比“OpenAI+微软”的合作模式,谷歌、昆仑万维这样“自有模型+自有产品生态”自成一派的厂商,更容易加速AI产品化。比如天工AI在去年就已经推出的中国第一款AI搜索,刚刚上线的全网唯一AI视频转绘功能,天工AI俨然已经实现了AI搜索、文生图、图像处理、AI PPT、AI动漫、AI音乐、AI视频转绘等多元应用,日活跃用户数已经突破百万,成为中国头部AIGC资深玩家。

谷歌也在I/O开发者大会一口气拿出来十来款新品及升级,展现出了极强的商业潜力,会后带动了谷歌的股价上涨。

说到这里,想必读者们已经发现了,昆仑万维的天工AI与谷歌的Gemini,在技术路线和产品能力上具备相似性,而且目前针对C端用户完全免费,而且覆盖各种设备、使用场景的需求。

这让我想到了宋代词人一首鼓励学子“赶考”的词:看蒲质易凋,何如松茂,菊花已老,须是梅开。万事何难,时来得做,且信天工次第排。从今去,愿径游璧水,直上兰台。

如果我们将科技企业的技术创新,看作是一场“赶考”,那么有理由相信,AI搜索、多模态等最新考题,对中国企业并不是很大的困难。只要坚持去做,时机一到,便会如经过寒夜的梅花一般绽放。

至少,最新的AI产品,比如谷歌在海外独占优势的AI搜索,以及时下正处于大模型金字塔尖的多模态,天工3.0都具备上述特性。

从这一点上看,中国AI,终于有了一点“万事何难,时来得做,且信天工”的淡定。

我们不妨借着当下最火的两大AI能力说开去,聊聊昆仑万维天工3.0是如何做到一流水平的,以及天工大模型这一株“AI梅花”开放的过程。

AI搜索:天工3.0与谷歌的独特芬芳

放眼全球,仅有在搜索业务上有底蕴、模型技术上有创新的厂商,比如谷歌、昆仑万维、百度等,以及背靠亚马逊的新秀Perplexity,才能在搜索效率、智能性、个性化体验上取得突破,培育出AI搜索这一独具特色的成果,为用户带来了前所未有的搜索体验。

为什么AI搜索是头部大模型厂商的关键赛点?一是体验优势,传统搜索引擎的精准度不高,用户容易被各种广告和钓鱼帖干扰,在海量信息里大海捞针,搜索效率与体验都急需得到改善;二是流量优势,早在传统互联网时代,搜索引擎就是流量汇聚的入口,也是商业价值的体现,到了AIGC时代,人类创作、AI创作的内容规模更是非线性增长,用户找到想要信息的难度也前所未有地增大,搜索工具变得更为重要,虹吸流量的能力毋庸置疑。

最近的谷歌I/O发布会上,就推出了许多基于Gemini大模型的搜索功能。幸好,通过天工3.0,我们也能欣赏到中国“AI搜索”的独特魅力。

目前,一流水平的AI搜索,有三个能力值得关注:

能力一:多模态,图文并茂的搜索体验。

多模态搜索是一种先进的搜索技术,允许用户通过多种类型的数据(模态)进行搜索查询,能够更全面地理解和响应用户的查询需求,提供更加丰富和准确的搜索结果。目前,仅有昆仑万维、谷歌等少数厂商,可以将文本、图片、音频、脑图等多形态答案集成在一起,给用户图文并茂的搜索体验。

比如,当用户要求大模型提供一个三天的膳食计划:

OpenAI的GPT-4只支持文字版本,菜品啥样全靠用户自己想象:

谷歌最新的Gemini大模型,则支持图文双模态搜索:

wKgZomZXQbCAWkcIAAJkUHAFlC0890.jpg

天工3.0则支持多模态一体化搜索:

能力二:更强推理,复杂任务轻松搞定。

模型能力的提升,带来了更强的逻辑推理能力,也让搜索从传统的“被动呈现”进阶为AIGC的“主动生成”。比如天工3.0通过4000亿级参数MoE混合专家模型,在模型语义理解、逻辑推理,以及通用性、泛化性、不确定性知识、学习能力等领域都有着大幅的性能提升,从而在实际应用中更加准确和高效地处理信息。

在天工的“搜索增强”模式中,在分析某个具体行业的信息时,或者遇到宽泛问题时,天工AI能够实现总结相关事件、拆解产业链地图等复杂功能,或者拆解问题进行多步骤推理,并以结构化或思维导图以及PPT的形式进行最终展示。

我们一起来试试报志愿相关问题,会发现天工AI可以将问题所涉及的领域逐一推理拆解,这与Gemini重磅出击的多步骤推理完全是一个逻辑。

wKgZomZXQbGASq6iAAC7hnvloJs485.jpg

wKgZomZXQbKAIYkIAACUN1tUC_U430.jpg

我们再来举个例子,当用户在搜索A新能源汽车时,想跟B品牌进行参数对比,不需要自己在不同网页间反复横跳,天工3.0支持多个产品横向对比,智能整合全网优质信息,并输出图表,通过AIGC减少用户的操作步骤,让关键信息一览无余。

wKgZomZXQbOAHtqqAAKZBIwpC2Q776.jpg

在此基础上,搜索还可以更进一步吗?让AI帮助用户整理分析既有信息,直接给出深度结果,也就是“搜索+分析+生成”合二为一,从检索工具变成智慧的个人助手,这可能吗?

天工3.0新增的搜索增强、多次调用联网搜索、Agent等能力,支持复杂问题深度拆解,agent智能体能够独立完成规划、调用、组合外部工具及信息,以精准高效地完成产业分析、产品对比等各类复杂需求。

数万字的市场调研报告、高级学术研究、企业研报、白皮书等任务,天工3.0都可以快速完成,并且每个搜索落地页都支持AI速读,一键生成AI摘要和要点提炼,其中有任何不懂的地方,还可以随时通过【聊天】功能向AI助手发起多轮对话提问。

对于平时要阅读大量产业研究报告、AI论文的创作者来说,我明显体会到,这一套搜索增强的“组合拳”,确实能帮日常工作提升效率、减轻负担。搜索的结果还可以用大纲、脑图的丰富形式呈现,非常清晰。

wKgZomZXQbSAX7_JAAWxBmdrtPM164.jpg

能力三:紧跟时事,搜索生成也可以很有时效性。

大模型的训练周期较长,需要大量数据,而数据集的收集、整理和更新是一个耗时的过程。因此,大多数大模型在发布时都有一个明确的“知识截止日期”,即模型所包含的知识信息只更新到这个日期为止。超过这个日期的信息,模型可能就无法准确提供。

这意味着,用户在搜索一些时效性很强的信息时,比如最新的新闻事件、旅游规划需要的实时信息、航班天气股市等动态信息搜索查询,部分AI搜索提供的结果,可能缺乏准确性和时效性。解决大模型的时效性问题,是昆仑万维、谷歌等头部厂商都在努力的目标。

前不久谷歌的发布会上,就推出了支持“旅游规划”的实时搜索demo,天工3.0的AI搜索产品,则是国内唯一能够支持实时天气、股市、星座运势等信息查询的AI产品,能够同时生成特定卡片和对应文本分析。有了这个功能,真的可以把手机上的n个软件都卸载掉了。

从上述三大能力,可以看到基于“超级模型”做出的AI搜索产品,正在前所未有地改变全球用户的搜索体验。AI搜索,已经成为昆仑万维、谷歌等独特的护城河,也是大模型底座上生长出的独特的一枝梅花,散发着“人无我有,人有我强”的技术芬芳。

多模态:超级模型底座上长出的应用繁花

作为全球首个多模态“超级模型(Super Model)”,天工3.0集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项尖端技术于一体,目前没有任何一款AI工具集这么多模型能力于一身,在多模态领域是当之无愧的先锋。

在天工3.0这棵“梅树”的根基上,昆仑万维凭借“All in AGI 与 AIGC” 战略,已经孕育出了众多的应用花蕾,支持AIGC时代的内容创作。

对于创作者来说,可以通过天工大模型获得多种模态的模型能力,处理多种不同类型的数据输入,包括:

视频模态。天工3.0 AI视频转绘,可以实现自动化的视频生成,将现有的视频内容自动转换成不同的风格或格式,像Sora一样辅助用户实现创意视频项目的制作。

wKgZomZXQbWAU3bUAANdygXkRGU949.jpg

音频数据。天工SkyMusic音乐大模型SOTA,是全球首款对标suno的音乐大模型,通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,助力音乐创作者生成高质量的AI音乐。尤为特别的是,SOTA支持粤语、成都话、北京话等众多方言,让用户能够更自由地实现音乐表达,传播方言文化。这一大模型的推出,不仅展现了中国在AI音乐生成领域的技术实力,也为音乐产业带来了新的可能性。浅浅展示一段天工AI音乐创作的作品,依然是完全免费,还无需担心版权问题。

智能体。在多模态环境中,智能体可以整合不同模态的信息,提供更加丰富和智能的交互体验。天工3.0支持用户创建智能体,实现个性化的服务和交互体验,是大模型技术应用的一种重要方式,可以推动大模型技术的创新、普及和商业化。

wKgZomZXQbaAEOeCAAI6DPZOgCU197.jpg

PPT。PPT演示文稿的制作,需要结合文本、图像、图表、视频和音频等多种模态。

天工AI的PPT生成功能可以快速将文本内容转换成PPT幻灯片,提高制作PPT的效率,并且支持WEB端和APP端,意味着无论是在电脑上还是手机上,用户都可以方便地使用这一功能来提升生产力。5分钟做完一份优质的PPT,再也不是难事,而且完全免费,不需要你在下载文件前支付任何费用。

图表。视觉表示的数据,如条形图、饼图、折线图等,在数据分析、信息可视化、商业智能等领域中非常重要。最新的天工3.0大模型,可以自动生成各种图表,并分析结果,自动生成报告或总结,与用户进行互动,提供基于数据的深入见解。

放眼全球大模型竞赛,不同模态的相互补充、统一、协作,可以提供更全面的理解能力,大幅提升AIGC在行业的应用效果。因此,多模态绝对是一个主流方向,无论是OpenAI的GPT系列,还是谷歌的Gemini家族,都以此为发展方向,覆盖多种模态。幸好,天工3.0为代表的中国大模型梯队,也并不逊色。

基于天工系列大模型,昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI社交、AI动漫、AI游戏等AI业务矩阵,AI应用场景的一个个绽放,中国AI的花香已扑面而来。

梅香清且远,AI春已至

值得一提的是,相比OpenAI和谷歌的ToC色彩,中国AI有着更为丰富、广阔的应用场景,不仅ToC应用的用户规模庞大,ToB/ToG政企市场将AIGC作为千行万业提质增效的把手,产业智能的前景也格外广阔。

栽种一棵基础模型的梅树,培育AIGC的应用繁花,天工大模型成为产业智能化的一道风景。昆仑万维作为AI园丁,有着独特的气质:

1.极长的耕耘耐心。

AI创新需要在土壤和时间中蕴育,昆仑万维2019年布局AIGC的前瞻性格局。以AI搜索为例,昆仑万维的自研实力来自长期主义战略。

2.极强的工程能力和产品匠心。

基座模型达到一定参数,接下来比拼的是谁能把工程化、产品化做得更好。以AI搜索为例,“魔鬼都藏在细节中”,比如怎么消除大模型的幻觉,哪些问题深度要求高,哪些问题实时性要求高,做出对应的处理,体现出不同产品的区别,直接影响到用户体验,需要体系化的工程能力和产品设计能力。这一点,天工AI有大量产业实际,比如用天工AI搜索写公文引用官方媒体,获得政府用户的信任。

3.极高的人才密度。

人才是AI创新的前提和基础。只有拥有一支强大的人才队伍,AI企业才能不断推动技术创新,开发出更多有价值的产品和服务,从这一点来说,基础大模型领域呈现出“强者益强”,头部AI巨头大厂与其他中小厂的差距不断拉大。以昆仑万维为例,整个大模型研发中心高级算法工程师多达300人+,其中海内外名校博士100+,大量人才来自微软、阿里、百度,人才规模具备明显实力优势。

昆仑万维作为国内模型技术与工程能力最强、布局最全面的人工智能企业之一,可以打出一套全球AI产品组合拳,一套覆盖ToC/ToB/ToG多个市场的商业组合拳。

“待到山花烂漫时,她在丛中笑”,面对OpenAI和谷歌等世界一流AI巨头,天工AI正绽放出梅花一般自信的微笑。当我们轻嗅着中国AIGC应用的阵阵芬芳,可以说一句:万事何难,且信天工

体验基于多模态大模型的AI搜索,可前往天工3.0官网。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268886
  • AIGC
    +关注

    关注

    1

    文章

    361

    浏览量

    1539
收藏 人收藏

    评论

    相关推荐

    高通与智谱推动模态生成式AI体验的终端侧部署

    此前,骁龙峰会首日,智谱与高通技术公司宣布合作将GLM-4V端侧视觉大模型,面向骁龙8至尊版进行深度适配和推理优化,支持丰富的模态交互方式,进一步推动模态生成式
    的头像 发表于 11-08 09:55 172次阅读

    昆仑万维天工AI发布升级版AI高级搜索功能

    昆仑万维公司近期正式推出了天工AI的最新版本,其中重点升级了AI高级搜索功能。这一新功能旨在满足用户在复杂问题解决、金融投资、科研学术以及文档分析等多个领域的多样化需求。 据了解,
    的头像 发表于 11-07 10:47 477次阅读

    苹果发布300亿参数模态AI大模型MM1.5

    苹果近日推出了全新的模态AI大模型MM1.5,该模型拥有高达300亿的参数规模,是在前代MM1架构的基础上进一步发展而来的。
    的头像 发表于 10-14 15:50 268次阅读

    广和通亮相深思考“Dongni.ai模态大模型发布会,签署商业化落地战略合作协议

    10月10日,深思考人工智能举办云边侧及端侧产品发布会,发布AI 模态搜索引擎“Dongni.so”、AI 重疾早筛平台、
    的头像 发表于 10-12 09:35 167次阅读
    广和通亮相深思考“Dongni.<b class='flag-5'>ai</b>”<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型发布会,签署商业化落地战略合作协议

    月访问量超2亿,增速113%!360AI搜索成为全球增速最快的AI搜索引擎

    与传统搜索引擎不同,作为AI原生搜索引擎的360AI搜索基于公开网络、知识库、大模型三大支柱。借助首创的 CoE 技术架构,360
    的头像 发表于 09-09 13:44 465次阅读
    月访问量超2亿,增速113%!360<b class='flag-5'>AI</b><b class='flag-5'>搜索</b>成为<b class='flag-5'>全球</b>增速最快的<b class='flag-5'>AI</b><b class='flag-5'>搜索</b>引擎

    AI商业化的考卷,360选了搜索来答

    AI搜索产品也表现出色。根据Aicpb的5月数据,360集团旗下的AI搜索产品访问量达到5098万次,同比增加332.79%。天工
    的头像 发表于 06-16 08:04 166次阅读
    <b class='flag-5'>AI</b>商业化的考卷,360选了<b class='flag-5'>搜索</b>来答

    智谱AI发布全新模态开源模型GLM-4-9B

    近日,智谱AI在人工智能领域取得重大突破,成功推出全新开源模型GLM-4-9B。这款模型以其卓越的模态能力,再次刷新了业界对于大型语言模型的认识。
    的头像 发表于 06-07 09:17 726次阅读

    Build 2024发布多项Azure AI Speech全新模态功能

    客户们持续使用 Azure OpenAI 和 Azure AI Speech 进行创新,为企业引入新的效率,并构建新的模态体验。
    的头像 发表于 05-28 09:08 564次阅读
    Build 2024发布多项Azure <b class='flag-5'>AI</b> Speech全新<b class='flag-5'>多</b><b class='flag-5'>模态</b>功能

    谷歌发布模态AI新品,加剧AI巨头竞争

    全球AI竞技场上,谷歌与OpenAI一直稳居领先地位。近日,谷歌在I/O开发者大会上掀起了一股新的技术浪潮,发布了多款全新升级的模态AI
    的头像 发表于 05-16 09:28 445次阅读

    OpenAI的AI搜索也要来了,但我们需要这么AI搜索

    OpenAI要做AI搜索挑战谷歌这件事已经传了很久,传说中的SearchGPT似乎真的要来了。据软件开发者TiborBlaho爆料,OpenAI的AI搜索产品Sonic-SNC(Sea
    的头像 发表于 05-10 08:05 348次阅读
    OpenAI的<b class='flag-5'>AI</b><b class='flag-5'>搜索</b>也要来了,但我们需要这么<b class='flag-5'>多</b><b class='flag-5'>AI</b><b class='flag-5'>搜索</b>么

    李未可科技正式推出WAKE-AI模态AI大模型

    李未可科技模态 AI 大模型正式发布,积极推进 AI 在终端的场景应用   4月18日,2024中国生成式
    发表于 04-18 17:01 592次阅读
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b><b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>大模型

    AI快讯:华为助力金融行业加速拥抱AI 马斯克xAI 展示首个模态模型

    AI快讯:华为助力金融行业加速拥抱AI 马斯克xAI 展示首个模态模型 小编给大家汇总一下近期的AI资讯。 华为助力金融行业加速拥抱
    发表于 04-15 12:32 407次阅读

    谷歌推出模态VLOGGER AI

    谷歌最新推出的VLOGGER AI技术引起了广泛关注,这项创新的模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容,VLOGGER AI就能让图
    的头像 发表于 03-22 10:45 835次阅读

    MWC2024:高通推出全新AI Hub及前沿模态大模型

    2024年世界移动通信大会(MWC)上,高通再次展现其技术领导力,通过发布全新的高通AI Hub和展示前沿的模态大模型技术,推动了5G和AI技术的融合创新。
    的头像 发表于 02-26 16:59 1256次阅读

    阿里巴巴推出自主模态AI代理MobileAgent

    阿里巴巴最近推出了一款名为MobileAgent的自主模态AI代理,这款产品模拟人类操作手机,并采用纯视觉解决方案,无需任何系统代码。
    的头像 发表于 02-04 10:34 1038次阅读