2024年6月14日,一场人工智能领域的顶级盛宴——“2024北京智源大会”,在享誉全球的中关村展示中心拉开了帷幕。这场会议引起了广泛关注,各路英豪齐聚一堂,聚焦于大模型在人工智能领域的未来发展趋势及相关重要议题进行深入探讨与交流。其中,零一万物首席执行官李开复先生,以及清华大学智能产业研究院院长张亚勤教授,共同担任本次大会的主持人,他们的观点和见解无疑为我们揭示了大模型在人工智能领域取得巨大成功背后的深层原因,同时也指出了大模型在发展过程中所面临的诸多挑战和难题。
李开复先生在会上表示,人工智能2.0是人类历史上最为伟大的科技革命之一,也是一次前所未有的平台革命。而大模型的崛起,正是得益于这个时代对于大规模数据处理和强大计算能力的需求。随着计算能力和数据量的不断增长,大模型的智慧也在不断提升,然而,这只是刚刚开始,我们尚未触碰到大模型智慧的极限。
然而,大模型在发展过程中也遇到了一系列挑战。例如,如果我们过分强调通过增加计算能力来推动大模型的进步,那么这可能会导致只有拥有大量GPU资源的企业和国家才能在这场竞争中脱颖而出。然而,值得注意的是,尽管在某些特定场景下,中国的大模型已经接近甚至超越了美国的大模型,但这并不意味着我们可以忽视算法和工程创新的协同推进。
除此之外,大模型还面临着记忆问题、窗口长度问题、幻觉问题等诸多挑战。然而,我们应该看到,随着全球众多优秀人才纷纷投身于这个领域,这些问题正在逐渐得到解决。因此,我们对于大模型的未来充满信心。
张亚勤教授则从大模型的“三个做得好”和“三个需要改进”两个角度出发,对大模型的现状进行了全面分析。他认为,大模型之所以能取得今天的成就,主要得益于规模定律的实现,以及对海量数据的有效利用和算力的大幅提升。同时,当前的扩散和转换架构也能够高效地利用算力和数据,从而形成了良性循环。至少在未来五年内,大模型仍然将是人工智能产业发展的主导方向。
构建大模型中,“ Token ”被视为底层基石的构成部分。无论是字词句段、音声图像、视频文件乃至自动化驾驶所依赖的激光雷达信号,亦或是生物学界探讨的蛋白质及细胞层面,无一例外地均可转化为一个个独立且抽象的“ Token ”。这些“ Token ”之间的训练、学习以及生成过程,无疑是整个大模型运作的核心所在,其运作模式与人体大脑内神经元的工作原理颇为相似,无论面临何种任务挑战,其基本运作机制始终保持不变。
如今的大模型,其通用性已不再局限于传统的文本处理领域,而是已经拓展至多模态领域,甚至具备了生成诸如蛋白质这类复杂结构的能力。更为重要的是,大模型在物理世界(例如具身智能)以及生物世界(例如生物智能)中同样具有广阔的应用前景。
针对当前阶段大模型所面临的主要问题,他指出,首要问题便是效率相对较低。尤其是大模型在计算效率方面的不足,与人类大脑的高效运作形成了鲜明的反差。尽管人类大脑仅由 860 亿个神经元组成,每个神经元又拥有数千个突触连接,但其所需能耗仅为 20 瓦,重量更是轻盈到不足三公斤;然而,GPT4 这样一个拥有万亿参数的模型,却需消耗大量的算力和能源,与人类大脑的效率相比,差距高达 1000 倍之巨。除此之外,人类大脑能够依据不同情境灵活调动各个区域的神经元,而大模型在每次接收一个问题时,都需要调用并激活几乎所有的参数。因此,如何借鉴人类大脑的计算策略,以期在降低计算能耗、提升效率方面取得突破性的进展,无疑是一个值得深入研究和探索的方向。
其次,大模型目前尚不能真正理解物理世界,相关的推理能力、透明度以及幻觉等问题仍然有待进一步深入研究。大模型在生成式表述与对真实世界的描绘之间依然存在着难以调和的矛盾。因此,我们亟待寻找一种方式,将生成式的概率大模型与现有的“第一性原理”或真实模型、知识图谱有机地融合起来。他预测,在未来五年之内,一种全新的架构有望应运而生,这种架构有望替代现行的 Transformer 和 Diffusion 模型。
最后,大模型在边界问题上的表现也不尽如人意。目前,大模型无法明确感知自身的“无知”之处,这正是我们当前需要解决的问题,也是大模型所面临的边界效应。
-
gpu
+关注
关注
28文章
4729浏览量
128901 -
人工智能
+关注
关注
1791文章
47208浏览量
238290 -
数据处理
+关注
关注
0文章
595浏览量
28557
发布评论请先 登录
相关推荐
评论