0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI的“随机性”挑战:它们比人类更“不随机”?

颖脉Imgtec 2025-02-20 13:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你有没有想过,人类真的能做出完全随机的选择吗?答案可能出乎你的意料。事实上,人类天生就不擅长“随机”,我们总能在看似无序的事物中发现规律,甚至在本该随机的场景中创造出模式。这种“伪随机”行为,其实是一种独特的人类特质。最近,来自康奈尔大学探讨了大语言模型(LLMs)在随机性方面的表现。他们通过一个经典的实验——生成二进制随机序列,来观察这些模型是否能像人类一样“不随机”,或者是否能真正实现“随机”。

研究结果令人惊讶。研究者发现,GPT-4和Llama-3在生成随机序列时,不仅表现出人类的偏差,甚至还加剧了这些偏差。


真随机 与 伪随机

人类有一种奇妙的天赋——发现规律。我们总能在生活中找到各种模式:在咖啡的奶泡中看到人脸,在星空里描绘出星座,甚至因为忘记穿幸运衫而觉得勒布朗·詹姆斯投篮不中是自己的错。

然而,这种对规律的敏感也让我们在面对“随机性”时变得格外笨拙。比如,当你让一个人随机选择一个1到10之间的数字时,他们大概率会选择7;或者让他们在脑海中抛硬币,结果多半是正面。这些看似随机的选择,其实背后隐藏着可预测的规律。


抛硬币实验背后的秘密

从20世纪初开始,人类对随机性的研究就从未停止。早在1913年,Fernberger就指出,人类生成随机序列的行为是一个复杂而迷人的课题。此后,无数研究发现,人类生成的随机序列与真正的随机序列有着显著的差异。

我们通过一个经典的行为科学实验来研究这一问题:让人类或机器生成一系列随机结果,比如抛硬币的序列,然后将这些序列与真正的随机序列进行比较。简单来说,就是看看这些序列与“纯粹的随机性”有多大差距。


虚拟硬币实验

▎温度参数:AI的“随机性开关”

与人类不同,大语言模型有一个关键参数——温度(temperature)。温度决定了模型输出的多样性:温度越低,输出越一致;温度越高,输出越随机、越多样化。然而,当温度过高(比如超过1.5)时,模型的输出可能会变得混乱,甚至无法从中解析出硬币的正反面。因此,我们的实验温度范围设定在0到1.5之间。

1d96ccd2-ef49-11ef-9434-92fbcf53809c.png

当我们让AI连续抛20次硬币时,结果同样有趣。实验发现,所有模型在序列的第一次抛硬币中都倾向于选择“正面”,这与人类的行为高度一致。无论温度如何变化,这种“正面优先”的倾向始终存在。这不仅揭示了AI在随机性任务中继承了人类的偏差,还表明这些偏差在某些情况下可能被进一步放大。

▎AI的“第一印象”偏差

在我们的实验中,超过88%的AI生成的硬币序列以“正面”开始,这一比例远远高于人类数据。这表明AI在“第一印象”上继承了人类的偏差,并且表现得更加明显。尤其是Llama-3,它的偏差比GPT系列模型更强。GPT-4和GPT-3.5之间也存在差异,GPT-4通常表现出更少的偏差。

1da737f2-ef49-11ef-9434-92fbcf53809c.png

这种“第一印象”偏差不仅出现在硬币的正反面选择中,还出现在其他二元选择中,比如“真/假”或“A/B”。这可能暗示了语言中的“固定二元组”对AI的决策产生了影响。

▎AI的“平衡”偏差

在实验中,GPT-4和Llama-3生成的序列中,正面和反面的比例往往比随机分布更接近50%,甚至比人类生成的序列还要“平衡”。例如,在8次抛硬币的序列中,它们平均会有4次正面,这与人类的行为非常相似。不过,Llama-3在低温时表现出轻微的正面偏好,而GPT-3.5在低温时则表现出强烈的反面偏好,但在高温时会逐渐接近人类的分布。

1db0fce2-ef49-11ef-9434-92fbcf53809c.png

▎连续序列与N-gram模式人类在生成随机序列时,往往会过度切换正面和反面,认为这样看起来更“随机”。研究表明,人类序列的交替比例通常为60%,而真正的随机序列应该是50%。在AI实验中,这种“过度切换”的倾向被进一步放大。例如,在8次抛硬币的序列中,理论上应该平均有3.5次交替,但AI模型的交替次数普遍高于这个值。GPT-4在低温时几乎总是生成“正反交替”的序列,而Llama-3则倾向于生成“正反正反……”或“正反正正……”的模式。

1dee9d18-ef49-11ef-9434-92fbcf53809c.png

本文转自:Coggle数据科学

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41967

    浏览量

    303061
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11370
  • LLM
    LLM
    +关注

    关注

    1

    文章

    351

    浏览量

    1408
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    串行mram磁性随机存储器的工作原理与存储机制

    在存储器技术不断演进的今天,MRAM磁性随机存储器凭借其独特的非易失、高速读写与高耐久,正成为越来越多高端应用场景的理想选择。尤其是串行MRAM磁性随机存储器,通过精简的接口设计与
    的头像 发表于 03-30 16:27 331次阅读
    串行mram磁性<b class='flag-5'>随机</b>存储器的工作原理与存储机制

    论马斯克的预言:AI使人类边缘化

    当地时间3月11日,在“Abundance Summit”科技峰会上,马斯克谈及AI进展时表示,AI已经进入自我改进阶段,在超高量级AI面前,人类终将走向边缘化。以下是对这一预言的相关
    发表于 03-14 05:27

    硅臻正式推出QRNG全系列量子随机数发生器产品

    随机数其从物理本质上实现了真正不可预测、不可破解、不可复制的真随机性,成为构建未来可信数字基础设施的关键底层技术。
    的头像 发表于 03-10 16:24 486次阅读
    硅臻正式推出QRNG全系列量子<b class='flag-5'>随机</b>数发生器产品

    深度解析:为什么 OPC UA 通讯总是由于“时间偏差”随机断开?

    深度解析:为什么 OPC UA 通讯总是由于“时间偏差”随机断开?
    的头像 发表于 03-10 15:23 342次阅读
    深度解析:为什么 OPC UA 通讯总是由于“时间偏差”<b class='flag-5'>随机</b>断开?

    飞凌嵌入式ElfBoard-系统信息与资源之产生随机

    一、rand rand可在指定范围内生成随机数。1.头文件#include 2.函数原型int rand(void);3.参数无。4.返回值rand() 函数返回一个范围在 0 到 RAND_MAX
    发表于 01-22 08:59

    如何在LTspice仿真中实现伪随机数和真随机数的生成

    to reseed the MC generator(使用时钟重新设置MC生成器的随机种子)选项。文章探讨了伪随机数和真随机数之间的利弊权衡,同时比较了蒙特卡罗统计仿真与更有针对
    的头像 发表于 01-09 14:08 4946次阅读
    如何在LTspice仿真中实现伪<b class='flag-5'>随机</b>数和真<b class='flag-5'>随机</b>数的生成

    双口SRAM静态随机存储器存储原理

    在各类存储设备中,SRAM(静态随机存储器)因其高速、低功耗和高可靠,被广泛应用于高性能计算、通信和嵌入式系统中。其中,双口SRAM静态随机存储器凭借其独特的双端口设计,在高带宽和多任务场景中表现尤为出色,成为提升系统效率的重
    的头像 发表于 11-25 14:28 890次阅读

    UART通信中出现随机乱码怎么解决?

    UART 通信中出现随机乱码
    发表于 11-21 07:05

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    AI大家都很了解了吧;AGI是什么呢? AGI:通用人工智能,可以再各个应用领域都具备AI的处理能力。 AGI可以组成能够24小时连续工作的优秀员工队伍,他们拥有比人类更强的能力和领导力,能够
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和关联 AI驱动科学:研究和模拟人类思维和认识过程。 本章节作者为我们讲解了第五范式,介绍了科学发现的一般方法和流程等。一、科学发现的5个范式 第一范式:产生于公元1000年左右的阿拉伯世界和欧洲
    发表于 09-17 11:45

    随机数和伪随机数的区别

    随机数在当前程序运行环境中是一种常用参数,目前主要分为两种,伪随机数和真随机数,本期我们就来讲一下二者的区别。
    的头像 发表于 08-27 17:46 2992次阅读

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    任务。这套系统为艺术市场、教育行业和内容平台提供了一种实用的工具,有效应对AI生成内容带来的挑战。虽然有些识别会出错,但是还是值得继续优化以及探讨方案的可行
    发表于 08-21 13:59

    测量误差溯源:系统误差与随机误差的数学建模与分离方法

    ​** 引言​**​ 在现代科学实验和技术应用中,测量是基础环节,但不可避免的误差会扭曲真实数据。误差通常分为系统误差(恒定偏差)和随机误差(随机波动),理解其溯源和分离至关重要。系统误差源于设备
    的头像 发表于 07-25 09:36 1578次阅读

    蓝牙随机化RPA更新的重要和工作原理

    蓝牙™随机可解析私有地址(Bluetooth® Randomized RPA)更新功能已推出,该更新通过优化可解析私有地址的管理,提高了低功耗蓝牙设备的隐私和能效。本文将介绍蓝牙™随机化RPA更新的重要
    的头像 发表于 07-10 09:36 1286次阅读
    蓝牙<b class='flag-5'>随机</b>化RPA更新的重要<b class='flag-5'>性</b>和工作原理

    请问如何设置蓝牙静态随机地址?

    您好,我想实现蓝牙地址除了烧录其他场景保持不变,那么想问一下如何将蓝牙地址类型设置为静态随机地址? 我使用了 CYW20835。
    发表于 07-07 08:12