微软下架最新大语言模型WizardLM-2，缘因“幻觉测试疏忽”-电子发烧友网

微软下架最新大语言模型WizardLM-2，缘因“幻觉测试疏忽”

Microsoft于本周正式推出并开放源代码的新一代大规模语言模型WizardLM-2，据称其性能已超越GPT-4及Mistral。然而，在模型上线后不久，微软却在未经通知的情况下撤回了所有项目文档与代码，至今尚未恢复上线。

对此，微软技术人员在X平台发表声明，表示因对新模型发布流程不够了解，且忽略了幻觉测试环节，导致模型被紧急下线。目前，开发团队正在全力以赴进行测试，预计完成后将尽快重新上线。

尽管模型已暂时下线，但根据微软官方提供的模型介绍页面信息，WizardLM-2 8x22B被誉为当前最先进的模型，超越了Claude 3 Opus&Sonnet以及GPT-4等竞争对手，性能优于规模比其大10倍的开源模型。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6589

浏览量
104017
源代码

源代码

+关注

关注
96

文章
2945

浏览量
66725
语言模型

语言模型

+关注

关注
0

文章
519

浏览量
10265

【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

Agenerated，检索增强生成）与Agent（AI智能体）。本篇小枣君首先尝试用通俗易懂的语言帮助大家认识RAG这一重要应用形式。 01 了解大模型的“幻觉” 在了解为什么出现RAG之前，我们

发表于 12-04 10:50

PCB测试架和PCBA测试架的原理与用途

一站式PCBA智造厂家今天为大家讲讲PCBA测试架有什么用?PCB与PCBA测试架的原理和用途。在电子制造领域，PCBA测试架是确保电路板质

发表于 09-06 09:23 •375次阅读

TaD+RAG-缓解大模型“幻觉”的组合新疗法

TaD：任务感知解码技术（Task-aware Decoding，简称TaD），京东联合清华大学针对大语言模型幻觉问题提出的一项技术，成果收录于IJCAI2024。 RAG：检索增强生成技术

发表于 07-16 15:01 •2021次阅读

TaD+RAG-缓解大<b class='flag-5'>模型</b>“<b class='flag-5'>幻觉</b>”的组合新疗法

谷歌发布新型大语言模型Gemma 2

在人工智能领域，大语言模型一直是研究的热点。近日，全球科技巨头谷歌宣布，面向全球研究人员和开发人员，正式发布了其最新研发的大语言模型——Gemma

发表于 06-29 09:48 •430次阅读

阿里达摩院提出“知识链”框架，降低大模型幻觉

近日，阿里巴巴达摩院（湖畔实验室）携手新加坡南洋理工大学等研究机构，共同推出了大模型知识链（CoK）框架。该框架不仅可实时检索异构知识源，还能逐步纠正推理错误，有效提高了大模型在回答知识型问题时的准确率，并显著降低了所谓的“幻觉

发表于 05-10 11:46 •682次阅读

微软开发新AI语言模型MAI-1，挑战行业巨头

据最新消息，微软正积极开发一款新型AI语言模型MAI-1，以提升在快速发展的AI市场中的竞争力。

发表于 05-08 10:27 •449次阅读

微软准备推出全新人工智能语言模型

微软近期传出消息，正在秘密研发一款全新的人工智能语言模型，这款模型在规模上预计将具备与谷歌和OpenAI等业界巨头相抗衡的实力。据悉，这款新模型

发表于 05-08 09:30 •417次阅读

【大语言模型：原理与工程实践】大语言模型的应用

类任务上表现出色，甚至在零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务，类似于人类的系统2，如数字推理等。然而，随着参数量的增加，大语言模型在这类任务上并未出现质的飞

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的评测

计算和代码纠错等。这些场景覆盖日常生活和学习的多个方面，使得对话能力评测变得尤为复杂和关键。为了全面评估大语言模型在各种应用场景下的对话能力，研究人员和使用者需要一套综合性的评测框架。该框架主要包括评测

发表于 05-07 17:12

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预训练数据的需求也相应

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

向量可以随着任务更新、调整。这类语言模型一般分为静态词向量语言模型(如Word2vec、GloVe)和动态词向量

发表于 05-05 12:17

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的 NVIDIA GPU 上运行的大

发表于 04-28 10:36 •533次阅读

Meta公司的Llama2语言模型4项测试通过率低，幻觉率高

据了解，人工智能安全企业 DeepKeep日前发表了一份评估报告。报告指出，Meta公司旗下LlamA 2大型语言模型在13个风险评估类别中的表现仅为4项合格。

发表于 04-18 14:45 •447次阅读

世界数字技术院发布：生成式AI安全测试标准及大语言模型

据悉，上述两款标准主要针对大型模型与生成式AI应用领域的安全检测设定了新基准。参与制定工作的单位有OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等多家知名企业，其中，《大语言

发表于 04-17 16:51 •1071次阅读

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）

对于语言模型（LLM）幻觉，知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息，减少了LLM中出现幻觉的可能性。

发表于 02-22 14:13 •1184次阅读

搜索历史

微软下架最新大语言模型WizardLM-2，缘因“幻觉测试疏忽”

评论

【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

PCB测试架和PCBA测试架的原理与用途

TaD+RAG-缓解大模型“幻觉”的组合新疗法

谷歌发布新型大语言模型Gemma 2

阿里达摩院提出“知识链”框架，降低大模型幻觉

微软开发新AI语言模型MAI-1，挑战行业巨头

微软准备推出全新人工智能语言模型

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

Meta公司的Llama2语言模型4项测试通过率低，幻觉率高

世界数字技术院发布：生成式AI安全测试标准及大语言模型

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）