0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解大型语言模型 (LLM) 领域中的25个关键术语

颖脉Imgtec 2024-05-10 08:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1. LLM(大语言模型)

大型语言模型 (LLMs) 是先进的人工智能系统,经过大量文本数据集的训练,可以理解和生成类似人类的文本。他们使用深度学习技术以上下文相关的方式处理和生成语言。OpenAI的GPT系列、Google的Gemini、Anthropic AI的Claude、Meta的Llama模型等LLMs的发展,标志着自然语言处理领域的重大进步。


2. 训练

训练是指通过将语言模型暴露于大型数据集来教导语言模型理解和生成文本。该模型学习预测序列中的下一个单词,并通过调整其内部参数随着时间的推移提高其准确性。这个过程是开发任何处理语言任务的人工智能的基础。


3. 微调

微调是在较小的特定数据集上进一步训练(或调整)预训练语言模型以专门针对特定领域或任务的过程。这使得模型能够更好地执行原始训练数据中未广泛涵盖的任务。


4. 参数

神经网络(包括LLMs)的背景下,参数是从训练数据中学习的模型架构的可变部分。参数(如神经网络中的权重)在训练期间进行调整,以减少预测输出和实际输出之间的差异。


5. 矢量

机器学习中,向量是以算法可以处理的格式表示数据的数字数组。在语言模型中,单词或短语被转换为向量,通常称为嵌入,它捕获模型可以理解和操作的语义。


6. 嵌入

嵌入是文本的密集向量表示,其中熟悉的单词在向量空间中具有相似的表示。这项技术有助于捕获单词之间的上下文和语义相似性,这对于机器翻译和文本摘要等任务至关重要。


7. 标记化标记化是将文本分割成多个片段,称为标记,可以是单词、子词或字符。这是使用语言模型处理文本之前的初步步骤,因为它有助于处理各种文本结构和语言。


8. Transformer

Transformer 是神经网络架构,它依赖于自注意力机制来不同地权衡输入数据不同部分的影响。这种架构对于许多自然语言处理任务非常有效,并且是大多数现代 LLMs 的核心。


9. 注意力机制

神经网络中的注意力机制使模型能够在生成响应的同时专注于输入序列的不同部分,反映了人类注意力在阅读或听力等活动中的运作方式。这种能力对于理解上下文和产生连贯的响应至关重要。


10. 推理

推理是指使用经过训练的模型进行预测。在 LLMs 的上下文中,推理是指模型使用在训练期间学到的知识基于输入数据生成文本。这是LLMs实现实际应用的阶段。


11. 温度

在语言模型采样中,温度是一个超参数,它通过在应用 softmax 之前缩放 logits 来控制预测的随机性。较高的温度会产生更多的随机输出,而较低的温度会使模型的输出更具确定性。


12. 频率参数

语言模型中的频率参数根据标记的出现频率来调整标记的可能性。该参数有助于平衡常见词和稀有词的生成,影响模型在文本生成中的多样性和准确性。


13. 取样

语言模型上下文中的采样是指根据概率分布随机选择下一个单词来生成文本。这种方法允许模型生成各种且通常更具创意的文本输出。


14. Top-k 采样

Top-k 采样是一种技术,其中模型对下一个单词的选择仅限于根据模型的预测的 k 个最可能的下一个单词。此方法减少了文本生成的随机性,同时仍然允许输出的可变性。


15. RLHF(人类反馈强化学习)

根据人类反馈进行强化学习是一种根据人类反馈而不仅仅是原始数据对模型进行微调的技术。这种方法使模型的输出与人类的价值观和偏好保持一致,从而显着提高其实际有效性。


16. 解码策略

解码策略决定了语言模型在生成过程中如何选择输出序列。策略包括贪婪解码(在每一步中选择最有可能的下一个单词)和波束搜索(通过同时考虑多种可能性来扩展贪婪解码)。这些策略显着影响输出的一致性和多样性。


17. 语言模型提示

语言模型提示涉及设计指导模型生成特定类型输出的输入(或提示)。有效的提示可以提高问题回答或内容生成等任务的表现,而无需进一步培训。


18. Transformer-XL

Transformer-XL 扩展了现有的 Transformer 架构,能够学习超出固定长度的依赖关系,而不会破坏时间一致性。这种架构对于涉及长文档或序列的任务至关重要。


19. 掩码语言建模(MLM)

掩码语言建模需要在训练期间屏蔽某些输入数据段,促使模型预测隐藏的单词。该方法构成了 BERT 等模型的基石,利用 MLM 来增强预训练效果。


20. 序列到序列模型(Seq2Seq)

Seq2Seq 模型旨在将序列从一个域转换为另一个域,例如将文本从一种语言翻译或将问题转换为答案。这些模型通常涉及编码器和解码器。


21. 生成式预训练变压器(GPT)

Generative Pre-trained Transformer 是指 OpenAI 设计的一系列语言处理 AI 模型。GPT 模型使用无监督学习进行训练,根据输入生成类似人类的文本。


22. 困惑度

困惑度衡量概率模型对给定样本的预测准确性。在语言模型中,困惑度的降低表明测试数据的预测能力更强,通常与更流畅、更精确的文本生成相关。


23. 多头注意力

多头注意力是 Transformer 模型中的一个组件,使模型能够同时关注不同位置的各种表示子空间。这增强了模型动态关注相关信息的能力。


24. 上下文嵌入

上下文嵌入是考虑单词出现的上下文的单词表示。与传统的嵌入不同,这些嵌入是动态的,并根据周围的文本而变化,提供更丰富的语义理解。


25. 自回归模型

语言建模中的自回归模型根据序列中先前的单词来预测后续单词。这种方法是 GPT 等模型的基础,其中每个输出单词都成为下一个输入,从而促进连贯的长文本生成。

来源:自由坦荡的湖泊AI、海豚实验室

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1819

    文章

    50289

    浏览量

    266826
  • 语言模型
    +关注

    关注

    0

    文章

    573

    浏览量

    11341
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    解读大型语言模型的偏见

    在一项新的研究中,研究人员发现了LLM中某种偏见的根本原因,为更准确、更可靠的AI系统铺平了道路。研究表明,大型语言模型LLM)往往倾向于
    的头像 发表于 04-15 14:44 538次阅读
    解读<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的偏见

    什么是大模型,智能体...?大模型100问,快速全面了解

    一、概念篇1.什么是大模型?大模型是指参数规模巨大(通常达到数十亿甚至万亿级别)、使用海量数据训练而成的人工智能模型。2.什么是大语言模型
    的头像 发表于 02-02 16:36 1115次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面<b class='flag-5'>了解</b>!

    LLM推理模型是如何推理的?

    这篇文章《(How)DoReasoningModelsReason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键
    的头像 发表于 01-19 15:33 671次阅读
    <b class='flag-5'>LLM</b>推理<b class='flag-5'>模型</b>是如何推理的?

    一文了解Mojo编程语言

    CPU、GPU 和其他加速器的支持,简化了并行编程模型。 渐进式类型系统 结合静态类型检查和类型推导,既保证编译时安全性,又保留动态类型的灵活性。 应用场景 AI 与机器学习 用于训练大型模型和实时推理
    发表于 11-07 05:59

    DeepSeek模型如何在云服务器上部署?

    随着大型语言模型LLM)的应用日益普及,许多开发者和企业希望将像DeepSeek这样的优秀模型部署到自己的云服务器上,以实现私有化、定制化
    的头像 发表于 10-13 16:52 1119次阅读

    广和通发布端侧情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化
    的头像 发表于 09-26 13:37 2011次阅读

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    通过硬件算力优化与软件栈协同,将视觉编码、语言推理、对话管理三大核心能力封装为可落地的工程方案,而本文将聚焦其多轮对话的部署全流程,拆解从模型加载到交互推理的每一关键环节。 RK
    发表于 09-05 17:25

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3599次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>LLM</b>原理

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU多模态部署评测

    演示 结论 一、基本介绍端侧 LLM 模型与云端 LLM端侧小型语言模型(SLM)与传统云端大型
    发表于 08-29 18:08

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    了精准的方言及小语种大语言模型 (LLM)。此举成功解决了数据稀缺、语言复杂及计算效率等挑战,为全球数以百万计、缺乏数字化资源的语言使用者提
    的头像 发表于 08-20 14:21 1008次阅读

    利用自压缩实现大型语言模型高效缩减

    随着语言模型规模日益庞大,设备端推理变得越来越缓慢且耗能巨大。一直接且效果出人意料的解决方案是剪除那些对任务贡献甚微的完整通道(channel)。我们早期的研究提出了一种训练阶段的方法——自压
    的头像 发表于 07-28 09:36 647次阅读
    利用自压缩实现<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>高效缩减

    欧洲借助NVIDIA Nemotron优化主权大语言模型

    NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI。
    的头像 发表于 06-12 15:42 1370次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace
    的头像 发表于 06-12 15:37 2049次阅读
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS应用的最佳实践

    LM Studio使用NVIDIA技术加速LLM性能

    随着 AI 使用场景不断扩展(从文档摘要到定制化软件代理),开发者和技术爱好者正在寻求以更 快、更灵活的方式来运行大语言模型LLM)。
    的头像 发表于 06-06 15:14 1408次阅读
    LM Studio使用NVIDIA技术加速<b class='flag-5'>LLM</b>性能

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域大型语言模型LLM)的开发已经成为一热门话题。这些
    的头像 发表于 04-30 18:34 1436次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 <b class='flag-5'>LLM</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>