0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

了解大型语言模型 (LLM) 领域中的25个关键术语

颖脉Imgtec 2024-05-10 08:27 次阅读

1. LLM(大语言模型)

大型语言模型 (LLMs) 是先进的人工智能系统,经过大量文本数据集的训练,可以理解和生成类似人类的文本。他们使用深度学习技术以上下文相关的方式处理和生成语言。OpenAI的GPT系列、Google的Gemini、Anthropic AI的Claude、Meta的Llama模型等LLMs的发展,标志着自然语言处理领域的重大进步。


2. 训练

训练是指通过将语言模型暴露于大型数据集来教导语言模型理解和生成文本。该模型学习预测序列中的下一个单词,并通过调整其内部参数随着时间的推移提高其准确性。这个过程是开发任何处理语言任务的人工智能的基础。


3. 微调

微调是在较小的特定数据集上进一步训练(或调整)预训练语言模型以专门针对特定领域或任务的过程。这使得模型能够更好地执行原始训练数据中未广泛涵盖的任务。


4. 参数

神经网络(包括LLMs)的背景下,参数是从训练数据中学习的模型架构的可变部分。参数(如神经网络中的权重)在训练期间进行调整,以减少预测输出和实际输出之间的差异。


5. 矢量

机器学习中,向量是以算法可以处理的格式表示数据的数字数组。在语言模型中,单词或短语被转换为向量,通常称为嵌入,它捕获模型可以理解和操作的语义。


6. 嵌入

嵌入是文本的密集向量表示,其中熟悉的单词在向量空间中具有相似的表示。这项技术有助于捕获单词之间的上下文和语义相似性,这对于机器翻译和文本摘要等任务至关重要。


7. 标记化标记化是将文本分割成多个片段,称为标记,可以是单词、子词或字符。这是使用语言模型处理文本之前的初步步骤,因为它有助于处理各种文本结构和语言。


8. Transformer

Transformer 是神经网络架构,它依赖于自注意力机制来不同地权衡输入数据不同部分的影响。这种架构对于许多自然语言处理任务非常有效,并且是大多数现代 LLMs 的核心。


9. 注意力机制

神经网络中的注意力机制使模型能够在生成响应的同时专注于输入序列的不同部分,反映了人类注意力在阅读或听力等活动中的运作方式。这种能力对于理解上下文和产生连贯的响应至关重要。


10. 推理

推理是指使用经过训练的模型进行预测。在 LLMs 的上下文中,推理是指模型使用在训练期间学到的知识基于输入数据生成文本。这是LLMs实现实际应用的阶段。


11. 温度

在语言模型采样中,温度是一个超参数,它通过在应用 softmax 之前缩放 logits 来控制预测的随机性。较高的温度会产生更多的随机输出,而较低的温度会使模型的输出更具确定性。


12. 频率参数

语言模型中的频率参数根据标记的出现频率来调整标记的可能性。该参数有助于平衡常见词和稀有词的生成,影响模型在文本生成中的多样性和准确性。


13. 取样

语言模型上下文中的采样是指根据概率分布随机选择下一个单词来生成文本。这种方法允许模型生成各种且通常更具创意的文本输出。


14. Top-k 采样

Top-k 采样是一种技术,其中模型对下一个单词的选择仅限于根据模型的预测的 k 个最可能的下一个单词。此方法减少了文本生成的随机性,同时仍然允许输出的可变性。


15. RLHF(人类反馈强化学习)

根据人类反馈进行强化学习是一种根据人类反馈而不仅仅是原始数据对模型进行微调的技术。这种方法使模型的输出与人类的价值观和偏好保持一致,从而显着提高其实际有效性。


16. 解码策略

解码策略决定了语言模型在生成过程中如何选择输出序列。策略包括贪婪解码(在每一步中选择最有可能的下一个单词)和波束搜索(通过同时考虑多种可能性来扩展贪婪解码)。这些策略显着影响输出的一致性和多样性。


17. 语言模型提示

语言模型提示涉及设计指导模型生成特定类型输出的输入(或提示)。有效的提示可以提高问题回答或内容生成等任务的表现,而无需进一步培训。


18. Transformer-XL

Transformer-XL 扩展了现有的 Transformer 架构,能够学习超出固定长度的依赖关系,而不会破坏时间一致性。这种架构对于涉及长文档或序列的任务至关重要。


19. 掩码语言建模(MLM)

掩码语言建模需要在训练期间屏蔽某些输入数据段,促使模型预测隐藏的单词。该方法构成了 BERT 等模型的基石,利用 MLM 来增强预训练效果。


20. 序列到序列模型(Seq2Seq)

Seq2Seq 模型旨在将序列从一个域转换为另一个域,例如将文本从一种语言翻译或将问题转换为答案。这些模型通常涉及编码器和解码器。


21. 生成式预训练变压器(GPT)

Generative Pre-trained Transformer 是指 OpenAI 设计的一系列语言处理 AI 模型。GPT 模型使用无监督学习进行训练,根据输入生成类似人类的文本。


22. 困惑度

困惑度衡量概率模型对给定样本的预测准确性。在语言模型中,困惑度的降低表明测试数据的预测能力更强,通常与更流畅、更精确的文本生成相关。


23. 多头注意力

多头注意力是 Transformer 模型中的一个组件,使模型能够同时关注不同位置的各种表示子空间。这增强了模型动态关注相关信息的能力。


24. 上下文嵌入

上下文嵌入是考虑单词出现的上下文的单词表示。与传统的嵌入不同,这些嵌入是动态的,并根据周围的文本而变化,提供更丰富的语义理解。


25. 自回归模型

语言建模中的自回归模型根据序列中先前的单词来预测后续单词。这种方法是 GPT 等模型的基础,其中每个输出单词都成为下一个输入,从而促进连贯的长文本生成。

来源:自由坦荡的湖泊AI、海豚实验室

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1796

    文章

    47643

    浏览量

    240053
  • 语言模型
    +关注

    关注

    0

    文章

    538

    浏览量

    10339
  • LLM
    LLM
    +关注

    关注

    0

    文章

    298

    浏览量

    389
收藏 人收藏

    评论

    相关推荐

    小白学大模型:构建LLM关键步骤

    随着大规模语言模型LLM)在性能、成本和应用前景上的快速发展,越来越多的团队开始探索如何自主训练LLM模型。然而,是否从零开始训练一
    的头像 发表于 01-09 12:12 385次阅读
    小白学大<b class='flag-5'>模型</b>:构建<b class='flag-5'>LLM</b>的<b class='flag-5'>关键</b>步骤

    什么是LLMLLM在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域迎来了革命性的进步。其中,大型语言模型LLM
    的头像 发表于 11-19 15:32 858次阅读

    从零开始训练一语言模型需要投资多少钱?

    一,前言   在AI领域,训练一个大型语言模型LLM)是一耗时且复杂的过程。几乎每个做
    的头像 发表于 11-08 14:15 311次阅读
    从零开始训练一<b class='flag-5'>个</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>需要投资多少钱?

    如何训练自己的LLM模型

    训练自己的大型语言模型LLM)是一复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是训练
    的头像 发表于 11-08 09:30 756次阅读

    LLM技术对人工智能发展的影响

    随着人工智能技术的飞速发展,大型语言模型LLM)技术已经成为推动AI领域进步的关键力量。
    的头像 发表于 11-08 09:28 550次阅读

    使用LLM进行自然语言处理的优缺点

    自然语言处理(NLP)是人工智能和语言领域的一分支,它致力于使计算机能够理解、解释和生成人类语言
    的头像 发表于 11-08 09:27 616次阅读

    LLM模型推理加速的关键技术

    LLM大型语言模型)大模型推理加速是当前人工智能领域的一
    的头像 发表于 07-24 11:38 999次阅读

    富士通与Cohere合作,专注于开发和提供大型语言模型(LLM)

    富士通(Fujitsu)与总部位于多伦多与旧金山的顶尖安全及数据隐私人工智能企业Cohere Inc.携手宣布建立深度战略合作伙伴关系,共同致力于大型语言模型LLM)的创新与开发,旨
    的头像 发表于 07-16 16:55 536次阅读

    llm模型本地部署有用吗

    在当今的人工智能领域LLM(Large Language Model,大型语言模型)已经成为了一种非常受欢迎的技术。它们在自然
    的头像 发表于 07-09 10:14 608次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言
    的头像 发表于 07-09 09:59 729次阅读

    llm模型和chatGPT的区别

    LLM(Large Language Model)是指大型语言模型,它们是一类使用深度学习技术构建的自然语言处理(NLP)
    的头像 发表于 07-09 09:55 1295次阅读

    LLM模型的应用领域

    在本文中,我们将深入探讨LLM(Large Language Model,大型语言模型)的应用领域LL
    的头像 发表于 07-09 09:52 710次阅读

    什么是LLMLLM的工作原理和结构

    随着人工智能技术的飞速发展,大型语言模型(Large Language Model,简称LLM)逐渐成为自然语言处理(NLP)
    的头像 发表于 07-02 11:45 8830次阅读

    语言模型(LLM)快速理解

    自2022年,ChatGPT发布之后,大语言模型(LargeLanguageModel),简称LLM掀起了一波狂潮。作为学习理解LLM的开始,先来整体理解一下大
    的头像 发表于 06-04 08:27 1107次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    LLM之外的性价比之选,小语言模型

      电子发烧友网报道(文/周凯扬)大语言模型的风靡给AI应用创造了不少机会,无论是效率还是创意上,大语言模型都带来了前所未有的表现,这些大语言
    的头像 发表于 06-03 05:15 2310次阅读
    <b class='flag-5'>LLM</b>之外的性价比之选,小<b class='flag-5'>语言</b><b class='flag-5'>模型</b>