搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

深度学习自然语言处理

关注

文章：837 被阅读：213w 粉丝数：43 关注数：0 点赞数：5

高效大模型的推理综述

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源....

的头像

深度学习自然语言处理发表于 11-15 11:45 •538次阅读

什么是RAG，RAG学习和实践经验

高级的RAG能很大程度优化原始RAG的问题，在索引、检索和生成上都有更多精细的优化，主要的优化点会集....

的头像

深度学习自然语言处理发表于 04-24 09:17 •1047次阅读

什么是RAG，RAG学习和实践经验

MOE与MOT：提升LLM效能的关键策略比较

MoE 与 MoT：在专家混合中（左），每个令牌都被路由到不同的专家前馈层。在令牌混合（右）中，每组....

的头像

深度学习自然语言处理发表于 04-15 09:53 •946次阅读

MOE与MOT：提升LLM效能的关键策略比较

基于双级优化（BLO）的消除过拟合的微调方法

这篇论文试图解决的问题是大型预训练模型在下游任务中进行微调时出现的过拟合问题。尽管低秩适应（LoRA....

的头像

深度学习自然语言处理发表于 04-02 16:46 •737次阅读

基于双级优化（BLO）的消除过拟合的微调方法

自然语言常用的自回归解码方法

在选择k值时，较大的值会使生成的内容更具多样性，但可能会生成不合理的内容；较小的值则使生成的内容多样....

的头像

深度学习自然语言处理发表于 03-28 10:51 •836次阅读

斯坦福继Flash Attention V1和V2又推出Flash Decoding

斯坦福大学此前提出的FlashAttention算法，能够在BERT-large训练中节省15%，将....

的头像

深度学习自然语言处理发表于 03-13 15:23 •826次阅读

大模型微调开源项目全流程

对于所有“基座”（Base）模型，–template 参数可以是 default, alpaca, ....

的头像

深度学习自然语言处理发表于 03-13 14:56 •961次阅读

聊一聊Transformer中的FFN

NLP上估计会帮助reduce overfitting, improve generalizatio....

的头像

深度学习自然语言处理发表于 03-13 11:41 •1404次阅读

聊一聊Transformer中的FFN

LLM中的大规模激活

篇论文主要研究了大型语言模型（LLMs）中的一个现象，即在模型的隐藏状态中存在极少数激活值（acti....

的头像

深度学习自然语言处理发表于 03-01 11:38 •612次阅读

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）

对于语言模型（LLM）幻觉，知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一....

的头像

深度学习自然语言处理发表于 02-22 14:13 •1292次阅读

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（上）

向量数据库是一组高维向量的集合，用于表示实体或概念，例如单词、短语或文档。向量数据库可以根据实体或概....

的头像

深度学习自然语言处理发表于 02-22 14:07 •1216次阅读

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（上）

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta 发布的 LLaMA 2，是新的 sota 开源大型语言模型 (LLM)。LLaMA 2 代....

的头像

深度学习自然语言处理发表于 02-21 16:00 •1177次阅读

大模型系列：Flash Attention V2整体运作流程

基于1.1中的思想，我们在V2中将原本的内外循环置换了位置（示意图就不画了，基本可以对比V1示意图想....

的头像

深度学习自然语言处理发表于 02-21 11:38 •2135次阅读

大模型系列：Flash Attention V2整体运作流程

开发RAG管道过程中的12个痛点

准确解释用户查询以检索相关的结构化数据是困难的，特别是在面对复杂或模糊的查询、不灵活的文本到SQL转....

的头像

深度学习自然语言处理发表于 02-21 11:30 •720次阅读

开发RAG管道过程中的12个痛点

聊聊小公司如何做大模型

通过SFT、DPO、RLHF等技术训练了领域写作模型。实测下来，在该领域写作上，强于国内大多数的闭源....

的头像

深度学习自然语言处理发表于 02-21 11:28 •691次阅读

小红书搜索团队研究新框架：负样本在大模型蒸馏中的重要性

在思维链（CoT）提示的帮助下，大语言模型（LLMs）展现出强大的推理能力。然而，思维链已被证明是千....

的头像

深度学习自然语言处理发表于 01-30 10:37 •1106次阅读

小红书搜索团队研究新框架：负样本在大模型蒸馏中的重要性

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

这个问题随着LLM规模的增大愈发严重。并且，如下左图所示，目前LLM常用的自回归解码（autoreg....

的头像

深度学习自然语言处理发表于 01-29 15:54 •3110次阅读

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

大模型微调实践心得与认知深化

.通常CPT开始的阶段会出现一段时间的loss上升，随后慢慢收敛，所以学习率是一个很重要的参数，这很....

的头像

深度学习自然语言处理发表于 01-24 10:46 •1448次阅读

大语言模型事实性幻象的实验性分析

尽管大语言模型能力不断提升，但一个持续存在的挑战是它们具有产生幻象的倾向。本文构建了幻象评测基准Ha....

的头像

深度学习自然语言处理发表于 01-19 11:19 •519次阅读

大语言模型事实性幻象的实验性分析

深入了解RAG技术

这是任何RAG流程的最后一步——基于我们仔细检索的所有上下文和初始用户查询生成答案。最简单的方法可能....

的头像

深度学习自然语言处理发表于 01-17 11:36 •3378次阅读

什么是多模态？多模态的难题是什么？

单模态大模型，通常大于100M～1B参数。具有较强的通用性，比如对图片中任意物体进行分割，或者生成任....

的头像

深度学习自然语言处理发表于 01-17 10:03 •4764次阅读

什么是多模态？多模态的难题是什么？

如何从训练集中生成候选prompt 三种生成候选prompt的方式

这个“gradient”怎么得到的了呢，这是个啥玩意，怎么还有梯度？注意，注意。人家是带引号的！比喻....

的头像

深度学习自然语言处理发表于 01-12 11:29 •1131次阅读

如何从训练集中生成候选prompt 三种生成候选prompt的方式

大模型训练loss突刺原因和解决办法

PaLM和GLM130b之前的解决办法是找到loss spike之前最近的checkpoint，更换....

的头像

深度学习自然语言处理发表于 01-09 14:20 •1403次阅读

大模型训练loss突刺原因和解决办法

一文解析PPO算法原理

Reward Model的初始化：6B的GPT-3模型在多个公开数据（(ARC, BoolQ, Co....

的头像

深度学习自然语言处理发表于 01-09 12:12 •6000次阅读

深入浅出理解PagedAttention CUDA实现

vLLM 中，LLM 推理的 prefill 阶段 attention 计算使用第三方库 xform....

的头像

深度学习自然语言处理发表于 01-09 11:43 •1990次阅读

深入浅出理解PagedAttention CUDA实现

视觉模型weak-to-strong的实现

几天前，OpenAI「超级对齐」(Superalignment)团队发布了成立以来的首篇论文，声称开....

的头像

深度学习自然语言处理发表于 01-08 11:07 •480次阅读

视觉模型weak-to-strong的实现

搜索出生的百川智能大模型RAG爬坑之路总结

今天对百川的RAG方法进行解读，百川智能具有深厚的搜索背景，来看看他们是怎么爬RAG的坑的吧～

的头像

深度学习自然语言处理发表于 01-05 15:02 •1561次阅读

搜索出生的百川智能大模型RAG爬坑之路总结

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

我们都知道，OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7....

的头像

深度学习自然语言处理发表于 01-04 16:18 •725次阅读

8x7B MoE与Flash Attention 2结合，不到10行代码实现快速推理

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

近期的大语言模型（LLM）在自然语言理解和生成上展现出了接近人类的强大能力，远远优于先前的BERT等....

的头像

深度学习自然语言处理发表于 01-04 14:06 •515次阅读

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

大语言模型推断中的批处理效应

随着开源预训练大型语言模型（Large Language Model, LLM ）变得更加强大和开放....

的头像

深度学习自然语言处理发表于 01-04 12:32 •685次阅读

12 3 4 5 6 7 8 9 10 11 28 下一页