搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

深度学习自然语言处理

关注

文章：837 被阅读：213.3w 粉丝数：43 关注数：0 点赞数：5

LLM大模型训练Trick系列之拒绝采样

这个方法之所以有效，是因为均匀分布帮助我们将Mq(x)提供的“封包”缩放到p(x)的概率密度函数。另....

的头像

深度学习自然语言处理发表于 08-21 15:07 •2749次阅读

LLM大模型训练Trick系列之拒绝采样

一种针对LLMs简单有效的思维链解毒方法

考虑到强化学习[10]训练大语言模型的困难性，我们从语言建模的角度对大语言模型进行解毒。已有工作将解....

的头像

深度学习自然语言处理发表于 08-21 15:02 •570次阅读

一种针对LLMs简单有效的思维链解毒方法

检索增强的语言模型方法的详细剖析

本篇内容是对于ACL‘23会议上陈丹琦团队带来的Tutorial所进行的学习记录，以此从问题设置....

的头像

深度学习自然语言处理发表于 08-21 09:58 •1712次阅读

检索增强的语言模型方法的详细剖析

基于Transformer多模态先导性工作

多模态（Multimodality）是指在信息处理、传递和表达中涉及多种不同的感知模态或信息来源。这....

的头像

深度学习自然语言处理发表于 08-21 09:49 •895次阅读

基于Transformer多模态先导性工作

大型语言模型在关键任务和实际应用中的挑战

大型语言模型的出现极大地推动了自然语言处理领域的进步，但同时也存在一些局限性，比如模型可能会产生看似....

的头像

深度学习自然语言处理发表于 08-15 09:33 •1582次阅读

大型语言模型在关键任务和实际应用中的挑战

GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

该研究同时提出了一个全新任务，图像对比 VQA （difference VQA）：给定两张图片，回答....

的头像

深度学习自然语言处理发表于 08-09 15:36 •531次阅读

GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

关于领域大模型-训练Trick&落地的一点思考

现有大模型在预训练过程中都会加入书籍、论文等数据，那么在领域预训练时这两种数据其实也是必不可少的，主....

的头像

深度学习自然语言处理发表于 08-09 11:43 •1872次阅读

关于领域大模型-训练Trick&落地的一点思考

ToolLLM：促进大型语言模型掌握16000+真实世界的APIs

尽管开源大语言模型 (LLM) 及其变体（例如 LLaMA 和 Vicuna）取得了进步，但它们在执....

的头像

深度学习自然语言处理发表于 08-02 16:27 •774次阅读

ToolLLM：促进大型语言模型掌握16000+真实世界的APIs

爆火Llama 2一周请求下载超15万，有人开源了Rust实现版本

随着 Llama 2 的逐渐走红，大家对它的二次开发开始流行起来。前几天，OpenAI 科学家 Ka....

的头像

深度学习自然语言处理发表于 08-02 16:25 •689次阅读

爆火Llama 2一周请求下载超15万，有人开源了Rust实现版本

Focus-DETR：30%Token就能实现SOTA性能，效率倍增

目前 DETR 类模型已经成为了目标检测的一个主流范式。但 DETR 算法模型复杂度高，推理速度低，....

的头像

深度学习自然语言处理发表于 08-02 15:12 •866次阅读

Focus-DETR：30%Token就能实现SOTA性能，效率倍增

LLM的长度外推浅谈

苏神最早提出的扩展LLM的context方法，基于bayes启发得到的公式

的头像

深度学习自然语言处理发表于 07-28 17:37 •1962次阅读

大模型训练中RM分数越来越高，那训出来LLM的效果一定好吗？

如果你动手跑几次ppo的过程就发现了，大模型的强化学习非常难以训练，难以训练不仅仅指的是费卡，还是指....

的头像

深度学习自然语言处理发表于 07-26 15:45 •1869次阅读

大模型训练中RM分数越来越高，那训出来LLM的效果一定好吗？

HaluEval数据集的构建过程分析

最近，大语言模型（Large Language Models, LLMs）的快速发展带来了自然语言处....

的头像

深度学习自然语言处理发表于 07-24 09:08 •913次阅读

HaluEval数据集的构建过程分析

适用于各种NLP任务的开源LLM的finetune教程~

ChatGLM2-6b是清华开源的小尺寸LLM，只需要一块普通的显卡(32G较稳妥)即可推理和微调，....

的头像

深度学习自然语言处理发表于 07-24 09:04 •1763次阅读

适用于各种NLP任务的开源LLM的finetune教程~

张俊林：大语言模型带来的交互方式变革

在大模型出来之前，人和数据怎么发生关系？人不能直接与数据发生关系，需要通过一个中介，这个中介就是应用....

的头像

深度学习自然语言处理发表于 07-18 14:47 •985次阅读

张俊林：大语言模型带来的交互方式变革

单样本微调给ChatGLM2注入知识

LoRA微调是一种高效的融入学习算法。类似人类把新知识融入现有知识体系的学习过程。学习时无需新知识特....

的头像

深度学习自然语言处理发表于 07-18 14:44 •3105次阅读

单样本微调给ChatGLM2注入知识

RoPE可能是LLM时代的Resnet

通过线性插值RoPE扩张LLAMA context长度最早其实是在llamacpp项目中被人发现，有....

的头像

深度学习自然语言处理发表于 07-14 16:58 •603次阅读

最新综述！当大型语言模型（LLM）遇上知识图谱：两大技术优势互补

LLM 是黑箱模型，缺乏可解释性，因此备受批评。LLM 通过参数隐含地表示知识。因此，我们难以解释和....

的头像

深度学习自然语言处理发表于 07-10 11:35 •2095次阅读

最新综述！当大型语言模型（LLM）遇上知识图谱：两大技术优势互补

大模型微调样本构造的trick

现在chatglm2的代码针对这两个问题已经进行了改善，可以认为他就是典型的decoder-only....

的头像

深度学习自然语言处理发表于 07-10 11:32 •890次阅读

大模型微调样本构造的trick

X-RiSAWOZ: 高质量端到端多语言任务型对话数据集

对齐：我们提出了一种混合对齐策略，以确保实体在话语和信念状态中都能被替换为所需的翻译。具体而言，我们....

的头像

深度学习自然语言处理发表于 07-06 16:44 •838次阅读

X-RiSAWOZ: 高质量端到端多语言任务型对话数据集

武大+上交提出BatGPT：创新性采用双向自回归架构，可预测前后token

此外，BATGPT还采用了强化学习方法，从AI和人类反馈中学习，以进一步提高模型的对齐性能。这些方法....

的头像

深度学习自然语言处理发表于 07-06 16:40 •1480次阅读

武大+上交提出BatGPT：创新性采用双向自回归架构，可预测前后token

人大发表迄今为止最大最全的大模型综述

大语言模型目前已经成为学界研究的热点。我们统计了arXiv论文库中自2018年6月以来包含关键词"语....

的头像

深度学习自然语言处理发表于 07-06 16:36 •2612次阅读

人大发表迄今为止最大最全的大模型综述

Multi-CLS BERT：传统集成的有效替代方案

在 GLUE 和 SuperGLUE 数据集上进行了实验，证明了 Multi-CLS BERT 在提....

的头像

深度学习自然语言处理发表于 07-04 15:47 •810次阅读

Multi-CLS BERT：传统集成的有效替代方案

我们能否扩展现有的预训练 LLM 的上下文窗口

在大家不断升级迭代自家大模型的时候，LLM（大语言模型）对上下文窗口的处理能力，也成为一个重....

的头像

深度学习自然语言处理发表于 06-30 11:09 •687次阅读

我们能否扩展现有的预训练 LLM 的上下文窗口

单张消费级显卡微调多模态大模型

把大模型的训练门槛打下来！我们在单张消费级显卡上实现了多模态大模型（LaVIN-7B, LaVIN-....

的头像

深度学习自然语言处理发表于 06-30 10:43 •2527次阅读

单张消费级显卡微调多模态大模型

基于一个完整的 LLM 训练流程

在这篇文章中，我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练（Pretr....

的头像

深度学习自然语言处理发表于 06-29 10:08 •2072次阅读

基于一个完整的 LLM 训练流程

一种完全由LLM + 启发式搜索算法结合的TOT算法

今天分享一篇普林斯顿大学的一篇文章，Tree of Thoughts: Deliberate Pro....

的头像

深度学习自然语言处理发表于 06-29 10:06 •1680次阅读

一种完全由LLM + 启发式搜索算法结合的TOT算法

利用生成式AI进行法律研究

为了解决这一问题，本文提出了三个LLM模型——理解、经验和事实，将它们合成为一个组合模型。还引入了多....

的头像

深度学习自然语言处理发表于 06-27 16:58 •531次阅读

大模型如何快速构建指令遵循数据集

一、概述 1 Motivation 构造instruction data非常耗时耗力，常受限于质量，....

的头像

深度学习自然语言处理发表于 06-27 16:56 •3011次阅读

大模型如何快速构建指令遵循数据集

GLoRA：一种广义参数高效的微调方法

近年来，大规模深度神经网络的显著成就彻底改变了人工智能领域，在各种任务和领域展示了前所未有的性能。这....

的头像

深度学习自然语言处理发表于 06-27 16:53 •831次阅读

GLoRA：一种广义参数高效的微调方法

上一页 1 2 3 456 7 8 9 10 11 28 下一页