0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习自然语言处理

文章:837 被阅读:207.4w 粉丝数:41 关注数:0 点赞数:5

广告

LLM大模型训练Trick系列之拒绝采样

这个方法之所以有效,是因为均匀分布帮助我们将Mq(x)提供的“封包”缩放到p(x)的概率密度函数。另....
的头像 深度学习自然语言处理 发表于 08-21 15:07 2331次阅读
LLM大模型训练Trick系列之拒绝采样

一种针对LLMs简单有效的思维链解毒方法

考虑到强化学习[10]训练大语言模型的困难性,我们从语言建模的角度对大语言模型进行解毒。已有工作将解....
的头像 深度学习自然语言处理 发表于 08-21 15:02 511次阅读
一种针对LLMs简单有效的思维链解毒方法

检索增强的语言模型方法的详细剖析

  本篇内容是对于ACL‘23会议上陈丹琦团队带来的Tutorial所进行的学习记录,以此从问题设置....
的头像 深度学习自然语言处理 发表于 08-21 09:58 1663次阅读
检索增强的语言模型方法的详细剖析

基于Transformer多模态先导性工作

多模态(Multimodality)是指在信息处理、传递和表达中涉及多种不同的感知模态或信息来源。这....
的头像 深度学习自然语言处理 发表于 08-21 09:49 835次阅读
基于Transformer多模态先导性工作

大型语言模型在关键任务和实际应用中的挑战

大型语言模型的出现极大地推动了自然语言处理领域的进步,但同时也存在一些局限性,比如模型可能会产生看似....
的头像 深度学习自然语言处理 发表于 08-15 09:33 1502次阅读
大型语言模型在关键任务和实际应用中的挑战

GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

该研究同时提出了一个全新任务,图像对比 VQA (difference VQA):给定两张图片,回答....
的头像 深度学习自然语言处理 发表于 08-09 15:36 478次阅读
GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

关于领域大模型-训练Trick&落地的一点思考

现有大模型在预训练过程中都会加入书籍、论文等数据,那么在领域预训练时这两种数据其实也是必不可少的,主....
的头像 深度学习自然语言处理 发表于 08-09 11:43 1805次阅读
关于领域大模型-训练Trick&落地的一点思考

ToolLLM:促进大型语言模型掌握16000+真实世界的APIs

尽管开源大语言模型 (LLM) 及其变体(例如 LLaMA 和 Vicuna)取得了进步,但它们在执....
的头像 深度学习自然语言处理 发表于 08-02 16:27 728次阅读
ToolLLM:促进大型语言模型掌握16000+真实世界的APIs

爆火Llama 2一周请求下载超15万,有人开源了Rust实现版本

随着 Llama 2 的逐渐走红,大家对它的二次开发开始流行起来。前几天,OpenAI 科学家 Ka....
的头像 深度学习自然语言处理 发表于 08-02 16:25 652次阅读
爆火Llama 2一周请求下载超15万,有人开源了Rust实现版本

Focus-DETR:30%Token就能实现SOTA性能,效率倍增

目前 DETR 类模型已经成为了目标检测的一个主流范式。但 DETR 算法模型复杂度高,推理速度低,....
的头像 深度学习自然语言处理 发表于 08-02 15:12 805次阅读
Focus-DETR:30%Token就能实现SOTA性能,效率倍增

LLM的长度外推浅谈

苏神最早提出的扩展LLM的context方法,基于bayes启发得到的公式
的头像 深度学习自然语言处理 发表于 07-28 17:37 1913次阅读
LLM的长度外推浅谈

大模型训练中RM分数越来越高,那训出来LLM的效果一定好吗?

如果你动手跑几次ppo的过程就发现了,大模型的强化学习非常难以训练,难以训练不仅仅指的是费卡,还是指....
的头像 深度学习自然语言处理 发表于 07-26 15:45 1801次阅读
大模型训练中RM分数越来越高,那训出来LLM的效果一定好吗?

HaluEval数据集的构建过程分析

最近,大语言模型(Large Language Models, LLMs)的快速发展带来了自然语言处....
的头像 深度学习自然语言处理 发表于 07-24 09:08 861次阅读
HaluEval数据集的构建过程分析

适用于各种NLP任务的开源LLM的finetune教程~

ChatGLM2-6b是清华开源的小尺寸LLM,只需要一块普通的显卡(32G较稳妥)即可推理和微调,....
的头像 深度学习自然语言处理 发表于 07-24 09:04 1714次阅读
适用于各种NLP任务的开源LLM的finetune教程~

张俊林:大语言模型带来的交互方式变革

在大模型出来之前,人和数据怎么发生关系?人不能直接与数据发生关系,需要通过一个中介,这个中介就是应用....
的头像 深度学习自然语言处理 发表于 07-18 14:47 939次阅读
张俊林:大语言模型带来的交互方式变革

单样本微调给ChatGLM2注入知识

LoRA微调是一种高效的融入学习算法。类似人类把新知识融入现有知识体系的学习过程。学习时无需新知识特....
的头像 深度学习自然语言处理 发表于 07-18 14:44 3043次阅读
单样本微调给ChatGLM2注入知识

RoPE可能是LLM时代的Resnet

通过线性插值RoPE扩张LLAMA context长度最早其实是在llamacpp项目中被人发现,有....
的头像 深度学习自然语言处理 发表于 07-14 16:58 560次阅读

最新综述!当大型语言模型(LLM)遇上知识图谱:两大技术优势互补

LLM 是黑箱模型,缺乏可解释性,因此备受批评。LLM 通过参数隐含地表示知识。因此,我们难以解释和....
的头像 深度学习自然语言处理 发表于 07-10 11:35 2011次阅读
最新综述!当大型语言模型(LLM)遇上知识图谱:两大技术优势互补

大模型微调样本构造的trick

现在chatglm2的代码针对这两个问题已经进行了改善,可以认为他就是典型的decoder-only....
的头像 深度学习自然语言处理 发表于 07-10 11:32 833次阅读
大模型微调样本构造的trick

X-RiSAWOZ: 高质量端到端多语言任务型对话数据集

对齐:我们提出了一种混合对齐策略,以确保实体在话语和信念状态中都能被替换为所需的翻译。具体而言,我们....
的头像 深度学习自然语言处理 发表于 07-06 16:44 782次阅读
X-RiSAWOZ: 高质量端到端多语言任务型对话数据集

武大+上交提出BatGPT:创新性采用双向自回归架构,可预测前后token

此外,BATGPT还采用了强化学习方法,从AI和人类反馈中学习,以进一步提高模型的对齐性能。这些方法....
的头像 深度学习自然语言处理 发表于 07-06 16:40 1422次阅读
武大+上交提出BatGPT:创新性采用双向自回归架构,可预测前后token

人大发表迄今为止最大最全的大模型综述

大语言模型目前已经成为学界研究的热点。我们统计了arXiv论文库中自2018年6月以来包含关键词"语....
的头像 深度学习自然语言处理 发表于 07-06 16:36 2521次阅读
人大发表迄今为止最大最全的大模型综述

Multi-CLS BERT:传统集成的有效替代方案

在 GLUE 和 SuperGLUE 数据集上进行了实验,证明了 Multi-CLS BERT 在提....
的头像 深度学习自然语言处理 发表于 07-04 15:47 758次阅读
Multi-CLS BERT:传统集成的有效替代方案

我们能否扩展现有的预训练 LLM 的上下文窗口

    在大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重....
的头像 深度学习自然语言处理 发表于 06-30 11:09 645次阅读
我们能否扩展现有的预训练 LLM 的上下文窗口

单张消费级显卡微调多模态大模型

把大模型的训练门槛打下来!我们在单张消费级显卡上实现了多模态大模型(LaVIN-7B, LaVIN-....
的头像 深度学习自然语言处理 发表于 06-30 10:43 2359次阅读
单张消费级显卡微调多模态大模型

基于一个完整的 LLM 训练流程

    在这篇文章中,我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练(Pretr....
的头像 深度学习自然语言处理 发表于 06-29 10:08 1937次阅读
基于一个完整的 LLM 训练流程

一种完全由LLM + 启发式搜索算法结合的TOT算法

今天分享一篇普林斯顿大学的一篇文章,Tree of Thoughts: Deliberate Pro....
的头像 深度学习自然语言处理 发表于 06-29 10:06 1605次阅读
一种完全由LLM + 启发式搜索算法结合的TOT算法

利用生成式AI进行法律研究

为了解决这一问题,本文提出了三个LLM模型——理解、经验和事实,将它们合成为一个组合模型。还引入了多....
的头像 深度学习自然语言处理 发表于 06-27 16:58 489次阅读
利用生成式AI进行法律研究

大模型如何快速构建指令遵循数据集

一、概述 1 Motivation 构造instruction data非常耗时耗力,常受限于质量,....
的头像 深度学习自然语言处理 发表于 06-27 16:56 2913次阅读
大模型如何快速构建指令遵循数据集

GLoRA:一种广义参数高效的微调方法

近年来,大规模深度神经网络的显著成就彻底改变了人工智能领域,在各种任务和领域展示了前所未有的性能。这....
的头像 深度学习自然语言处理 发表于 06-27 16:53 761次阅读
GLoRA:一种广义参数高效的微调方法