电子发烧友App

硬声App

0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

电子发烧友网>嵌入式技术>编程语言及工具>mlc-llm对大模型推理的流程及优化方案

mlc-llm对大模型推理的流程及优化方案

收藏

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

评论

查看更多

相关推荐

对比解码在LLM上的应用

为了改进LLM推理能力,University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明,所提方法能有效改进LLM推理能力。让我们走进论文一探究竟吧!
2023-09-21 11:37:55327

低比特量化技术如何帮助LLM提升性能

针对大语言模型 (LLM) 在部署过程中的性能需求,低比特量化技术一直是优化效果最佳的方案之一,本文将探讨低比特量化技术如何帮助 LLM 提升性能,以及新版 OpenVINO 对于低比特量化技术的支持。
2023-12-08 15:26:45553

AI算法在RZ/V芯片中的移植推理流程

之前文章已介绍了一些AI算法Demo的应用 ,我们提供从模型训练到RZ/V系列嵌入式端推理应用的完整流程。整体流程如下图所示。
2023-12-20 12:21:53592

使用基于Transformers的API在CPU上实现LLM高效推理

英特尔 Extension for Transformers是英特尔推出的一个创新工具包,可基于英特尔 架构平台,尤其是第四代英特尔 至强 可扩展处理器(代号 SapphireRapids,SPR)显著加速基于Transformers的大语言模型( LargeLanguageModel,LLM)。
2024-01-22 11:11:061822

优化模型与Lindo/Lingo优化软件

优化模型与Lindo/Lingo优化软件 优化模型简介 LINDO公司的主要软件产品及功能简介 LINDO软件的使用简介 LINGO软件的使用简介  建模与求解实例(结合软件使用)
2009-09-15 12:22:02

AscendCL快速入门——模型推理篇(上)

一、概述本文介绍了AscendCL模型推理相关知识,介绍了AscendCL接口加载离线模型,为离线模型准备数据结构以及调用离线模型进行推理的过程。简单来说,曻腾的AscendCL的推理工程可以问为
2023-08-24 11:04:14

Dllite_micro (轻量级的 AI 推理框架)

DLLite-Micro 是一个轻量级的 AI 推理框架,可以为 OpenHarmony OS 的轻量设备和小型设备提供深度模型推理能力DLLite-Micro 向开发者提供清晰、易上手的北向接口
2021-08-05 11:40:11

Flair的优化模型教程

工具篇Flair之优化模型教程
2020-04-29 10:09:10

Flash---SLC与MLC

很多资料归结出来的3点:1. 擦写寿命问题。SLC每个单元承受擦写次数是MLC单元的10倍2. 传输速度问题。未采用优化技术的MLC读写速度仅为SLC的1/2-1/33. 耗电量问题.相同生产工艺下
2015-03-16 21:07:59

HarmonyOS:使用MindSpore Lite引擎进行模型推理

使用 MindSpore Lite 推理引擎进行模型推理的通用开发流程。 基本概念 在进行开发前,请先了解以下概念。 张量 :它与数组和矩阵非常相似,是 MindSpore Lite 网络运算中的基本数
2023-12-14 11:41:13

Lite Actor:方舟Actor并发模型的轻量级优化

解决复杂任务的线程阻塞问题。所以,JS需要引入多线程任务支持。 Worker是较为典型的JS多线程解决方案,基于Actor并发模型实现,为JS创造多线程并发环境。如图3所示,在Worker的交互流程
2022-07-18 12:00:53

RKNN-Toolkit运行非 RKNN 模型时工具的使用流程是怎样的

RKNN-Toolkit运行非 RKNN 模型时工具的使用流程是怎样的?运行RKNN 模型时工具的使用流程是怎样的?两者有何不同?
2022-02-10 07:49:45

Unico上MLC的使用

Unico为ST可编程传感器提供了一个UI界面,方便用户设计/调试MLC功能• 在Unico选择了带MLC的器件(如LSM6DSOX)后,在GUI中会导入MLC的配置和调试窗口
2023-09-06 07:00:45

YOLOv5s算法在RK3399ProD上的部署推理流程是怎样的

YOLOv5s算法在RK3399ProD上的部署推理流程是怎样的?基于RK33RK3399Pro怎样使用NPU进行加速推理呢?
2022-02-11 08:15:55

k210可以采集传感器的数据进行模型推理吗?

k210可以采集传感器的数据进行模型推理吗?
2023-09-14 08:52:56

pytorch模型转为rknn后没有推理结果

使用rknn的api读取我的模型,进行转换api可以成功转换出rknn模型,但遇到的问题是:我使用测试数据调用rknn.inference进行推理,每一次的输出结果都为[array([nan, nan
2023-01-11 18:45:48

【大联大世平Intel®神经计算棒NCS2试用体验】使用Intel模型优化器(Model Optimizer)的机器学习理解和测评思路

Optimizer);2 通过模型优化器生成中间表达(IR),这里选择TensorFlow框架;3 如果选择以自然语言理解的BERT模型为例,利用生成的IR产生相应的推理结果,达到评测目的。下一篇评测就是具体使用模型优化器来完成具体的识别案例。
2020-07-22 22:56:39

【数学建模】器件功能测试方案优化设计

方案优化策略,并给出具体的测试方案。3. 如果还要考虑测试成本,请进一步优化你的测试方案。4. 如果测试方案要细化到器件的引脚,请根据器件连接及其引脚连接等数据,建立数学模型,设计测试方案优化策略
2016-05-22 11:13:32

【飞凌RK3568开发板试用体验】RKNN模型推理测试

研的人工智能协处理器NPU,并且提供了RKNN-Toolkit。今天就介绍一下如何使用RKNN模型进行推理应用程序开发。一、推理应用程序的基本流程RKNN 是 瑞芯微(Rockchip) NPU平台
2022-12-08 19:06:16

为什么无法使用POT优化Tensorflow (TF)或MXNet模型

无法使用 POT 优化 Tensorflow (TF) 或 MXNet 模型,以便在 英特尔凌动® 平台上使用 OpenVINO™ 工具套件进行推理。 运行 pot -h。 接收错误消息: 非法指令例外
2023-08-15 08:05:26

使用rk3588多npu推理模型模型推理时间还增加了,这怎么解释

使用rk3588多npu推理模型模型推理时间还增加了,这怎么解释
2023-11-05 18:22:42

压缩模型会加速推理吗?

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 将简单的 CNN 导入到 STM32L462RCT我发现压缩模型推理时间没有影响。aiRun 程序在 8
2023-01-29 06:24:08

在Linux上使用Arm NN分析和优化运行推理的机器学习应用程序的步骤

的示例是在 Arm 上运行 ML 推理的 Linux 应用程序。我们之前已经在MNIST 数据集上训练了一个神经网络 来识别手写数字。使用Arm NN和 Streamline,我们希望了解我们模型
2022-09-27 14:24:27

基于RKNN程序开发和模型转换的NPU简要说明

/16bit 运算,运算性能高达 3.0TOPS。相较于 GPU 作为 AI 运算单元的大型芯片方案,功耗不到 GPU 所需要的 1%。可直接加载 Caffe / Mxnet / TensorFlow 模型
2022-05-31 11:10:20

如何提高YOLOv4模型推理性能?

使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。 将 权重转换为 ONNX 文件,然后转换为中间表示 (IR)。 无法确定如何获得更好的推理性能。
2023-08-15 06:58:00

怎么利用Synphony HLS为ASIC和FPGA架构生成最优化RTL代码?

新思科技公司(Synopsys)目前推出该公司最新研发的Synphony HLS (High Level Synthesis)解决方案。该解决方案集成了M语言和基于模型的综合法,与 传统RTL流程
2019-08-13 08:21:49

求助,为什么将不同的权重应用于模型会影响推理性能?

生成两个 IR文件(相同的 .xml 文件,但不同的 .bin 文件) 具有不同重量的类似模型,以不同的 fps (27fps 和 6fps) 运行 更多样化的权重是否会影响 Myriad X 上的推理性能?
2023-08-15 07:00:25

汽车领域多学科优化设计解决方案--Optimus

以及更环保的设计方案。通过Optimus软件,集成了MapleSim建立的混合电动车仿真流程,结合试验设计、响应面模型功能和多目标优化功能,成功地将混合电动汽车燃油效率提升了21%,同时将行驶性能改善了15%。图5 Optimus集成MapleSim混合电动车仿真流程
2021-07-06 14:20:10

深度剖析OpenHarmony AI调度管理与推理接口

管理图 主要流程:任务推理创建流程:首先配置客户端sessionId,端配置clientId,由clientId和clientId组合生成唯一的transactionId,然后根据模型框架类型和推理网络
2022-03-25 11:15:36

物理综合与优化的优点有哪些?流程是怎样的?

物理综合与优化的优点有哪些物理综合与优化流程看了就知道物理综合与优化示例
2021-04-08 06:18:15

用tflite接口调用tensorflow模型进行推理

摘要本文为系列博客tensorflow模型部署系列的一部分,用于实现通用模型的部署。本文主要实现用tflite接口调用tensorflow模型进行推理。相关源码见链接引言本文为系列博客
2021-12-22 06:51:18

请问模型推理只用到了kpu吗?可以cpu,kpu,fft异构计算吗?

请问模型推理只用到了kpu吗?可以cpu,kpu,fft异构计算吗?
2023-09-14 08:13:24

请问SLC、MLC和TLC的差别是什么?

与读取,不过此技术受限于硅效率(Silicon efficiency)的问题,必须要由较先进的流程强化技术(Process enhancements),才能向上提升SLC制程技术。MLC
2018-06-21 14:57:19

轿车参数化分析模型的构造研究及应用

(35)§3.3.4 优化分析 (36)§3.4 早期车身开发的一般流程 (40)§3.4.1 早期车身开发的概述 (40)§3.4.2 结构构造方案的优选 (41)§3.4.3 车身结构概念的进一步
2009-04-16 13:40:51

针对Arm嵌入式设备优化的神经网络推理引擎

专门针对Arm嵌入式设备优化的神经网络推理引擎Tengine + HCL,不同人群的量身定制
2021-01-15 08:00:42

SA算法在基于模型推理入侵检测中的应用

鉴于模型推理的入侵检测方法,需要在庞大的审计记录空间中搜索巨量的攻击脚本子集中的最优值,对于这一NP类完全问题,提出了应用模拟退火算法。并建立了攻击检测的优化
2008-11-18 00:18:366

如何识别slc和mlc芯片及slc mlc区别

如何识别slc和mlc芯片及slc mlc区别 slc mlc区别:     MLC(Multi-Level-Cell)技术,由英特尔于1997
2008-07-17 10:01:565901

基于WfMC的协同设计流程模型

在协同设计流程中,以WfMC(国际工作流程管理参考模型)工作流程参考模型为基础,分为设计流程定义、设计流程运行与设计流程监控等3种机制。文中利用此模块化流程模型定义方法,
2012-05-08 15:25:4829

基于Tengine实现yolov4的cpu推理讲解

本期讲解便是基于 Tengine 实现 yolov4的 cpu推理。完成动机:主要是为了熟悉tengine的推理部署流程一、模型转换采用下面链接中yolov4的...
2020-12-15 00:19:50527

TensorFlow模型优化模型量化

就是用 int8 等更少位数的数据类型来代替 float32 表示模型的权重 (w) 和偏置 (b) 的过程,从而达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标。
2021-02-04 15:40:531790

一种基于机器学习的流簇大小推理模型

数据中心网络需要更加高效的推理模型提升流簇大小判断的准确性和敏感性。提岀了一种基于机器学习的流簇大小推理模型( Mlcoflow),利用极限学习杋(ELM)以最小训练误差为求解目标建立推理模型,并且使用不完全信息建模以提升敏感度。实验证
2021-04-02 11:38:1634

LTE簇优化流程和案例介绍

LTE簇优化流程和案例介绍。
2021-04-27 10:33:085

基于Tengine实现yolov4的cpu推理

本期讲解便是基于 Tengine 实现 yolov4的 cpu推理。完成动机:主要是为了熟悉tengine的推理部署流程一、模型转换采用下面链接中yolov4的...
2022-01-26 17:48:364

深度学习工程之道|MegEngine推理性能优化技术综述,CPU上极限加速

MegEngine「训练推理一体化」的独特范式,通过静态图优化保证模型精度与训练时一致,无缝导入推理侧,再借助工业验证的高效卷积优化技术...
2022-02-07 10:59:490

NVIDIA 助力 DeepRec 为 vivo 推荐业务实现高性能 GPU 推理优化

本案例中,vivo 人工智能推荐算法组自研的推荐服务平台,使用阿里巴巴开源大规模稀疏模型训练和预测引擎 DeepRec,在稀疏模型训练(稀疏功能、I/O 优化)和高性能推理框架层面,实现其搜广推各类
2023-01-18 00:55:01548

BLIP-2:下一代多模态模型的雏形

众所周知,NLP领域一直领先于CV领域的发展。得益于更丰富的语料库,NLP领域的已经拥有了一些具有初步推理能力模型的研究,特别是LLM模型的出现。
2023-03-02 13:54:421616

GTC 2023:多模态短视频模型推理优化方案解析

  多卡推理--流水线并行:将模型和数据切分,以流水线形式计算,提高GPU利用率。模型切分策略:依照各部分的计算时间和参数量设计。
2023-03-23 18:17:331920

重新审视Prompt优化问题,预测偏差让语言模型上下文学习更强

Prompt tuning 的关键思想是将任务特定的 embedding 注入隐藏层,然后使用基于梯度的优化来调整这些 embeddings。然而,这些方法需要修改模型的原始推理过程并且获得模型梯度,这在像 GPT-3 和 ChatGPT 这样的黑盒 LLM 服务中是不切实际的。
2023-04-03 14:16:25404

利用大语言模型做多模态任务

大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。
2023-05-10 16:53:15700

如何利用LLM做多模态任务?

大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此,现阶段,如何利用LLM做一些多模态任务还是有一定的研究价值的。
2023-05-11 17:09:16648

LLM性能的主要因素

目前主要的模型的参数 LLaMA系列是否需要扩中文词表 不同任务的模型选择 影响LLM性能的主要因素 Scaling Laws for Neural Language Models OpenAI的论文
2023-05-22 15:26:201146

如何利用LLM做多模态任务?

大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口
2023-05-22 15:57:33466

基准数据集(CORR2CAUSE)如何测试大语言模型(LLM)的纯因果推理能力

  因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣,但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM
2023-06-20 15:39:051221

基于Transformer的大型语言模型LLM)的内部机制

工作原理变得越来越重要。更好地理解这些模型是如何做出决策的,这对改进模型和减轻其故障(如幻觉或推理错误)至关重要。 众所周知,最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理LLM 对这些上下文的学习能力通常归功于 Transformer 架构,特别
2023-06-25 15:08:49987

基于一个完整的 LLM 训练流程

    在这篇文章中,我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练(Pretrain)、Tokenizer 训练、指令微调(Instruction Tuning)等环节。 文末
2023-06-29 10:08:591201

最新综述!当大型语言模型LLM)遇上知识图谱:两大技术优势互补

LLM 是黑箱模型,缺乏可解释性,因此备受批评。LLM 通过参数隐含地表示知识。因此,我们难以解释和验证 LLM 获得的知识。此外,LLM 是通过概率模型执行推理,而这是一个非决断性的过程。对于 LLM 用以得出预测结果和决策的具体模式和功能,人类难以直接获得详情和解释。
2023-07-10 11:35:001353

适用于各种NLP任务的开源LLM的finetune教程~

ChatGLM2-6b是清华开源的小尺寸LLM,只需要一块普通的显卡(32G较稳妥)即可推理和微调,是目前社区非常活跃的一个开源LLM
2023-07-24 09:04:221310

一个简单模型就让ChatGLM性能大幅提升 | 最“in”大模型

引言 自大语言模型 (LLM) 成为热点话题以来,涌现了一大批中文大语言模型并在优化平台中得到了积极部署。 ChatGLM 正是广受好评的主流中文 LLM 之一。 然而,由于 ChatGLM 模型
2023-08-19 11:15:10435

LibTorch-based推理引擎优化内存使用和线程池

LibTorch-based推理引擎优化内存使用和线程池
2023-08-31 14:27:09584

2.0优化PyTorch推理与AWS引力子处理器

2.0优化PyTorch推理与AWS引力子处理器
2023-08-31 14:27:09327

MLC-LLM的编译部署流程

MLC-LLM部署在各种硬件平台的需求,然后我就开始了解MLC-LLM的编译部署流程和RWKV World模型相比于MLC-LLM已经支持的Raven系列模型的特殊之处。 MLC-LLM的编译部署流程
2023-09-04 09:22:461567

检索增强LLM方案全面的介绍

分分享了 ChatGPT 这类模型是如何一步一步训练的,后半部分主要分享了 LLM 模型的一些应用方向,其中就对检索增强 LLM 这个应用方向做了简单介绍。
2023-09-08 16:39:55798

大语言模型LLM)预训练数据集调研分析

model 训练完成后,使用 instruction 以及其他高质量的私域数据集来提升 LLM 在特定领域的性能;而 rlhf 是 openAI 用来让model 对齐人类价值观的一种强大技术;pre-training dataset 是大模型在训练时真正喂给 model 的数据,从很多 paper 能看到一些观
2023-09-19 10:00:06506

从原理到代码理解语言模型训练和推理,通俗易懂,快速修炼LLM

要理解大语言模型LLM),首先要理解它的本质,无论预训练、微调还是在推理阶段,核心都是next token prediction,也就是以自回归的方式从左到右逐步生成文本。
2023-09-19 16:25:47517

TPU-MLIR量化敏感层分析,提升模型推理精度

背景介绍TPU-MLIR编译器可以将机器学习模型转换成算能芯片上运行的bmodel模型。由于浮点数的计算需要消耗更多的计算资源和存储空间,实际应用中往往采用量化后的模型(也称定点模型)进行推理。相比
2023-10-10 10:17:42479

Nvidia 通过开源库提升 LLM 推理性能

加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库,将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。 正如对相同硬件一轮又一轮改进
2023-10-23 16:10:19284

周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

由 CSDN 举办的 NVIDIA AI Inference Day - 大模型推理线上研讨会,将帮助您了解 NVIDIA 开源大型语言模型LLM推理加速库 TensorRT-LLM  及其功能
2023-10-26 09:05:02172

现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和优化最新的大语言模型(Large Language Models)的推理
2023-10-27 20:05:02477

知识图谱与大模型结合方法概述

;3)LLM+KG协同使用,主要用于知识表示和推理两个方面。该文综述了以上三个路线的代表性研究,探讨了未来可能的研究方向。 知识图谱(KG)和大语言模型LLM)都是知识的表示
2023-10-29 15:50:01527

如何使用MLC-LLM在A100/Mac M2上部署RWKV模型

每一秒大概可以解码8个token,我感觉速度勉强够用了。由于RWKV5迭代到了第5个版本,后续希望能支持RWKV5的模型,当然也可以寻求新的优化机会提升解码速度。
2023-10-29 16:39:21400

Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

 本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs,比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将部署12B
2023-11-01 17:48:42422

使用MLC-LLM支持RWKV-5推理的过程思考

LLM的理解比较有限,从代码实现的角度来说,RWKV的状态和KV Cache不同,不依赖序列长度,这让RWKV模型在各种长度下运行内存和运行速度都是趋于稳定的,所以我感觉工程价值是比基于Transformer架构比如Llama更好的,部署的性价比会天然更优。
2023-11-19 15:58:57501

英特尔助惠每医疗大模型方案在至强® 平台上实现双维优化

展开合作,在第四代英特尔 至强 可扩展处理器的基础上,以 BigDL-LLM 库和 OpenVINO 工具套件作为推理优化方案的左右手,双管齐下,打造高质量、低成本的医疗 AI 应用并获得了预期推广成果。 王实 CTO 北京惠每云科技有限公司 " 人工智能 (Artificial Intellig
2023-11-24 20:00:03379

澎峰科技发布大模型推理引擎PerfXLLM

自从2020年6月OpenAI发布chatGPT之后,基于 Transformer 网络结构的 语言大模型LLM) 引发了全世界的注意与追捧,成为了人工智能领域的里程碑事件。 但大模型推理所需
2023-11-25 15:35:01383

Long-Context下LLM模型架构全面介绍

随着ChatGPT的快速发展,基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路,并已应用于知识库、人机界面和动态代理等不同领域。然而,存在一个普遍
2023-11-27 17:37:36439

LLM真的能推理和规划吗?

在研究人员选择的模型中,GPT-3 davinci(非指令微调)、GPT-3 textdavinci-001(指令微调)和GPT-3 textdavinci-003(InstructGPT)都是以前观察到过涌现能力的模型。这一选择主要是出于模型可用性的考虑。
2023-11-30 09:45:30260

怎样使用Accelerate库在多GPU上进行LLM推理呢?

大型语言模型(llm)已经彻底改变了自然语言处理领域。随着这些模型在规模和复杂性上的增长,推理的计算需求也显著增加。
2023-12-01 10:24:52393

用上这个工具包,大模型推理性能加速达40倍

工具包中的LLM Runtime为诸多模型显著降低时延,且首个token和下一个token的推理速度分别提升多达40倍和2.68倍,还能满足更多场景应用需求。 英特尔  Extension
2023-12-01 20:40:03550

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

背景介绍 大语言模型正以其惊人的新能力推动人工智能的发展,扩大其应用范围。然而,由于这类模型具有庞大的参数规模,部署和推理的难度和成本极高,这一挑战一直困扰着 AI 领域。此外,当前存在大量支持模型
2023-12-04 20:25:01418

在线研讨会 | 大模型时代语音 AI 模型的训练、优化与应用

通过业界领先的技术,帮助企业能够快速部署定制化 AI 智能语音端到端流程。 2023 年 12 月 19 日和 21 日 晚间 ,来自 NVIDIA 和 Kaldi 项目的技术专家将做客 Datafun 社区直播间 ,为您介绍如何有针对性的在语音模型的训练、推理、部署全流程中进行加速和优化,内容精彩
2023-12-15 15:50:01208

一文详解LLM模型基本架构

LLM 中非常重要的一个概念是 Token,我们输入给 LLM 和它输出的都是 Token。Token 在这里可以看做语言的基本单位,中文一般是词或字(其实字也是词)。比如:”我们喜欢 Rust
2023-12-25 10:38:38651

优于10倍参数模型!微软发布Orca 2 LLM

微软发布 Orca 2 LLM,这是 Llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。
2023-12-26 14:23:16247

基于LLM的表格数据的大模型推理综述

面向表格数据的推理任务,在计算机领域,特别是自然语言处理(Natural Language Processing,NLP)领域的研究中扮演着重要角色[1]。该任务要求模型在给定一个或多个表格的情况下,按照任务要求,生成相应的结果作为答案(例如:表格问答、表格事实判断)。
2024-01-08 09:56:14357

安霸发布N1系列生成式AI芯片支持前端设备运行本地LLM应用

单颗 SoC 支持 1 至 340 亿参数的多模态大模型(Multi-Modal LLM推理,实现前端低功耗生成式 AI。
2024-01-09 15:19:33597

关于大模型在软件测试领域应用的全面综述

模型LLM)由于其卓越的自然语言理解、推理等能力,已经被应用于各种场景,取得了前所未有的效果。
2024-01-18 09:33:501154

2023年LLM模型研究进展

作为做LLM应用的副产品,我们提出了RLCD[11],通过同时使用正例和负例prompt,自动生成带标签的生成样本不需人工标注,然后可以接大模型微调,或者用于训练reward models
2024-01-19 13:55:33175

LLM推理加速新范式!推测解码(Speculative Decoding)最新综述

这个问题随着LLM规模的增大愈发严重。并且,如下左图所示,目前LLM常用的自回归解码(autoregressive decoding)在每个解码步只能生成一个token。这导致GPU计算资源利用率
2024-01-29 15:54:24255

100%在树莓派上执行的LLM项目

ChatGPT的人性口语化回复相信许多人已体验过,也因此掀起一波大型语言模型(Large Language Model, LLM)热潮,LLM即ChatGPT背后的主运作技术,但LLM运作需要庞大运算力,因此目前多是在云端(Cloud)上执行。
2024-02-29 16:29:59476

深度探讨VLMs距离视觉演绎推理还有多远?

通用大型语言模型LLM推理基准:研究者们介绍了多种基于文本的推理任务和基准,用于评估LLMs在不同领域(如常识、数学推理、常识推理、事实推理和编程)的性能。这些研究包括BIG-bench、HELM、SuperGLUE和LAMA等。
2024-03-19 14:32:5567

基于NVIDIA Megatron Core的MOE LLM实现和训练优化

本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型LLM)实现与训练优化上的创新工作。
2024-03-22 09:50:3750

已全部加载完成