大语言模型无损压缩方面超越PNG和FLAC-电子发烧友网

Google DeepMind 和 Meta 的研究人员发表论文《Language Modeling Is Compression》，他们发现 DeepMind 的大语言模型 Chinchilla 70B 在图像和音频的无损压缩上超过了 PNG 和 FLAC。

论文提到，Chinchilla 70B 能将 ImageNet 图像数据库中的图像无损压缩到原始大小 43.4%，超过了 PNG 算法的 58.5%。

Chinchilla 能将 LibriSpeech 音频数据集中的样本无损压缩到原始大小 16.4%，超过 FLAC 算法的 30.3%。

据介绍，Chinchilla 70B 主要是训练用于处理文本，但它在压缩其它类型的数据集上的效果也表现优异，甚至优于专门的算法。

下面的例子比较了 gzip 和 Chinchilla 在示例文本上的压缩效果。可以看到，gzip 的输出没有可读性。

编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

无损压缩

无损压缩

+关注

关注
0

文章
12

浏览量
8432
FLAC

FLAC

+关注

关注
0

文章
4

浏览量
8494
png

png

+关注

关注
0

文章
14

浏览量
4408
大模型

大模型

+关注

关注
2

文章
2314

浏览量
2454

原文标题：大模型在无损压缩方面超越PNG和FLAC

文章出处：【微信号：OSC开源社区，微信公众号：OSC开源社区】欢迎添加关注！文章转载请注明出处。

【BearPi-Pico H3863星闪开发板体验连载】LZO压缩算法移植

：无损压缩算法和有损压缩算法。压缩算法在无线通信中的应用可以显著提高数据传输效率和降低能耗，尤其是在资源受限的无线通信环境中。选择合适的压缩算法对于优化无线传输性能至关重要。二、L

发表于 11-10 21:45

压缩算法的类型和应用

压缩算法是一种通过减少数据量来节省存储空间或传输数据的技术。压缩算法可以分为两种类型：有损压缩和无损压缩。

发表于 10-21 13:50 •182次阅读

音频信号的无损压缩编码是什么

，如WAV、FLAC、APE等。 1. 音频信号的基本概念在讨论无损压缩编码之前，我们需要了解一些基本的音频信号概念。 1.1 音频信号的定义音频信号是描述声音波形的电信号。它可以通过模拟或数字方式表示。在数字音频中，音频信号通常

发表于 09-25 14:10 •297次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

今天来学习大语言模型在自然语言理解方面的原理以及问答回复实现。主要是基于深度学习和自然语言处理技术。大

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

的大语言模型设计技术人员阅读，主要包括大语言模型的优化方法、Agent系统调优以及模型的安全技术。展望篇分析了大

发表于 07-21 13:35

【大语言模型：原理与工程实践】大语言模型的应用

，它通过抽象思考和逻辑推理，协助我们应对复杂的决策。相应地，我们设计了两类任务来检验大语言模型的能力。一类是感性的、无需理性能力的任务，类似于人类的系统1，如情感分析和抽取式问答等。大语言

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的评测

在知识获取、逻辑推理、代码生成等方面的能力。这些评测基准包括语言建模能力、综合知识能力、数学计算能力、代码能力和垂直领域等多个维度。对于微调模型，对话能力的评测关注模型在对话任务中的全

发表于 05-07 17:12

【大语言模型：原理与工程实践】大语言模型的基础技术

全面剖析大语言模型的核心技术与基础知识。首先，概述自然语言的基本表示，这是理解大语言模型技术的前提。接着，详细介绍自然

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

。这一过程的不断迭代使大语言模型的语言理解和生成能力逐步提升。大语言模型在自然语言处理领域应用广

发表于 05-04 23:55

【RTC程序设计：实时音视频权威指南】音视频的编解码压缩技术

音视频所载有的信息在通过传输的时候就需要压缩编码。其中，文本压缩是指通过使用各种算法和技术，将文本数据表示为更紧凑的形式，以减少存储空间。霍夫曼编码是一种无损压缩算法，它可以根据字符出现

发表于 04-28 21:04

基于门控线性网络（GLN）的高压缩比无损医学图像压缩算法

实现基于门控线性网络（GLN）的高压缩比无损医学图像压缩算法，以提高医学图像存储和分发系统的效率。与“传统”的基于上下文的数据压缩算法相比，基于GLN的系统使用一组不同的上下文

发表于 04-08 10:29 •611次阅读

基于门控线性网络（GLN）的高<b class='flag-5'>压缩</b>比<b class='flag-5'>无损</b>医学图像<b class='flag-5'>压缩</b>算法

全球最强大模型易主，GPT-4被超越

近日，AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型，其中包括最强版Claude 3 Opus。据该公司称，Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面

发表于 03-05 09:58 •617次阅读

高性能无损数据解压缩FPGA IP，LZO无损数据解压缩IP

LZOAccel-D是一个无损数据解压缩引擎的FPGA硬件实现，兼容LZO 2.10标准。 Core接收压缩的输入数据块，产生解压缩后的数据块。Core分析数据块的头和尾，检查输入数

发表于 02-25 09:59 •283次阅读

高性能<b class='flag-5'>无损</b>数据解<b class='flag-5'>压缩</b>FPGA IP，LZO<b class='flag-5'>无损</b>数据解<b class='flag-5'>压缩</b>IP

OpenAI视频模型Sora的架构及应用场景

LDM 就是 Stable Diffusion 使用的模型架构。扩散模型的一大问题是计算需求大，难以拟合高分辨率图像。为了解决这一问题，实现 LDM时，会先训练一个几乎能无损压缩图像的自编码器，能把 512x512 的真实图像

发表于 02-20 15:13 •602次阅读

OpenAI视频<b class='flag-5'>模型</b>Sora的架构及应用场景

高性能无损数据压缩FPGA IP，LZO无损数据压缩IP

LZOAccel-C是一个无损数据压缩引擎的FPGA硬件实现，兼容LZO 2.10标准。 Core接收未压缩的输入数据块，产生压缩后的数据块。Core使用合适的头和尾封装了

发表于 01-25 13:39 •442次阅读

搜索历史

大语言模型无损压缩方面超越PNG和FLAC

评论