苹果发布开源多模态大语言模型Ferret

科技媒体 VentureBeat 报道称，苹果公司在 2023 年 10 月低调发布了一款名为 Ferret 的开源多模态大语言模型，这是苹果与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码和权重（仅限研究用途，不包含商业许可），但并未引起太多关注。

随着近期 Mistral 的开源 MoE 模型成为焦点，以及谷歌的 Gemini 模型即将在 Pixel Pro 上亮相，未来还将进入 Android 系统，越来越多人开始关注本地 LLMs 为小型设备提供支持的潜力。

近日，专注于医疗领域开源 AI 的欧洲非营利组织负责人 Bart de Witte 在 X 平台上分享了他的惊讶：“我之前竟然没发现这个。” 他表示，“苹果在 10 月份加入了开源 AI 圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺，巩固了它在多模态 AI 领域的领先地位…… 另外，我很期待有一天 Local Large Language Models (LLLMs) 能作为重新设计的 iOS 的一部分，在我的 iPhone 上运行。”

苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。

简单地说，该模型可以分析图像上绘制的区域，确定其中对用户查询有用的元素，并将其识别出来，在检测到的元素周围绘制一个边界框。然后，它就可以将识别出的元素用作查询的一部分，并以典型的方式作出响应。

例如，高亮显示图像中的动物图片并询问 LLM 这是什么动物，LLM 可以确定该动物的种类，并确定用户所指的是动物群中的某只动物。然后，它还可以利用图像中检测到的其他项目的上下文，提供进一步的回复。

GitHub：https://github.com/apple/ml-ferret
论文：https://arxiv.org/abs/2310.07704

Ferret 拥有 (7B, 13B) 两个版本，为了增强 Ferret 模型的能力苹果特别收集了一个 GRIT 数据集。它包含了 1.1M 个样本，这些样本包含了丰富的层次空间知识。

尽管苹果以往以其产品和技术的封闭性著称，但现在它通过发布开源 LLM 模型，正逐渐改变这一形象，展现出其在 AI 领域的活跃参与和创新精神。这不仅对苹果自身，也对整个 AI 领域来说，都是一个值得关注的重要发展方向。

VentureBeat 撰稿人 Ben Dickson 写道：“2023 年最让你意外的人工智能进展是什么？对我来说，是苹果发布了开源 LLMs（虽然是非商业许可）。” 他指出，苹果一贯以来是封闭系统、围墙花园开发、保密、严格的保密协议、发布极少细节、并为其产品申请每一项小的专利的代表。

审核编辑：黄飞

阅读全文

苹果(191369) 苹果(191369)
AI(263628) AI(263628)
大模型(810) 大模型(810)
LLM(229) LLM(229)

如何利用Transformers了解视觉语言模型

将模型称为 “视觉语言” 模型是什么意思？一个结合了视觉和语言模态的模型？但这到底是什么意思呢？

2023-03-03 09:49:37

665

“悟道3.0”系列大模型全面开源，有助于AI应用普及！

新阶段，此次发布的一系列成果包括“悟道·天鹰”（Aquila）语言大模型系列、天秤（FlagEval）开源大模型评测体系与开放平台、“悟道 · 视界”视觉大模型系列，以及一系列多模态模型成果。悟道3.0 全面开源意味着什么悟道·天鹰语言大模型是首

2023-06-14 00:06:00

1457

千亿参数多模态大模型，“紫东太初”规模化应用加速

、文本、图像等单模态大模型研究和应用的基础上，向多模态大模型攻关，并于2021年7月正式发布了全球首个千亿参数多模态大模型紫东太初。 2023年6月16日，中国科学院自动化研究所和武汉人工智能研究院发布紫东太初2.0。2023年8月，中科院

2023-12-08 00:09:00

1202

开源图形语言

有没有开源的Labview（类似的图形语言），而且跨平台的？？？

2013-11-03 10:40:36

开源指南针发布在即：估量有尺，开源有道

会议程如下：发布会将邀请来自业界的专家将分享 OSS Compass 综述起源、社区概况、治理结构、评估模型等，全面介绍 OSS Compass。南京大学教授学者将深入解读项目模型依据，剖析开源生态评估体系

2023-02-17 16:15:44

苹果发布了自家的第一款机器人，用来回收 iPhone

`苹果公司在周一的发布会上低调曝光了他们研制的第一款机器人—— Liam。这款机器人，主要是用于 iPhone 手机的回收。这是具体怎么做到的的？`

2016-09-02 10:53:45

苹果发布会什么时候举行

英国一家游戏网站PocketGamer今日放出一条令人为之一振的消息：苹果正在准备一场发布会，iPhone 5似乎要比预期提前到来。 PocketGamer声称，他们收到内部消息，10月5日将会

2011-09-18 23:27:39

苹果利用多种传感器制作模型可以帮助视障人士

苹果已经在考虑如何向视障人士提供帮助，它将利用多种传感器制作本地环境模型，然后利用触觉反馈告诉用户他们周围存在哪些物体。

2020-08-03 07:14:49

苹果明年春季发布回归小屏时代的第一款智能手机

苹果每年都会在秋季发布新产品，不过苹果以后可能会增加一个春季发布会。12月9日消息，据外媒报道，苹果在明年3月举行的发布会上将发布4英寸大小的iPhone 6c。此前一直流传苹果公司将回归小屏时代

2015-12-12 16:24:23

LMS Virtual Lab 流固模态分析

LMS Virtual Lab 流固模态分析的主要步骤：1、设置材料、属性、约束条件，进行结构有限元模态分析。注意：模态计算的频率范围不要太小，否则可能计算错误！2、对流体进行模态分析3、建立结构网格到流体网格的映射，再利用结构模态和流体模态进行流固耦合模态分析

2019-05-29 06:59:58

OpenHarmony开源大师兄新品发布会来啦！

倒计时！就在明天！大咖打call 第二弹！OpenHarmony开源大师兄新品发布会，6月30日10:00重磅开启。立即报名：OpenHarmony开源大师兄新品发布会

2022-06-29 13:59:54

labview 模态分析

用labview进行模态分析，有很多问题，望高手指点一二力锤激励信号+加速度传感器信号，请问下，labview什么控件可以计算系统的模态还是说仅仅两路信号是分析不了模态的。

2016-06-24 11:50:49

openDACS第一批开源EDA核心贡献者名单、openDACS V2.0版本在CCF Chip2022正式发布

基于芯片的版图数据，准确高效地仿真芯片的电磁辐射情况，为芯片的硅前电磁泄漏评估提供新的方法和手段。4、ALSO开源发布：基于多逻辑域的开源逻辑综合工具储著飞：宁波大学发布摘要:逻辑优化方法与逻辑函数

2022-08-15 14:11:17

中科院微电子汪令飞：介绍openDACS器件模型&抽取提取SIG，发布开源薄膜晶体管模型v1.0

器件模型&参数提取SIG组长，介绍了SIG总体情况，包括四个方面内容：SIG研究方向介绍技术趋势和相关业界产品开源目标与计划开源版本发布最后代表中国科学院微电子研究所，发布

2022-07-06 09:57:44

传苹果将在WWDC发布ARM架构Mac芯片

的不稳定性及其对苹果产品开发的影响，苹果芯片发布的时间可能会改变。　　在此次大会上，苹果还准备对iOS、iPadOS、tvOS和watchOS等其他操作系统进行更新，同时推出改进后的增强现实功能、与外部

2013-12-21 09:05:01

基于多传感器的多模型机动目标跟踪算法设计

　　摘要：多模型目标跟踪算法由于其独特的处理未知结构和可变参数的优点，已成为当前目标跟踪研究领域的一个重要方向。然而当今的多模型目标跟踪方法大都停留在理论层面，因此在实际应用层面上研究并设计多模型

2018-12-05 15:16:23

抗混淆滤波器怎么实现混合信号和多模态传感器调节？

一些传感器信号调节器用于处理多个传感元件的输出。这种处理过程通常由多模态、混合信号调节器完成，它可以同时处理数个传感元件的输出。本文对这类传感器信号调节器中抗混淆滤波器的工作情况进行详细分析。

2020-04-21 06:59:01

简单的模型进行流固耦合的模态分析

　　本次分享，对一个简单的模型进行流固耦合的模态分析，有限元科技小编主要给大家演示如何使用Hypermesh与Nastran对流固耦合的结构进行模态分析，以及了解声腔对结构模态的影响。　　深圳市

2020-07-07 17:15:39

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

2020-04-16 11:11:25

航空电子设备PCB组件的实验模态分析

，本文试图采用有限元分析（FEA）与实验模态分析（EMA）相结合的预试验分析技术来进行某航电设备PCB 组件（图1 所示）的动态特性分析，并建立了该PCB 组件的有限元动力学分析模型。　　1 有限元模态

2018-09-13 16:40:12

计算机视觉论文速览

AI视野·今日CS.CV 计算机视觉论文速览transformer、新模型、视觉语言模型、多模态、clip、视角合成

2021-08-31 08:46:46

请问改进的Ferret算法和目前常用的测量算法有哪些不同？

数字图像处理原理是什么？简单Ferret算法原理是什么？改进的Ferret算法原理有哪些步骤？改进的Ferret算法和目前常用的测量算法有哪些不同？

2021-04-15 06:58:37

鸿蒙原生应用元服务实战-发布时多设备选择注意事项

在可公开可获取DevEco Studio最新版本，Stage模型ArkTSAPI9开发元服务HarmonyOS4现不支持平板等;但是元服务在发布时是可选平板、智慧屏电视设备发布。如果开发人员与上架

2024-02-21 10:22:10

薄壳支架的模态分析

利用有限元理论，对某承受动态载荷产品中的关键支撑件——支架建立了有限元模型，并进行模态分析，计算了前六阶模态参数(固有频率和模态振型)。通过与试验模态分析的方法

2009-02-22 01:21:37

自然语言处理常用模型解析

自然语言处理常用模型使用方法一、N元模型二、马尔可夫模型以及隐马尔可夫模型及目前常用的自然语言处理开源项目/开发包有哪些？

2017-12-28 15:42:30

5382

OpenAI宣布，发布了7.74亿参数GPT-2语言模型

就在本周，OpenAI宣布，发布了7.74亿参数GPT-2语言模型，15.58亿的完整模型也有望于几个月内发布，并将GPT-2这6个月的进展情况在博客上和大家做了介绍，本文将为大家梳理。

2019-09-01 09:10:44

2704

百度研制知识增强的跨模态深度问答技术等在内的的应用系统

同时，百度还研制了知识增强的跨模态深度语义理解方法，通过知识关联跨模态信息，运用语言描述不同模态信息的语义，进而让机器实现从看清到看懂、从听清到听懂，即图像和语言、语音和语言的一体化理解。

2020-09-16 14:48:00

2005

OpenAI推出两套多模态人工智能系统模型

据外媒，知名机器学习公司OpenAI近日推出两套多模态人工智能系统模型DALL-E和CLIP，DALL-E可以基于文本直接生成图像，CLIP能够完成图像与文本类别的匹配。DALL-E可以将以自然语言

2021-01-07 11:13:55

2487

Transformer模型的多模态学习应用

随着Transformer在视觉中的崛起，Transformer在多模态中应用也是合情合理的事情，甚至以后可能会有更多的类似的paper。

2021-03-25 09:29:59

9836

基于层次注意力机制的多模态围堵情感识别模型

识别模型。在音频模态中加人频率注意力机制学习频域上下文信息，利用多模态注意力机制将视频特征与音频特征进行融合，依据改进的损失函数对模态缺失问题进行优化，提高模型的鲁棒性以及情感识别的性能。在公开数据集上的实

2021-04-01 11:20:51

可提高跨模态行人重识别算法精度的特征学习框架

化的问题，设计了模态间三元组损失及模态内三元组损失，以配合全局三元组损失进行模型训练。在改进困难三元组损失的基础上，首次在跨模态行人重识别模型中设计属性特征来提高模型的特征提取能力。最后，针对跨模态行亼重

2021-05-10 11:06:14

简述文本与图像领域的多模态学习有关问题

模型中的几个分支角度，简述文本与图像领域的多模态学习有关问题。 1. 引言近年来，计算机视觉和自然语言处理方向均取得了很大进展。而融合二者的多模态深度学习也越来越受到关注，在基于图像和视频的字幕生成、视觉问答（VQA）、

2021-08-26 16:29:52

6343

基于预训练视觉-语言模型的跨模态Prompt-Tuning

、新加坡国立大学链接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要预训练的视觉语言模型（VL-PTMs）在将自然语言融入图像数据中显示出有前景的能力，促进

2021-10-09 15:10:42

2926

ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法

来自：复旦DISC 引言本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含

2021-10-13 10:48:27

2230

支持Python和Java的BigCode开源轻量级语言模型

BigCode 是一个开放的科学合作组织，致力于开发大型语言模型。近日他们开源了一个名为 SantaCoder 的语言模型，该模型拥有 11 亿个参数

2023-01-17 14:29:53

692

谷歌提出PaLI：一种多模态大模型，刷新多个任务SOTA！

PaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "图像 + 语言" 任务。PaLI 的关键结构之一是重复使用大型单模态 backbone 进行语言和视觉建模，以迁移现有能力并降低训练成本。

2023-01-29 11:25:57

665

一个真实闲聊多模态数据集TikTalk

随着大量预训练语言模型在文本对话任务中的出色表现，以及多模态的发展，在对话中引入多模态信息已经引起了大量学者的关注。

2023-02-09 09:31:26

1166

中文多模态对话数据集

随着大量预训练语言模型在文本对话任务中的出色表现，以及多模态的发展，在对话中引入多模态信息已经引起了大量学者的关注。目前已经提出了各种各样的多模态对话数据集，主要来自电影、电视剧、社交媒体平台等

2023-02-22 11:03:01

842

微软多模态ChatGPT的常见测试介绍

研究者将一个基于 Transformer 的语言模型作为通用接口，并将其与感知模块对接。他们在网页规模的多模态语料库上训练模型，语料库包括了文本数据、任意交错的图像和文本、以及图像字幕对。

2023-03-13 11:23:00

697

GPT-4多模态模型发布，对ChatGPT的升级和断崖式领先

而且 GPT-4 是多模态的，同时支持文本和图像输入功能。此外，GPT-4 比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这也使得它的运行成本更高。

2023-03-17 10:31:07

2930

一套开源的大型语言模型（LLM）—— StableLM

对于任何没有额外微调和强化学习的预训练大型语言模型来说，用户得到的回应质量可能参差不齐，并且可能包括冒犯性的语言和观点。这有望随着规模、更好的数据、社区反馈和优化而得到改善。

2023-04-24 10:07:06

2168

利用大语言模型做多模态任务

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。

2023-05-10 16:53:15

701

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此，现阶段，如何利用LLM做一些多模态任务还是有一定的研究价值的。

2023-05-11 17:09:16

648

多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！

基于开源多模态模型 OpenFlamingo，作者使用公开数据集创建了各种视觉指令数据，包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外，还使用仅包含语言指令数据的语言模型组件进行了训练。

2023-05-12 09:55:03

834

邱锡鹏团队提出SpeechGPT：具有内生跨模态能力的大语言模型

虽然现有的级联方法或口语语言模型能够感知和生成语音，但仍存在一些限制。首先，在级联模型中，LLM 仅充当内容生成器。由于语音和文本的表示没有对齐，LLM 的知识无法迁移到语音模态中。

2023-05-22 10:19:29

382

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型语言模型，如 GPT-4、PALM-E 和 LLaVA，已经探索了 LLM 理解多模态信息的能力。然而，当前

2023-05-22 14:38:06

417

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口

2023-05-22 15:57:33

466

用图像对齐所有模态，Meta开源多感官AI基础模型，实现大一统

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此，视频 - 音频嵌入无法直接用于图像 - 文本任务，反之亦然。学习真正的联合嵌入面临的一个主要障碍是缺乏所有模态融合在一起的大量多模态数据。

2023-05-26 15:45:07

531

多模态大模型产业高峰论坛成功举办 ChatImg2.0、软通天璇2.0 MaaS平台重磅发布

5月30日，“多模态大模型产业高峰论坛”在软通动力总部举行。近百位专家学者、行业大咖和产业精英齐聚一堂，共同探讨多模态大模型的产业机遇和未来发展。论坛上，元乘象 ChatImg2.0、软通天璇2.0 MaaS平台重磅发布。同时，进行了多项产业合作签约，共同推动多模态大模型产业落地。

2023-05-31 10:14:43

379

开源了！UniControl：可控视觉生成的统一扩散模型

现有的可控图片生成模型都是针对单一的模态进行设计，然而 Taskonomy [3] 等工作证明不同的视觉模态之间共享特征和信息，因此本文认为统一的多模态模型具有巨大的潜力。

2023-06-08 15:01:16

353

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大语言模型、多模态模型也包括

2023-06-15 16:36:11

277

单张消费级显卡微调多模态大模型

把大模型的训练门槛打下来！我们在单张消费级显卡上实现了多模态大模型（LaVIN-7B, LaVIN-13B）的适配和训练

2023-06-30 10:43:28

1173

AI大模型的的三个发展阶段

AI大模型可分为自然语言处理大模型，CV大模型、科学计算大模型等。AI大模型支持的模态更加多样，从支持文本、图片、图像、语音单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。

2023-07-06 12:31:56

1386

华为云盘古大模型3.0发布，一个完全面向行业的大模型

三层架构，L0层包括自然语言、视觉、多模态、预测、科学计算五个基础大模型；L1层是N个行业大模型；L2层为客户提供了更多细化场景的模型，更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景，为客户提供“开箱即用”的模型服务。

2023-07-07 16:30:31

1298

VisCPM：迈向多语言多模态大模型时代

随着 GPT-4 和 Stable Diffusion 等模型多模态能力的突飞猛进，多模态大模型已经成为大模型迈向通用人工智能（AGI）目标的下一个前沿焦点。总体而言，面向图像和文本的多模态生成能力

2023-07-10 10:05:01

409

华为盘古大模型3.0 发布：不开源，现阶段谈投入和收益为时尚早

据华为常务董事、华为云 CEO 张平安介绍，盘古大模型 3.0 是面向行业的大模型系列，包括“5+N+X”三层架构：L0 层是 5 个基础大模型，包括自然语言、视觉、多模态、预测、科学计算，提供满足行业场景中的多种技能需求。

2023-07-10 14:19:20

967

思必驰DFM-2语言大模型正式发布

7月12日，【东风生万物】思必驰DFM-2大模型及创新技术应用成果发布会在苏州成功举行。

2023-07-13 09:44:26

278

语言模型的发展历程基于神经网络的语言模型解析

简单来说，语言模型能够以某种方式生成文本。它的应用十分广泛，例如，可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上，语言模型的潜力远超以上常见任务。

2023-07-14 11:45:40

454

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ，它使用单一视觉语言模型处理多项任务，在多模态大模型领域保持较高

2023-07-16 20:45:02

379

耀世星辉发布多模态模型AI创作平台悦灵犀

多模态模型AI创作平台悦灵犀。悦灵犀是一款多模态模型的AGI创作平台，依托悦享人工智能大模型"北辰星悦"智能云服务，提供企业级稳定可靠的AI创作与绘画服务。作为新一代移动互联网基础设施生态服务商，耀世星辉始终围绕 "平台+ 内容 + 场景+AI +产业" 的发展战略

2023-07-18 21:17:38

400

2023年发布的25个开源大型语言模型总结

，人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的，这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM，并为它们开发新的应用程序。使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明

2023-07-28 12:20:02

440

2023年发布的25个开源大型语言模型总结

大型语言模型(llm)是一种人工智能(AI)，在大量文本和代码数据集上进行训练。它们可以用于各种任务，包括生成文本、翻译语言和编写不同类型的创意内容。今年开始，人们对开源LLM越来越感兴趣。这些模型

2023-08-01 00:21:27

554

上海人工智能实验室发布多模态语料

“书生·万卷”1.0将集中语言资料数据联盟会员们丰富的内容积累和上海人工智能实验室的数据处理能力等优势，为学术界及产业界提供高品质的大规模模型多模态事前训练语言资料。开放源代码提供2tb以上的数据，多种融合，精细处理，价值排序，使用方便高效。

2023-08-17 10:17:43

312

清华大学大语言模型综合性能评估报告发布！哪个模型更优秀？

近日，清华大学新闻与传播学院发布了《大语言模型综合性能评估报告》，该报告对目前市场上的7个大型语言模型进行了全面的综合评估。近年，大语言模型以其强大的自然语言处理能力，成为AI领域的一大热点。它们

2023-08-10 08:32:01

607

阿里云开源视觉语言大模型Qwen-VL ，支持图文双模态输入

据介绍，Qwen-VL 是支持中英文等多种语言的视觉语言（Vision Language，VL）模型。相较于此前的 VL 模型，Qwen-VL 除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

2023-08-25 15:12:10

634

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务，通过多模态指令微调的方式，统一到一个框架中。具体地，输入一张图像以及一条指令（可以是检测、识别、spotting、语义理解）

2023-08-31 15:29:19

987

腾讯发布混元大语言模型

腾讯发布混元大语言模型腾讯全球数字生态大会上腾讯正式发布了混元大语言模型，参数规模超千亿，预训练语料超2万亿tokens。作为腾讯自研的通用大语言模型，混元大语言模型具有中文创作能力、任务执行

2023-09-07 10:23:54

815

性能超越开源模型标杆Llama2-70B，书生·浦语大模型InternLM-20B开源发布

）开源首发。同时，书生·浦语面向大模型研发与应用的全链条工具链全线升级，与InternLM-20B一同继续全面开放，向企业和开发者提供免费商用授权。今年6月首次发布以来，书生·浦语历多轮升级，在开源社区和产业界产生广泛影响。 InternLM-20B模型性能先进且应用便捷，以不足三分之一的参

2023-09-20 16:45:02

644

OpenAI最新大模型曝光！剑指多模态，GPT-4之后最大升级！

目前为止，OpenAI还没有对爆料中的传闻做出回应，但此前发布过多模态模型测试。CEO奥特曼在回应有关GPT-5的传闻时，也暗示过GPT-4“正在增强”。

2023-09-20 17:34:41

799

DreamLLM：多功能多模态大型语言模型，你的DreamLLM~

由于固有的模态缺口，如CLIP语义主要关注模态共享信息，往往忽略了可以增强多模态理解的模态特定知识。因此，这些研究并没有充分认识到多模式创造和理解之间潜在的学习协同作用，只显示出创造力的微小提高，并且在多模式理解方面仍然存在不足。

2023-09-25 17:26:43

361

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Models）的推理性

2023-10-27 20:05:02

478

北大&华为提出：多模态基础大模型的高效微调

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点

2023-11-08 16:20:25

274

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型编辑入手，将单模态模型编辑拓展到多模态模型编辑，主要从以下三个方面：可靠性（Reliability），稳定性（Locality）和泛化性（Generality）。

2023-11-09 14:53:22

215

浪潮信息发布源2.0基础大模型，千亿参数全面开源

11月27日，浪潮信息发布"源2.0"基础大模型，并宣布全面开源。源2.0基础大模型包括1026亿、518亿、21亿等三种参数规模的模型，在编程、推理、逻辑等方面展示出了先进的能力。

2023-11-28 09:10:14

417

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言模型指的是具有数十亿参数（B+）的预训练语言模型（例如：GPT-3, Bloom, LLaMA)。这种模型可以用于各种自然语言处理任务，如文本生成、机器翻译和自然语言理解等。

2023-12-04 15:51:46

356

大模型+多模态的3种实现方法

我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨模态的信息，让其变得更强大、更通用呢？本节将介绍“大模型+多模态”的3种实现方法。

2023-12-13 13:55:04

530

谷歌Gemini模型AI网络及TPU拆解

Gemini 是一款新型的多模态大语言模型，此前多模态大模型在处理视频、文字、图像等多维度输入信息时是采用分别训练分别输出再进行拼接的方式，这种方式的缺点在于面对复杂逻辑问题时，大模型的回复略显迟钝。

2023-12-14 09:55:17

436

大语言模型概述

在科技飞速发展的当今时代，人工智能技术成为社会进步的关键推动力之一。在广泛关注的人工智能领域中，大语言模型以其引人注目的特性备受瞩目。大语言模型的定义及发展历史大语言模型是一类基于深度学习技术

2023-12-21 17:53:59

555

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

2023-12-28 11:19:52

361

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频对齐以及语音检测。

2023-12-28 11:45:21

151

大语言模型推断中的批处理效应

随着开源预训练大型语言模型（Large Language Model, LLM ）变得更加强大和开放，越来越多的开发者将大语言模型纳入到他们的项目中。其中一个关键的适应步骤是将领域特定的文档集成到预训练模型中，这被称为微调。

2024-01-04 12:32:39

228

商汤科技发布新一代大语言模型书生·浦语2.0

1月17日，商汤科技与上海AI实验室联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.0（InternLM2）。

2024-01-17 15:03:57

332

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

2024-01-19 11:43:08

106

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据，为更丰富的交互和查询响应提供了可能性。

2024-01-19 16:11:20

221

大模型讯飞星火V3.5，1月30日正式发布

2024年1月30日14:00讯飞星火再升级;这一次首个基于全国产化算力平台训练的全民开放大模型讯飞星火V3.5正式发布逻辑推理、语言理解、文本生成、数学答题、多模态等核心能力均实现大幅提升

2024-01-23 09:06:05

508

幻方量化发布了国内首个开源MoE大模型—DeepSeekMoE

幻方量化旗下组织深度求索发布了国内首个开源 MoE 大模型 —— DeepSeekMoE，全新架构，免费商用。

2024-01-23 11:28:48

427

字节发布机器人领域首个开源视觉-语言操作大模型，激发开源VLMs更大潜能

对此，ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robotics VLM，从而适用于语言交互的机器人操作任务。

2024-01-23 16:02:17

169

Meta发布CodeLlama70B开源大模型

Meta发布CodeLlama70B开源大模型 Meta发布了开源大模型CodeLlama70B，号称是CodeLlama系列体量最大、性能最强的大模型。 Code Llama 70B 有一个很出色

2024-01-31 10:30:18

879

商汤科技发布新版日日新·商量大语言模型

商汤科技近日发布了新版的日日新·商量大语言模型-通用版本（SenseChat V4）。这一版本的模型在知识理解、阅读理解、综合推理、数理、代码和长文本理解等领域的通用能力得到了显著提升。

2024-02-04 10:30:41

426

大模型开源开放评测体系司南正式发布

近日，大模型开源开放评测体系司南（OpenCompass2.0）正式发布，旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。OpenCompass2.0的发布，将为模型技术创新提供重要的技术支撑。

2024-02-05 11:28:12

526

昆仑万维发布新版MoE大语言模型天工2.0

昆仑万维科技今日震撼发布全新升级的「天工2.0」MoE大语言模型以及配套的新版「天工AI智能助手」APP。此次更新标志着国内首个搭载MoE架构的千亿级参数大语言模型AI应用正式面向广大C端用户免费

2024-02-06 16:19:51

756

Sora爆红，多模态大模型是下一发展阶段

“大语言模型为 AI 产业带来新的生机，然而语言模型的应用场景有限。要全面打开生成式 AI 的想象力，还是要依托多模态大模型。”IDC 中国研究总监卢言霞近日表示。Sora在文生视频领域真正迈出

2024-02-20 16:13:26

159

谷歌大型模型终于开放源代码，迟到但重要的开源战略

在人工智能领域，谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型，都基于谷歌在 2017 年发布的 Transformer 论文；谷歌的发布的 BERT、T5，都是最早的一批开源 AI 模型。

2024-02-22 18:14:34

143

谷歌发布轻量级开源人工智能模型Gemma

谷歌近日宣布推出开源人工智能（AI）模型系列Gemma，旨在为开发人员和研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年OpenAI的ChatGPT引领AI聊天机器人热潮后，谷歌首次发布重要的开源大型语言模型（LLM），直接与ChatGPT展开竞争。

2024-02-23 11:38:33

345

MWC2024：高通推出全新AI Hub及前沿多模态大模型

2024年世界移动通信大会（MWC）上，高通再次展现其技术领导力，通过发布全新的高通AI Hub和展示前沿的多模态大模型技术，推动了5G和AI技术的融合创新。

2024-02-26 16:59:50

667

零一万物正式发布Yi大模型API开放平台

近日，零一万物正式发布Yi大模型API开放平台，为开发者提供通用Chat、200k超长上下文、多模态交互等模型。

2024-03-17 09:55:41

483

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多模态模型系列，由密集模型和混合专家（MoE）变体组成，标志着苹果在人工智能领域的又一重大突破。

2024-03-19 11:19:30

196

已全部加载完成

搜索历史

苹果发布开源多模态大语言模型Ferret

评论