0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超分画质大模型!华为和清华联合提出CoSeR:基于认知的万物超分大模型

CVer 来源:CVer 2023-12-04 16:22 次阅读

8980ef80-912c-11ee-939d-92fbcf53809c.png

项目主页:https://coser-main.github.io/ 论文:https://arxiv.org/abs/2311.16512 代码:https://github.com/VINHYU/CoSeR

8999186c-912c-11ee-939d-92fbcf53809c.png

图1. LR,GR和SR分别为低清图像、基于对低清图像的认知生成的参考图像和超分图像。

图像超分辨率技术旨在将低分辨率图像转换为高分辨率图像,从而提高图像的清晰度和细节真实性。这项技术在手机拍照等领域有着广泛的应用和需求。随着超分技术的发展和手机硬件性能的提升,人们期望拍摄出更加清晰的照片。然而,现有的超分方法存在一些局限性,如图2所示,主要有以下两个方面:

一是缺乏泛化能力。为了实现更好的超分效果,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训练,这种学习方式拟合了某种低清图像和高清图像间的映射,但在其他场景下表现不佳。此外,逐场景训练的方式计算成本较高,不利于模型的部署和更新。

二是缺乏理解能力。现有的超分方法主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法利用常识来准确恢复物体的结构和纹理。

89aff262-912c-11ee-939d-92fbcf53809c.png

图2. 真实场景超分SOTA方法的局限性:(行一)难以处理训练集外的退化分布;(行二)难以利用常识恢复物体结构。

人类在处理信息时,有两种不同的认知反馈系统。诺贝尔奖经济学得主丹尼尔·卡尔曼在《思考,快与慢》中将它们称为系统一和系统二,如图3所示。系统一是快速的、直觉的、基于记忆的反馈,比如,我们可以脱口而出十以内的加减运算。系统二是缓慢的、多步的反馈,比如,28x39往往需要逐步运算。现有的超分方法更贴近系统一,它们主要依赖于从大量数据中学习图像的退化分布,忽视了对图像内容的理解,无法按照常识来准确恢复物体的结构和纹理,也无法处理域外的退化情况。本文认为,真正能有效应用于真实场景的画质大模型应该具备类似系统二的多步修复能力,即基于对图像内容的认知,结合先验知识来实现图像超分(Cognitive Super-Resolution,CoSeR)。

8a52aa48-912c-11ee-939d-92fbcf53809c.png

图3. CoSeR采用类似于人脑中系统二的修复方式

CoSeR模仿了人类专家修复低质量图像自上而下的思维方式,首先建立对图像内容的全面认知,包括识别场景和主要物体的特征,随后将重点转移到对图像细节的检查和还原。本文的主要贡献如下:

提出了一种通用的万物超分画质大模型CoSeR,它能够从低清图像中提取认知特征,包括场景内容理解和纹理细节信息,从而提高模型的泛化能力和理解能力。

提出了一种基于认知特征的参考图像生成方法,它能够生成与低清图像内容一致的高质量参考图像,用于指导图像的恢复过程,增强图像的保真度和美感度。

提出了一种“All-in-Attention”模块,它能够将低清图像、认知特征、参考图像三个条件注入到模型当中,实现多源信息的融合和增强。

在多个测试集和评价指标上,相较于现有方法,CoSeR均取得了更好的效果。同时,CoSeR在真实场景下也展现颇佳。

方法介绍

图4展示了CoSeR的整体架构。CoSeR首先使用认知编码器来对低清图像进行解析,将提取到的认知特征传递给Stable Diffusion模型,用以激活扩散模型中的图像先验,从而恢复更精细的细节。此外,CoSeR利用认知特征来生成与低清图像内容一致的高质量参考图像。这些参考图像作为辅助信息,有助于提升超分辨率效果。最终,CoSeR使用提出的“All-in-Attention”模块,将低清图像、认知特征、参考图像三个条件注入到模型当中,进一步提升结果的保真度。

8a68cc88-912c-11ee-939d-92fbcf53809c.png

图4. 本文提出的万物超分画质大模型CoSeR

图5展示了CoSeR参考图像生成的效果。与直接从低清图像中获取描述的方法相比,CoSeR的认知特征保留了细粒度的图像特征,在生成具有高度相似内容的参考图像时具有优势。在图5的第一行,使用BLIP2从低清图像生成的描述无法准确识别动物的类别、颜色和纹理。此外,CoSeR的认知特征对于低清图像更加鲁棒。例如,在图5的第二行,由于输入分布的差异,BLIP2会生成错误的图像描述,而CoSeR生成了内容一致的高质量参考图像。最后,相比于BLIP2大模型接近7B的参数量,CoSeR的认知编码器只有其3%的参数量,极大提升了推理速度。

8a836d40-912c-11ee-939d-92fbcf53809c.png

图5.(行一)使用BLIP2描述生成的参考图和CoSeR生成的参考图;(行二)CoSeR的高鲁棒性

结果展示

表1和图6展示了CoSeR与其他方法的定量和定性结果对比。CoSeR在含有丰富类别的ImageNet数据集及真实超分数据集RealSR和DRealSR上,都取得了不错的结果。CoSeR能够恢复出更加清晰和自然的图像细节,同时保持了图像的内容一致性和结构完整性。

8a8e2cc6-912c-11ee-939d-92fbcf53809c.png

表1. 定量结果对比

8aa67060-912c-11ee-939d-92fbcf53809c.png

图6. 定性结果对比

本文提出的CoSeR模型为图像超分辨率技术提供了一种新的思路和方法,它能够从低清图像中提取认知特征,用于激活图像先验、生成参考图像,从而实现高质量的万物超分效果。我们未来的研究重点是如何在不影响超分性能的情况下加速采样,以获得更高的视觉质量。此外,我们还将探索统一模型在更多样化的图像修复任务中的表现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2553

    文章

    51511

    浏览量

    757256
  • 图像
    +关注

    关注

    2

    文章

    1089

    浏览量

    40600
  • 大模型
    +关注

    关注

    2

    文章

    2652

    浏览量

    3267

原文标题:超分画质大模型!华为和清华联合提出CoSeR:基于认知的万物超分大模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    IoT联网课程清单

    ://t.elecfans.com/v/25643.html *附件:L610功能之连接公有云-华为云.pdf 应用 万物互联工程实例(腾讯云)part1 1027秒 https://t.elecfans.com/v
    发表于 03-24 09:18

    万物互联时代引领者—微联网云服务平台

    本帖最后由 一只耳朵怪 于 2018-5-21 16:56 编辑   现今,人们对城市、企业的规划与认知也产生了颠覆性的质变,人们期待万事万物的预期发展具象化、视觉化,实现真正意义上的万物互联
    发表于 05-21 16:52

    鸿蒙是什么?他是兼容万物的斗战胜佛

    万物互联时代,手机眼睛冰箱连你家的门都可以上网,要上网就要计算,为每个设备都单独开发一个系统不现实,那鸿蒙就是解决这个问题而诞生的。 从功能机到智能机时代,诺基亚掉队了,微软想插队也失败了,从智能机到
    发表于 09-08 14:00

    HarmonyOS IoT首著,走进万物互联的世界!

    !HarmonyOS是新一代智能终端操作系统,为不同设备的智能化、互联与协同提供了统一的语言。华为常务董事、消费者业务CEO余承东表示:“万物互联时代,没有人会是一座孤岛,每个人、每个设备都是万物互联大陆的一部
    发表于 06-16 16:45

    HarmonyOS IoT首著,走进万物互联的世界!

    !HarmonyOS是新一代智能终端操作系统,为不同设备的智能化、互联与协同提供了统一的语言。华为常务董事、消费者业务CEO余承东表示:“万物互联时代,没有人会是一座孤岛,每个人、每个设备都是万物互联的一部
    发表于 06-16 17:08

    鸿蒙座舱子品牌来了,华为发布 HarmonySpace:万物互联的智能出行空间

    生态圈。基于让座舱融入无处不在的智能世界的愿景,华为打造了一个寓意万物互联的座舱子品牌 ——HarmonySpace。让座舱不仅是座舱,而是一个连通万物,不断生长,个性智能的移动出行空间。华为
    发表于 12-23 14:40

    ARM用以解决图像模型过参数问题

    本文提出一种Any-time super-Resolution Method(ARM)用以解决图像模型过参数问题,其出发点在于如下三个观察:不同图像块的性能会
    发表于 06-10 17:52

    介绍一种MobileAI2021的图像竞赛的最佳方案

    AIBenchmark软件测试了所提方案的CPU、GPU以及NNAPI耗时,结果见下表。MAI2021 SISR Challenge本文起初用于参加MAI2021图像竞赛,结果见下表。注:首次的提交的模型
    发表于 06-10 18:03

    介绍一种Any-time super-Resolution Method用以解决图像模型过参数问题

    本文提出一种Any-time super-Resolution Method(ARM)用以解决图像模型过参数问题,其出发点在于如下三个观察:不同图像块的性能会
    发表于 03-21 15:25

    基于混合先验模型分辨率重建

    在L1范数图像分辨率重建算法框架下,引入参数自适应估计,结合差图像统计特性和概率分布模型提出一种基于混合先验模型
    发表于 04-11 08:42 24次下载

    基于信誉模型认知联网非均匀簇路由算法

    基于信誉模型认知联网非均匀簇路由算法_李莹
    发表于 01-07 20:32 0次下载

    如何使用TensorFlow Hub的ESRGAN模型来在安卓app中生成图片

    从一张低分辨率的图片生成一张对应的高分辨率图片的任务通常被称为单图(Single Image Super Resolution - SISR)。尽管可以使用传统的插值方法(如双线性
    的头像 发表于 11-26 09:40 3575次阅读

    OpenHarmony论坛-图库应用数据加载显示模型

    OpenHarmony论坛-图库应用数据加载显示模型 天的2021华为开发者大会上,OpenHarmony论坛上展示了图库应用数据加载显示模型
    的头像 发表于 10-23 13:42 1071次阅读
    OpenHarmony<b class='flag-5'>分</b>论坛-图库应用数据加载显示<b class='flag-5'>模型</b>

    眸瑞科技与沐曦集成电路联合发布首个AI模型“贴图”技术

    近日,长沙眸瑞网络科技有限公司(下称“眸瑞科技”)与沐曦集成电路(上海)有限公司(下称“沐曦”)联合发布首个AI模型“贴图”技术。
    发表于 09-06 14:08 454次阅读

    沐曦首次将AI分成功应用到3D模型领域

    近日,长沙眸瑞网络科技有限公司(下称“眸瑞科技”)与沐曦集成电路(上海)有限公司(下称“沐曦”)联合发布首个AI模型“贴图”技术。该技术依托曦思N系列AI推理GPU首款产品曦思N1
    的头像 发表于 09-06 14:11 1062次阅读