如何更好的理解视觉信息处理-电子发烧友网

神经科学家和计算机视觉科学家表示，一个空前庞大的新数据集将帮助研究人员更好地理解大脑是如何处理图像的。

卡内基梅隆大学和福德姆大学的研究人员今天在《科学数据》杂志上发表报告说，在这种规模下获得功能性磁共振成像(fMRI)扫描呈现出独特的挑战。

每位志愿者都参与了20个小时或更长时间的核磁共振扫描，这对他们的毅力和实验者协调扫描过程的能力都构成了挑战。为了解开与单个图像相关的神经反应，有必要做出一个极端的设计决策，即让相同的个体运行如此多的会话。

由此产生的数据集被称为BOLD5000，它使认知神经科学家能够更好地利用深度学习模型，这些模型极大地改善了人工视觉系统。深度学习最初受到人类视觉系统架构的启发，通过对人类视觉如何工作的新见解的追求，以及对人类视觉的研究更好地反映现代计算机视觉方法，可以进一步改进。为此，BOLD5000测量了从两个流行的计算机视觉数据集ImageNet和COCO中获取的图像所产生的神经活动。

“大脑科学和计算机科学的缠绕意味着科学发现可以在两个方向流动,共同作者Michael J. Tarr（Moura认知和脑科学教授，CMU心理系主任）说：“未来的视觉研究将使用BOLD5000数据集，这将有助于神经科学家更好地理解人类大脑中的知识组织。随着我们对视觉识别的神经基础了解得越来越多，我们也将更好地为人工视觉的进步做出贡献。”

该研究的主要作者、加州大学机器人研究所(CMU’s Robotics Institute)专攻计算机视觉的博士生Nadine Chang表示，计算机视觉科学家正将目光投向神经科学，以帮助在快速发展的人工视觉领域进行创新——这加强了这项研究的双向性。

“ Chang说：“计算机视觉科学家和视觉神经科学家本质上有着相同的最终目标:理解如何处理和解释视觉信息”。

从一开始，改善计算机视觉就是BOLD5000项目的重要组成部分。资深作者Elissa Aminoff，当时是CMU心理学系的博士后，现在是福特汉姆大学的心理学助理教授，与机器人研究所副教授Abhinav Gupta共同发起了这一研究方向。

将生物视觉和计算机视觉联系起来所面临的挑战之一是，大多数人类神经成像研究只包含很少的刺激图像——通常是100幅或更少——这些图像通常被简化为在中性背景下只描绘单个物体。相比之下，BOLD5000包含超过5000个真实世界的复杂场景图像、单个对象和交互对象。

该小组认为BOLD5000只是利用现代计算机视觉模型研究生物视觉的第一步。

“坦率地说,BOLD5000数据集仍然太小,”塔尔说,这表明一个合理的功能磁共振成像数据集需要至少50000刺激图像和更多的志愿者来取得进展的事实的深层神经网络用于分析视觉表象训练在数以百万计的图像。为此，研究小组希望他们能够生成5000个大脑扫描数据集，这将为人类视觉和计算机视觉科学家之间更大规模的合作铺平道路。

到目前为止，该领域的反应是积极的。公开可用的BOLD5000数据集已经被下载超过2500次。

除了Chang，Tarr，Gupta和Aminoff之外，研究团队还包括CMU-Pitt BRIDGE中心的高级研究科学家和科学运营总监John A. Pyles以及Tarr实验室的研究助理Austin Marcus。美国国家科学基金会，美国海军研究办公室，阿尔弗雷德·斯隆基金会和大川信息和电信基金会赞助了这项研究。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉