0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

没有大量训练数据时怎么生成更多的数据

汽车玩家 来源:人工智能遇见磐创 作者:人工智能遇见磐创 2020-05-04 08:59 次阅读

在图像和物体识别方面,计算机表现优于人类。

像Google和Microsoft这样的大公司在图像识别方面已经超越了人类基准[1,2]。平均而言,人类大约有5%的时间在图像识别任务上犯了错误。截至2015年,微软的图像识别软件的错误率达到4.94%,与此同时,谷歌宣布其软件的错误率降低到4.8%[3]

这是怎么做到的?

这可以通过在包含数百个对象类别、数百万个训练样本的ImageNet数据集上训练深度卷积神经网络来实现[1]。

百万训练数据!

例如,要教计算机从多个角度识别出一只猫猫,可能需要成千上万张涵盖不同角度的照片。

成功训练计算机视觉任务的深层卷积神经网络需要大量数据。这是因为这些神经网络具有多个隐藏的处理层,并且随着层数的增加,需要学习的样本数也随之增加。如果没有足够的训练数据,则该模型往往会很好地学习训练数据,这称为过度拟合。如果模型过拟合,则其泛化能力很差,因此对未见的数据的表现很差。

但是,如果没有大量的训练数据怎么办?

对于我们手头的所有图像识别任务,并不是都会拥有数百万个训练样本。对于某些任务,收集成千上万个样本图像甚至是一个挑战。对于医学图像而言通常是这种情况,例如用于乳房癌检测和定位的乳房X线照相术,用于肺癌检测的胸部X射线或用于定位脑肿瘤的MRI扫描。

这可以归结为一个问题:当我们只有有限的数据时,我们如何训练能够很好地完成这些任务的模型?

使用数据增强(data augmentation)生成更多训练数据

当我们只有少量图像数据用于训练深度卷积神经网络时,我们可以使用数据增强技术从已经拥有的图像数据中生成更多训练数据。

数据增强是一种为原始图像生成多个图像的技术。有几种不同的数据增强技术,Mikolajczyk和Grochowski在他们的论文中[4]将这些技术分为两个子类别:使用基本图像处理的数据增强和使用深度学习方法的数据增强。

几何变换

诸如翻转(Flip),裁剪(Crop),旋转(Rotation)和移位(Translation)之类的几何变换是一些常用的数据增强技术。我们将在本文中简要讨论它们。

翻转

翻转是取任意给定图像的镜像。它是最简单的增强技术之一。图像可以水平或垂直翻转。但是,水平翻转在这两者之间更为常见。

裁剪

裁剪是一种数据增强技术,用于通过裁剪边界像素来减小原始图像的大小。裁剪时不会保留空间尺寸。在这种类型的数据增强中,不能保证转换后的图像与原始图像属于相同的输出标签

在上面的图像中,通过从左右方向裁剪像素,从原始图像生成了四个图像。裁剪图像的尺寸从256x256减小到227x277。

旋转

图像可以在轴上向左或向右旋转1到359度。1到20度之间的旋转称为轻微旋转,并且是用于增强原始图像的有用技术。随着旋转度的增加,转换后的数据可能无法保留其原始标签。

移位

翻译是一种将图像向左,向右,向上或向下平移的技术。这是一种非常有用的转换技术,可以避免数据中的位置偏差。移位图像时,剩余空间将被填充为0,255或被随机噪声填充,从而保留了图像的原始大小。

基于GAN的数据增强

生成对抗网络(GAN)也称为GAN,是一种生成建模技术,其中可以从数据集中创建人工实例,从而保留原始集的相似特征[9]。

GAN由两个相互竞争的人工神经网络(ANN)组成,即生成器 generator 与判别器 discriminator。生成器创建新的数据实例,而判别器则评估它们的真实性[10]。

这是由GAN生成的人脸图像,这是在人脸上训练出来的。请注意,这些是合成的面孔,而不是真实的人。

这些是一些数据增强技术,通常用于从有限的数据集中生成更多数据,从而可以训练出更有效的卷积神经网络。

Olaf和他的团队在训练数据有限的情况下,利用在图像上的平移、旋转和随机弹性变换等数据增强技术训练U-net体系结构模型,并在2015年ISBI细胞追踪挑战中以较大优势获得这些类别的冠军。

因此,下次在训练卷积神经网络时,请使用这些技术来创建更多数据。

你平时使用了哪些数据增强技术?在下面评论分享的想法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7390

    浏览量

    87680
  • 图像识别
    +关注

    关注

    9

    文章

    519

    浏览量

    38222
收藏 人收藏

    评论

    相关推荐

    如何训练自己的LLM模型

    于什么任务,比如文本生成、翻译、问答等。 明确你的模型需要达到的性能标准。 数据收集与处理 : 收集大量的文本数据,这些数据将用于
    的头像 发表于 11-08 09:30 311次阅读

    什么是协议分析仪和训练

    长时间、大规模的分析。 软件型协议分析仪:基于计算机软件的工具,通过安装在计算机上实现网络数据包的捕获、解析和分析,灵活且便于扩展。 二、训练器在电子设计和测试领域,训练器通常与协议分析仪结合使用,用于对特定
    发表于 10-29 14:33

    AI大模型的训练数据来源分析

    学术机构、政府组织或企业公开发布,涵盖了各种类型的数据,如图像、文本、音频、视频等。例如: ImageNet :一个广泛用于图像识别任务的大规模图像数据集。 Common Crawl :提供了大量的网页抓取
    的头像 发表于 10-23 15:32 336次阅读

    生成大量独立的PWMs

    电子发烧友网站提供《生成大量独立的PWMs.pdf》资料免费下载
    发表于 09-19 10:58 0次下载
    <b class='flag-5'>生成大量</b>独立的PWMs

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI 训练数据集。
    的头像 发表于 09-06 14:59 255次阅读
    NVIDIA Nemotron-4 340B模型帮助开发者<b class='flag-5'>生成</b>合成<b class='flag-5'>训练</b><b class='flag-5'>数据</b>

    TCP传输大量数据时丢失数据的原因?

    当TCP用于传输大量数据时,要找到数据丢失的地方,当TCP传输大量数据时,数据包丢失,包错。 具
    发表于 07-12 15:03

    20个数据可以训练神经网络吗

    是一种强大的机器学习模型,可以处理各种复杂的任务,如图像识别、自然语言处理和游戏。然而,训练一个神经网络通常需要大量数据。在某些情况下,我们可能只有有限的数据可用,例如20个
    的头像 发表于 07-11 10:29 584次阅读

    pytorch如何训练自己的数据

    本文将详细介绍如何使用PyTorch框架来训练自己的数据。我们将从数据准备、模型构建、训练过程、评估和测试等方面进行讲解。 环境搭建 首先,我们需要安装PyTorch。可以通过访问Py
    的头像 发表于 07-11 10:04 431次阅读

    巴西禁止Meta使用用户数据训练AI

    巴西数据保护局于7月2日对全球科技巨头Meta公司发出严厉警告,明确要求其不得利用巴西用户的个人数据训练生成式人工智能模型。此禁令直接指向Meta旗下广受欢迎的社交平台,如“脸书”和
    的头像 发表于 07-05 16:40 872次阅读

    人脸识别模型训练流程

    准备阶段,需要收集大量的人脸图像数据,并进行数据清洗、标注和增强等操作。 1.1 数据收集 数据收集是人脸识别模型
    的头像 发表于 07-04 09:19 797次阅读

    PyTorch如何训练自己的数据

    PyTorch是一个广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据集是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的数据集而不是现成
    的头像 发表于 07-02 14:09 1260次阅读

    定制化、精细化、场景化AI训练数据趋于基础数据服务市场主流

    算法、算力和数据共同构成了AI产业链技术发展的三大核心要素。在人工智能行业发展进程中,有监督的深度学习算法是推动人工智能技术取得突破性发展的关键技术理论,而大量训练数据的支撑则是有监督
    的头像 发表于 06-26 15:01 337次阅读
    定制化、精细化、场景化AI<b class='flag-5'>训练</b><b class='flag-5'>数据</b>趋于基础<b class='flag-5'>数据</b>服务市场主流

    数据在军事训练领域的应用有哪些

    量身定制个性化的训练计划。这种基于大数据训练计划能够充分发挥每个士兵的潜力,提高训练效果。 智慧华盛恒辉实时监控与反馈: 利用大数据技术,
    的头像 发表于 06-23 10:21 541次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    具有以下三个非常显著的特点,一个就是模型参数规模更大,训练数据更多。当然,对计算资源的要求也会更高。 构建强大的语言模型时,模型的选型至关重要,涉及模型的基本架构,包括模型的主要结构,表策策略,激活
    发表于 05-07 17:10

    DocuSign拟用用户合同数据训练AI,引争议

    据了解,DocuSign计划借助微软Azure上的OpenAI工具,如GPT技术,以训练其所谓的“撰写协议”模型,并且从用户提供的大量数据中,训练出专属的人工智能(AI)模型,但这部分
    的头像 发表于 03-04 15:45 491次阅读