0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用合成数据测试机器学习

要长高 来源:InfoWorld 作者:Isaac Sacolick 2022-04-25 17:34 次阅读

Devops 团队旨在提高部署频率,减少生产中发现的缺陷数量,并提高从微服务和面向客户的应用程序到员工工作流和业务流程自动化的一切的可靠性。

实施CI/CD(持续集成和持续交付)管道可确保构建和部署所有这些应用程序和服务的无缝路径,自动化测试和实施持续测试实践有助于团队保持质量、可靠性和性能。通过持续测试,敏捷开发团队可以 左移他们的测试,增加测试用例的数量,并提高测试速度。

[也在 InfoWorld 上:在数据科学和机器学习中应用 devops ]

构建测试用例并使其自动化是一回事,拥有足够数量和种类的测试数据来验证足够数量的用例和边界场景是另一回事。例如,测试网站注册表单应验证输入模式的排列,包括缺失数据、长数据条目、特殊字符、多语言输入和其他场景。

挑战在于生成测试数据。一种方法是合成数据生成,它使用不同的技术根据模型和输入模式集推断数据集。合成数据生成解决了所需数据的数量和种类。在使用真实数据可能引发法律或其他合规性问题的情况下,您还可以使用合成数据生成来创建数据集。

“当所需数据不存在或原始数据集充满个人身份信息时,合成数据提供了一个很好的选择,”Accelario 的首席技术官兼联合创始人 Roman Golod说。“最好的方法是基于现有模式创建合成数据以进行测试数据管理或构建规则,以确保您的 BI、AI 和其他分析提供可操作的结果。对于这两者,您需要确保可以根据不断变化的业务需求对合成数据生成自动化进行微调。”

合成数据生成用例

虽然合成数据生成的最基本需求源于测试应用程序、自动化和集成,但随着数据科学测试需要机器学习和人工智能算法的测试数据,需求也在增长。数据科学家有时会使用合成数据来训练神经网络;在其他时候,他们使用机器生成的数据来验证模型的结果。

其他合成数据用例更具体:

[在这份免费的 CIO 路线图报告中了解 IT 如何利用 5G 的力量和前景。现在下载!]

通过确保在两个基础架构上运行相同的应用程序生成相同的结果来测试云迁移

为安全测试、欺诈检测和其他实际数据可能不存在的实际场景创建数据

生成数据以测试大规模 ERP(企业资源规划)和 CRM(客户关系管理)升级,测试人员希望在迁移实时数据之前验证配置

为决策支持系统生成数据以测试边界条件、验证特征选择、提供更广泛的无偏测试数据样本,并确保AI 结果可解释

对人工智能和物联网系统(例如自动驾驶汽车)进行压力测试,并验证它们对不同安全情况的反应

如果您正在开发具有高维数据输入以及关键质量和安全因素的算法或应用程序,那么合成数据生成提供了一种以经济高效地创建大型数据集的机制。

“合成数据有时是唯一的出路,因为真实数据要么不可用,要么不可用,”KNIME 的数据科学家 Maarit Widman说。

平台如何生成合成数据

您可能想知道平台如何生成综合测试数据以及如何选择最佳算法和配置来创建所需数据。

Widman 解释说:“生成合成数据有两种主要策略:基于统计概率或基于机器学习算法。最近,像循环神经网络这样的深度学习技术——比如长短期记忆网络和生成对抗网络——因其能够从无到有地生成新的音乐、文本和图像的能力而越来越受欢迎。”

当数据点之间存在依赖关系时,例如时间序列数据和文本分析,数据科学家会使用RNN(循环神经网络) 。LSTM(长期短期记忆)通过一系列重复模块创建一种形式的长期记忆,每个模块都有提供类似记忆功能的门。例如,文本分析中的 LSTM可以学习字符和单词之间的依赖关系以生成新的字符序列。它还用于音乐创作、欺诈检测和谷歌的 Pixel 6 语法校正。

GAN(生成对抗网络)已被用于生成多种形式的图像、破解网络安全密码,甚至制作披萨。GANs通过使用一种算法生成数据模式和另一种算法来测试它们来创建数据。然后他们在两者之间形成对抗性竞争以找到最佳模式。生成合成数据的 GAN 代码示例包括PyTorch 手写数字、用于开发一维高斯分布的 TensorFlow 模型和用于模拟卫星图像的 R 模型。

选择机器学习和基于统计的模型是一门艺术和科学。Monitaur的联合创始人兼首席技术官 Andrew Clark解释了如何尝试合成数据生成。他说:“这里的经验法则始终是为工作选择最简单的模型,并以可接受的准确度执行任务。如果您正在对客户结账行进行建模,那么基于泊松分布的单变量随机过程将是一个很好的起点。另一方面,如果您有大量贷款承销数据集并想要创建测试数据,GAN 模型可能更适合捕捉各个特征之间的复杂相关性和关系。”

如果您正在处理数据科学用例,那么您可能希望灵活地开发合成数据生成模型。商业选项包括用于计算机视觉的Chooch 、Datomize和Deep Vision Data。

如果您的目标是应用程序测试,请考虑用于测试数据管理或综合生成测试数据的平台,例如 Accelario、Delphix、GenRocket、Informatica、K2View、Tonic,以及一些测试数据工具,例如开源测试数据生成器。Microsoft 的Visual Studio Premium也有一个内置的测试数据生成器,Java 开发人员应该使用Vaadin 的数据生成器查看这个示例。

如今,拥有强大的测试实践非常重要,因为组织依赖于应用程序的可靠性和机器学习模型的准确性。合成数据生成是另一种缩小差距的方法。因此,您不仅拥有测试、训练或验证方法,而且还拥有生成足够数据来构建模型和验证应用程序的方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1893

    浏览量

    72290
  • 机器学习
    +关注

    关注

    66

    文章

    8315

    浏览量

    132160
收藏 人收藏

    评论

    相关推荐

    多功能推拉力测试机测试费用是多少?

    多功能推拉力测试机测试费用由测试机的规格、产地、品牌和服务等多个因素共同决定,需要具体询价。一、规格多功能推拉力测试机的规格是影响测试费用重
    的头像 发表于 08-23 16:17 170次阅读
    多功能推拉力<b class='flag-5'>测试机</b><b class='flag-5'>测试</b>费用是多少?

    推拉力测试机器测试前的准备有哪些?最全作业指导

    推拉力测试机测试物体在推拉过程中所产生的力量的一种测试设备。它可以测量出物体受到的推拉力和扭力。在工业生产和质量检测中,推拉力测试机是非常重要的设备,在使用推拉力
    的头像 发表于 03-19 17:06 362次阅读
    推拉力<b class='flag-5'>测试机器</b><b class='flag-5'>测试</b>前的准备有哪些?最全作业指导

    半导体芯片封装推拉力测试机合理选择需要考虑哪些方面?

    选择半导体芯片封装推拉力测试机时,可以考虑以下几个方面:1.功能-首先要考虑测试机的功能,特别是是否有半导体芯片封装推拉力测试的功能。此外,还可以选择具有多功能全自动切换模组的测试机
    的头像 发表于 03-12 17:41 604次阅读
    半导体芯片封装推拉力<b class='flag-5'>测试机</b>合理选择需要考虑哪些方面?

    五轴按键测试机:精准评估按键性能的利器

    五轴按键测试机:精准评估按键性能的利器
    的头像 发表于 12-26 09:15 446次阅读
    五轴按键<b class='flag-5'>测试机</b>:精准评估按键性能的利器

    测试焊接质量的方法,推拉力测试机测试方法

    焊点推力测试是一种测试焊接质量的方法,它可以检测焊点的强度和耐久性。测试时,将焊点固定在测试机上,然后施加一定的力量来测试焊点的承载能力。
    的头像 发表于 12-11 17:59 847次阅读
    <b class='flag-5'>测试</b>焊接质量的方法,推拉力<b class='flag-5'>测试机</b><b class='flag-5'>测试</b>方法

    ATE测试机是什么

    半导体测试设备主要包括三类:ATE、探针台、分选机。其中测试功能由测试机实现,而探针台和分选机实现的则是机械功能,将被测晶圆/芯片拣选至测试机进行检测。
    的头像 发表于 12-04 17:30 1824次阅读

    DAGE推拉力测试机的原理和功能

    DAGE推拉力测试机的原理和功能?|深圳市磐石测控仪器有限公司
    的头像 发表于 11-24 09:08 774次阅读
    DAGE推拉力<b class='flag-5'>测试机</b>的原理和功能

    TRY推拉力测试机有什么原理与应用领域

    TRY推拉力测试机有什么原理与应用领域
    的头像 发表于 11-23 09:07 512次阅读
    TRY推拉力<b class='flag-5'>测试机</b>有什么原理与应用领域

    弹簧拉压测试机有哪些原理与优势

    弹簧拉压测试机有哪些原理与优势?|深圳磐石测控
    的头像 发表于 11-20 09:10 812次阅读
    弹簧拉压<b class='flag-5'>测试机</b>有哪些原理与优势

    铝带拉力测试机有什么结构和原理

    铝带拉力测试机有什么结构和原理
    的头像 发表于 11-10 09:07 365次阅读
    铝带拉力<b class='flag-5'>测试机</b>有什么结构和原理

    如何训练自主移动机器人使用合成数据检测仓库托盘千斤顶

    在训练那些部署在自主移动机器人(AMR)上的感知 AI 模型时,合成数据可以发挥关键作用。这一过程在制造业中变得越来越重要。有关使用合成数据生成预训练模型,用于检测仓库中托盘的示例,可参见
    的头像 发表于 11-09 10:45 334次阅读
    如何训练自主移动<b class='flag-5'>机器</b>人使用<b class='flag-5'>合成数据</b>检测仓库托盘千斤顶

    铝带拉力测试机的基本介绍

    铝带拉力测试机的基本介绍?|深圳磐石测控仪器
    的头像 发表于 11-02 09:12 3792次阅读
    铝带拉力<b class='flag-5'>测试机</b>的基本介绍

    铝带拉力测试机测试方法与应用领域

    铝带拉力测试机测试方法与应用领域?|深圳磐石测控
    的头像 发表于 10-26 09:09 2576次阅读
    铝带拉力<b class='flag-5'>测试机</b>:<b class='flag-5'>测试</b>方法与应用领域

    铝带拉力测试机的原理和应用

    铝带拉力测试机的原理和应用?|深圳磐石测控仪器
    的头像 发表于 10-25 09:09 2584次阅读
    铝带拉力<b class='flag-5'>测试机</b>的原理和应用

    铝带拉力测试机的设备与测试

    铝带拉力测试机的设备与测试
    的头像 发表于 10-24 09:14 2156次阅读
    铝带拉力<b class='flag-5'>测试机</b>的设备与<b class='flag-5'>测试</b>