资料介绍
机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生成的数据生成准确的预测。这些新数据示例可能是用户交互、应用处理或其他软件系统的请求生成的——这取决于模型需要解决的问题。在理想情况下,我们会希望自己的模型在生产环境中进行预测时,能够像使用训练过程中使用的数据一样,准确地预测未来情况。
当我们将模型部署到生产中时,往往会假设未来将使用到的数据会类似于过去模型评估期间所使用的数据。具体来说,我们可能会假设,特征和目标的分布将保持相当的恒定。但是这种假设通常不成立。趋势会随着时间的推移而变化,人们的兴趣会随着季节的变化而变化,股票市场会起伏不定。因此,我们的模型必须适应这些变化。
世界是持续变化的,因此模型部署应视为一个连续的过程,而不是完成第一次部署之后就扭头去开展下一个项目。如果机器学习团队的工程师发现数据分布与原始训练集的数据分布有明显出入,则需要重新训练模型。这个现象——通常被称为模型漂移(model drift)——可以缓解,但是会带来额外的开销,如监视基础设施、监督和流程等等。
在本文中,笔者想对模型漂移下定义,并讨论如何去识别和跟踪模型漂移。然后,我将描述如何重新训练模型,来减轻漂移对预测性能的影响,并对应多久重新训练一次模型做出建议。最后,我将介绍启用模型重新训练的几种方法。
机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生成的数据生成准确的预测。这些新数据示例可能是用户交互、应用处理或其他软件系统的请求生成的——这取决于模型需要解决的问题。在理想情况下,我们会希望自己的模型在生产环境中进行预测时,能够像使用训练过程中使用的数据一样,准确地预测未来情况。
当我们将模型部署到生产中时,往往会假设未来将使用到的数据会类似于过去模型评估期间所使用的数据。具体来说,我们可能会假设,特征和目标的分布将保持相当的恒定。但是这种假设通常不成立。趋势会随着时间的推移而变化,人们的兴趣会随着季节的变化而变化,股票市场会起伏不定。因此,我们的模型必须适应这些变化。
世界是持续变化的,因此模型部署应视为一个连续的过程,而不是完成第一次部署之后就扭头去开展下一个项目。如果机器学习团队的工程师发现数据分布与原始训练集的数据分布有明显出入,则需要重新训练模型。这个现象——通常被称为模型漂移(model drift)——可以缓解,但是会带来额外的开销,如监视基础设施、监督和流程等等。
在本文中,笔者想对模型漂移下定义,并讨论如何去识别和跟踪模型漂移。然后,我将描述如何重新训练模型,来减轻漂移对预测性能的影响,并对应多久重新训练一次模型做出建议。最后,我将介绍启用模型重新训练的几种方法。
什么是模型漂移?
模型漂移是指,由于环境的变化违反了模型假设,而导致模型的预测性能随时间而降低。模型漂移有点用词不当,因为变化的不是模型,而是模型运行的环境。因此,概念漂移(concept drift)一词实际上可能是一个更好的用词,不过两个术语都描述了相同的现象。
请注意,笔者对模型漂移的定义实际上包括几个可以更改的变量。预测性能将下降,它将在一段时间内以某种速率下降,并且这种下降会归因于违反建模假设的环境变化。在确定如何诊断ai服务器模型漂移以及如何通过模型再训练纠正模型漂移时,应考虑这些变量中的每一个。
如何跟踪模型漂移?
目前业内已有多种识别和跟踪模型漂移的技术。在介绍这些技术之前,值得一提的是,并没有一种万能的方法。不同的模型问题需要不同的解决方案,您可能有、也可能没有相应的基础架构或资源来利用某些技术策略。
模型性能降级
识别模型漂移的最直接方法是明确预测性能是否已下降,同时量化这种下降。测量实时数据上已部署模型的准确性是一个众所周知的难题。之所以出现这种困难,部分原因是我们需要访问生成的模型的预测和基本事实信号。出于以下这些原因,这可能无法实现:
·预测的数据在生成后没有存储——别让这种事发生在你身上。
·预测已存储,但是您无法访问基本事实标签。
·预测和标签均可用,但不能结合在一起。
即使预测和标签可以合并在一起,也可能需要一段时间才能使用标签。例如一个可以预测下一季度收入的财务预测模型。在这种情况下,只有在该季度过去之后才能观察到实际收入,所以直到那个时候你才能够量化模型的效果。在此类预测问题中, 回填预测(即训练模型,并根据过去的历史数据生成预测)可以帮助您了解模型性能下降的速度。
正如Josh Wills 指出的那样,在部署模型之前您可以做的最重要的事情之一就是试图了解离线环境中的模型漂移。数据科学家应想办法回答以下问题:“如果我使用六个月前的浪潮ai服务器数据对这组特征进行训练,并将其应用于今天生成的数据,那么这个模型比我一个月前未经训练而创建并应用到今天的模型差多少呢?”。离线执行此分析,您可以估计模型性能下降的速度以及需要重新训练的频率。当然,这种方法的前提是要有一台“时光机”来访问过去任何时候的实时数据。
- 精通机器学习之MATLAB分步实施指南 0次下载
- 基于终身机器学习的主题挖掘评分和评论推荐模型 42次下载
- 基于BERT的中文科技NLP预训练模型 14次下载
- 机器学习的训练样本数据选择方法综述 8次下载
- 基于预训练模型和长短期记忆网络的深度学习模型 19次下载
- 一种可分享数据和机器学习模型的区块链 15次下载
- 一种基于多任务联合训练的阅读理解模型 10次下载
- 188万中文词库包括了输入法和机器学习与训练 6次下载
- 机器学习教程之线性模型的详细资料说明 0次下载
- 机器学习的模型评估与选择详细资料说明 0次下载
- 机器视觉光学系统的介绍和选型指南详细概述 2次下载
- 深度学习网络训练技巧的详细资料汇总 10次下载
- 机器学习教程之使用matlab研究机器学习的资料概述 32次下载
- 机器学习有哪十大算法?机器学习的十大算法详细资料概述免费下载 13次下载
- TI电子医学应用指南的详细英文原版资料概述 0次下载
- 预训练和迁移学习的区别和联系 319次阅读
- 如何理解机器学习中的训练集、验证集和测试集 1415次阅读
- 预训练模型的基本原理和应用 1336次阅读
- 解读PyTorch模型训练过程 513次阅读
- 深度学习模型训练过程详解 426次阅读
- 如何基于深度学习模型训练实现工件切割点位置预测 582次阅读
- 如何基于深度学习模型训练实现圆检测与圆心位置预测 1370次阅读
- 视觉深度学习迁移学习训练框架Torchvision介绍 735次阅读
- 支持 ChatGPT 的机器学习模型的概况 744次阅读
- 什么是预训练AI模型? 871次阅读
- 超详细配置教程:用Windows电脑训练深度学习模型 1344次阅读
- 机器学习的知识产权问题 1456次阅读
- 针对线性回归模型和深度学习模型,介绍了确定训练数据集规模的方法 5995次阅读
- 谷歌新推无程式码机器学习模型分析工具 2425次阅读
- 机器学习中的特征选择的5点详细资料概述 6893次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1491次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 95次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 11次下载 | 免费
- 6100W短波放大电路图
- 0.05 MB | 4次下载 | 3 积分
- 7基于单片机和 SG3525的程控开关电源设计
- 0.23 MB | 4次下载 | 免费
- 8基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537793次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多