迭代式精益创业原则在今天已被充分理解,最低可行产品(MVP)是机构风险投资的先决条件,但很少有初创企业和投资者将这些原则扩展到他们的数据和AI策略中。他们认为,可以在未来的某个时候,用他们以后会招募的人员和技能来验证自己对数据和人工智能的假设。
但我们所见过的最好的人工智能初创企业都是尽可能早地发现,它们是否收集了正确的数据,确保它们计划建立的人工智能模型是否有市场,以及这些数据是否得到了恰当的收集。因此,我们坚信,在您的模型达到早期客户所需的最小算法性能(MAP)之前,您必须尝试验证您的数据和机器学习策略。如果没有这种验证(相当于迭代软件beta测试的数据),您可能会发现,花费大量时间和金钱构建的模型没有您希望的那么有价值。
那么如何验证算法呢?这里有三个关键测试你必须了解:
1. 测试数据的预测性
2. 测试模型市场适合度
3. 测试数据和模型的保质期
下面,让我们来依次分析每个测试吧!
测试预测性
初创公司必须确保为其AI模型提供动力的数据能够预测,而不仅仅是与AI的目标输出相关联。
由于人体非常复杂,人工智能驱动的诊断工具是一种特别容易将相关信号误认为具有预测性的信号的应用。通过应用AI跟踪每周扫描的细微变化,我们遇到了许多公司在患者结果方面取得了令人难以置信的收益。潜在的混杂因素可能是正在进行这些每周扫描的患者也更经常地记录他们的生命体征,这也可能提供关于疾病进展的微妙线索。所有这些附加数据都用在算法中。人工智能是否可以在这些侵入性较小的生命体征上得到有效的训练,从而降低患者的成本和压力。
为了从真正的预测输入中梳理出混杂的相关性,您必须尽早进行实验,以便在有和没有输入的情况下比较AI模型的性能。在极端情况下,围绕相关关系构建的AI系统可能更昂贵,并且可能比围绕预测输入建立的AI系统获得更低的利润。此测试还使您能够确定是否正在收集AI所需的完整数据集。
测试模型市场适合度
您应该与产品市场契合度分别测试模型市场拟合。一些初创公司可能首先使用用于捕获培训数据的“预AI”解决方案进入市场。即使您可能已经建立了适合该AI前产品的产品市场,但您不能假设该AI前解决方案的用户也会对AI模型感兴趣。模型市场拟合测试的见解将指导您如何打包AI模型并建立合适的团队以将该模型推向市场。
测试模型-市场匹配比测试产品-市场匹配更难,因为用户界面很容易原型化,但人工智能模型很难模拟。要回答模型-市场匹配问题,您可以使用“幕后人”来模拟AI模型,以评估最终用户对自动化的响应。虚拟调度助理启动X.AI,使用这种方法来训练它的调度程序机器人,并通过观察人类训练者进行的数万次交互来找到合适的交互模式和音调。这种方法可能不适用于内容或数据可能包含敏感或受法律保护的信息的应用程序,例如医生与其患者或律师与其客户之间的交互。
为了测试客户是否愿意为AI模型付费,您可以将数据科学家奉献给现有客户的顾问,并为他们提供个性化的,数据驱动的规范性见解,以展示AI的投资回报率。我们已经看到许多初创公司在医疗保健,供应链和物流领域提供这项服务,以说服客户投入时间和人力来建立与客户技术堆栈的集成。
测试数据和模型保质期
初创公司必须尽早了解他们的数据集和模型过时的速度,以便保持适当的数据收集和模型更新速率。由于上下文漂移,数据和模型变得陈旧,当AI模型试图预测的目标变量随时间变化时发生。
上下文信息可以帮助解释上下文漂移的原因和速率,以及帮助校准漂移的数据集。例如,零售购买可能与季节有关。人工智能模型可能会发现冬季羊毛帽的销量增加,并且在4月份未能成功推荐给客户。如果在收集数据时没有记录,那么关键的上下文信息就无法恢复。
为了衡量上下文漂移的速度,您可以尝试“模拟”模型并观察其在实际设置中性能下降的速度。您可以使用以下某些策略在不训练数据的情况下执行此操作:
1. 在适用的情况下,使用已知框架构建基于规则的模型;
2. 重新调整在强相关但独立的域上训练的模型,例如使用书籍推荐模型来推荐电影;
3. 使用机械特克斯模拟客户数据;
4. 与行业现有企业合作获取历史数据;
5. 在互联网上搜索公开数据;
如果模拟模型快速降级,AI模型将容易受到上下文漂移的影响。在这种情况下,历史数据可能在过去的某个时间点之后没有用,因为训练过时数据的AI模型将不准确。
新时代,新剧本
企业客户和投资者越来越多地将数据和人工智能视为初创公司必要的竞争优势,但人工智能产品仍然需要重量级的开发流程。与所有业务问题一样,您仍必须尽可能早地验证您的数据和人工智能策略,以避免在无法取得成果的项目上浪费宝贵的时间和资源。这里概述的三个测试提供了一种在构建工作模型之前验证AI模型的方法。 随着越来越多的初创公司实施它们,这些想法将成为创建精益AI启动的工具包的一部分,并将改变智能时代风险投资的标准。
责任编辑:ct
评论
查看更多