人工智能的发展出现了一些“AI威胁论”观点,有些人大胆预测“人工智能将侵入及占领华尔街”,认为在未来的世界里计算机将全面取代人类投资者。而基金管理公司Man Group PLC的首席执行官Luke Ellis说,“如果计算力和数据生成以目前的速度持续增长,那么,25年后99%的投资管理将涉及机器学习。”
尽管他的乐观,但人工智能方面所取得的重要成果目前尚未能转化为卓越的回报。据Wired称,过去几年里定量基金的平均表现未能超过对冲基金(而对冲基金的表现则未能超过股市)。
大多数人都不知道人工智能——特别是金融领域用的人工智能——在深入主题专业知识方面缺乏应用,因而不能创建干净的数据及与之相应的关系,而这却正好是任何成功的投资战略或人工智能的基础。在围棋比赛里胜出固然有其意义,但现实世界并非是在严格定义空间里的一场棋赛。在现实世界中,人类改变规则、违反规则,有时候甚至不存在规则。目前的人工智能在没有大量人为干预的情况下是无法处理真实世界里各种状况的。
人工智能被过度炒作及误读:系统资金表现不佳(红线:系统基金;蓝线:对冲基金)资料来源:Preqin/Wired
寻找人才
时下人工智能最大的问题之一是,具有足够主题专业知识的人员与建立人工智能的程序员之间缺乏交流兴趣或不知道如何交流。程序员对那些自己提交给AI的数据并不理解,而分析师则缺乏对AI技术的了解,因而无法知道程序员需要了解哪些源数据及如何解释所得到的结果。
这种脱节造成了人工智能在金融和投资应用里众多的公开问题:
· 大多数AI公司做的是将大部分资源用于数据管理和数据清理而不是用在技术上。
· 机器每每找出一些无效的虚假相关性,或是找到的相关性仅在过去有效,但不适用于将来。
· 许多人工智能系统成了“黑匣子”,只是给出投资建议,却并不说明机理或策略是什么。如果人工智能不能向人类表达其“思考”方式,那么投资者怎么会将大笔资金交给它处理呢?
金融界非常缺乏具备弥合该鸿沟的技能和知识的人,他们是金融界的宝贵人才。90%的金融服务公司都开始做人工智能技术的研究工作,这些公司都在这个稀缺劳动力市场里找人才。
笔者曾在题为 “大银行将在金融科技革命里胜出”的博文里提出过,大金融公司将成为技术进步的最大受益者,皆因规模和资源所致。大银行对AI人才支出的承担力最大,而且,他们拥有最大的财务数据库,可以帮助他们的新程序员。
一些银行已经在收罗必要的人才方面做出了认真的努力。瑞银(UBS)刚推出一波AI招聘,摩根士丹利(MS)的程序员和财务顾问则联手打造了“下一步最佳行动”( “Next Best Action”)平台,该平台提供的机器学习可以帮助财务顾问为客户提供个性化建议。
这些努力将会得到很好的长期回报,但现在却仍处于初期阶段。一众金融机构要真正以有效的方式用上人工智能还有很长的路要走。
人工智能的大(数据)问题
全球的数字数据总量每两年翻一番。数据量呈指数增长,但大多数数据缺乏机器做分析时所需的结构。因此,AI项目收集、清理和格式化数据输入需要无数的人力工时,而AI项目却又是为了减少人力需求。
Virtova公司创始人Sultan Meghji指出,许多AI初创公司至少将一半资金花在数据清理和管理上。每个人都在讲如何教计算机思考,但如何策划用于机器学习的数据集却没有捷径或替代品。
训练人工智能系统需要一套训练数据集作为学习用。训练数据集大致有两种。第一种数据集是相对较小而精确的数据集,但数据集不包含足够多的不同种类的例子,因而有效性不太足。用这样的数据集训练的人工智能在解释训练数据方面非常棒,但却无法处理真实世界的多样化和变幻莫测。
另一种训练数据集很大但不很准确。在这种情况下,人工智能见过大量的例子,不过有时候的数据并不正确,而且人工智能并未得到清晰一致的指令说应该如何回应。用这些较大、但不准确的数据集训练出来的人工智能通常从数据中学到的一致性东西很少,并且能够自主做的事情也很少。
要成功地进行机器学习,训练数据集务必既准确又具有广泛的代表性。换句话说,训练数据需要尽可能多地准确表达现实世界中发生的事情。否则我们怎么能指望机器去学习有用的一致性东西呢?
人工智能的挑战如下:在没有好的训练数据集的情况下,机器无法学习,同时,创建好的训练数据集所需的时间需要大量的时间,大多数具有深入主题专业知识的人往往低估了这个时间。策划好的训练数据集靠这些人,但他们对这种平凡的工作却不感兴趣。另一个方法就是找许多专业知识有限的人员去完成这个工作,但这种方法到目前为止并不成功。
大(数据)问题在金融和投资世界更糟糕
从理论上讲,策划训练数据集在金融领域不应该太具挑战性。毕竟,财务数据报表格式要遵从提交给美国证券交易委员会的官方文件。但任何外行人都很快能看出来,这些提交的文件并没有太多的所谓结构可言(人类往往不遵守规则)。另外,即便存在的结构对于人工智能来说也并没那么有用。事实上,这东西可能还真是有害。
想象一下这个场景,一台计算机想比较可口可乐(KO)和百事可乐(PEP)公司的财务状况。计算机读入可口可乐和百事可乐的财务报表,它怎么能知道可口可乐的“权益法投资”和百事可乐的“非控制性联营的投资”是一回事呢?“留存收益”与“再投资收益”是不是一回事?业界团体为了解决这个问题多年来一直在试图建立一套标准化金融词汇系统。
理论上,XBRL的发展可以解决这个问题。但实际上,XBRL仍然包含太多的错误和自定义标签,未能达到完全自动读取财务报表的目的。即使是最聪明的机器也需要先由具深度主题专业知识的人类进行广泛的训练后才能读懂财务报告。
如果成熟的技术和专家分析师不能完成上述的配对,人工智能在金融方面的任何努力都注定以失败告终。俗话说,“种瓜得瓜种豆得豆”。简单地将一堆非结构化的、未经验证的数据塞到计算机里,然后指望这东西能提供投资策略,无异于将食品储藏室的食品倒进烤箱里然后指望烤箱会烤出一个馅饼一样。机器再好也没有用,没有正确的准备机器就无法运作。
误报问题
即便财务数据是经过结构化及验证过的,对于一台机器来说可能仍然没有用处,而且人工智能在分辨哪些数据是有用哪些数据没有用时存在困难。大量的财务数据意味着可能出现以下的情况:大量的表象模式实际上只是纯随机性结果。这一现象名叫 “过度拟合”(Overfitting),是个公认的问题,斯坦福大学的机器学习在线课程有一堂课讲到过度拟合。
过度拟合不仅仅是个人工智能问题。人类偏向于看到其实并不存在的模式(启发式),算是人类很难改掉的毛病。但人类至少自己意识到有这个毛病,可以去试图克服它。而精密电脑的意识水平却还没到这一步。程序员将机器设计成怎么寻找模式,机器就怎么寻找模式。
人工智能日趋复杂,过度拟合问题也变得越来越糟。Man Group的定量基金首席数据科学家Anthony Ledford最近告诉记者:
“模型越复杂,解释训练数据时的能力就越强,而将来解释数据的能力就越差。”
许多定量基金现在只是从过去的数据中挖掘模式,然后希望这些模式能延续到未来。而实际上,大部分这些模式都是随机结果或者相应的条件已不复存在。
我们又一次看到人工智能与人类智能配对的必要性。机器比任何人类都可以更快速和更有效地处理数据和查找模式,但机器现在仍缺乏审核模式的智能及缺乏理解模式是否可以用于预测未来结果的智能。
人工智能黑盒
当然,人类在审核人工智能结果时需要理解人工智能是如何思考的。人类需要对机器用到的流程以及发现的模式有一定程度的了解。
目前,大多数人工智能对于潜在用户而言不够透明。人工智能算法通常是一个黑盒子,人工智能接收数据,吐出结果,底层的机理不透明。
一部分原因是,如果我们希望机器能够按照他们所需的规模进行运作,这个问题就是不可避免的。人工智能代码非常复杂,很少有人能完全理解人工智能的内部运作。
事实上,一些复杂度低于人工智能的软件也存在这些问题。10年前,丰田凯美瑞备受意外加速问题的困扰。太多程序员曾为引擎控制软件写过代码,引擎控制软件成了“意大利面条代码”,即是说一大堆晦涩且往往自相矛盾的代码,没有人看得懂,最后出错造成很大的损失。
支持人类的汽车刹车和加速软件都可以如此复杂,那想象一下,诸如财务建模等更复杂的活动会有多么的混乱及多容易出错。
评论
查看更多