自从阿尔法狗(Alpha Go)在围棋“终极人机大战”完胜棋王柯洁,OPEN AI的人工智能又在DOTA游戏中打败人类业余高手团队,并宣布即将挑战职业选手,关于“金融阿尔法狗”也将面世的说法就不绝于耳。内地市场还曾传出,研发阿尔法狗的DeepMind团队发表了一篇论文,指其人工智能投资系统“阿尔法股”(Alpha Stock)在A股市场潜伏交易36个月,但最终亏损不断扩大,令团队决定暂停该领域研究。
当然,这只是一个段子,“最强人工智能”在金融投资领域的尝试,至今依然在摸索中。然而一个普遍的疑问在于,与围棋和电竞不同,金融市场投资是一个受宏观环境、市场波动、突发事件等等众多不可控因素影响的复杂决策,人工智能如何能像真人一样完成如此复杂的决策?它们最终能击败顶尖的人类基金经理和投资专家吗?
人工智能是在模拟人脑吗?
要解答这个疑问,首先我们需要了解人工智能到底是如何去“学习”下棋、电竞和其他技能的。
今天外界对人工智能最大的误解,恐怕就是认为人工智能是对人脑的“模拟”,然而人工智能的工作和学习机制,事实上与人脑完全不同。当前被称为“人工智能”的,至少包括以下三种体系。
首先,人工智能的起步,在于人类最简单的一种思考能力:推断逻辑。逻辑学自古希腊开始对此已经深有研究,并且提出一系列明确简单的推断原则。以此为基础,人工智能的起步从具体“算法”开始,也就是让电脑遵循逻辑推理的命题和原则来完成任务。例如,向电脑输入某个知识体系,并且设定推理的算法,电脑就可以成为一套“专家系统”,通过自动推理来解答人们提出的问题,近年流行的人工智能医疗诊断,就是这样的“专家系统”。
其后兴起的第二个人工智能体系叫做“搜索系统”,例如寻求迷宫的解法,以及在地图上寻找最短路径。这一系统目前普及度也很高,许多家庭都在使用的“扫地机器人”就是这一系统的运用,能够找到清洁全家地板的最优化路线。
然而真实的世界总是千变万化,逻辑远远无法涵盖。今天真正让世界震惊,能够击败人类围棋冠军和电竞高手的人工智能早已突破“逻辑”的范畴,它们诞生于第三套系统:通过统计学方法,用大量的数据统计和分析来作出最优的决策。可以说,统计学方法带来了当前真正强大的人工智能,我们称之为“机器学习”。
还是从阿尔法狗说起,由于真正的围棋招数可能性远超于宇宙原子的数量,不可能通过逻辑来穷尽所有招数,因此在阿尔法狗以前,人工智能用逻辑推论方法来解决围棋,耗费多年而毫无寸进。此时,统计学为人工智能带来了一个重要的启示:我们可以通过对一小部分的策略的抽样研究,归纳出有效的策略。这正如要知道一个国家的经济发展,并不需要知道每一个人在做什么,而只需要抽样调查来研究是一样的。
简而言之,Alpha Go和Open AI用来打败人类的能力,源自它们庞大而高速的统计能力,通过统计学抽样去模拟围棋手或游戏玩家每一步每一招的可能性,从而找到致胜的招数,而并不是它们真的“学会”模拟人类大脑来思考。
人工智能是怎样自己“学习”的?
人工智能今天的强大,并不意味着他们开始“接近”人脑,刚好相反,他们的优势在于能够完成人脑根本无法处理的大量统计。以下围棋为例,每多一个决策,就增加了一个新的维度,需要计算的可能性也就呈指数级增加,所以在人工智能研究的早期,机器要通过如此大量的统计去“学习”也是困难的。
早期机器学习中,由于数据量过于庞大难以处理,人类采取了提示一些“捷径”的方法。其中最主要的方式叫做“监督学习”,也就是机器在人类提供经验的“监督”下去统计分析数据。俗话说“依样画葫芦”,这就比如一个新员工来到公司,老板就教了他一套自己工作的方法,让他有样学样去做,就是“监督学习”。此前版本的Alpha Go也是通过学习从古到今的大量棋谱数据来学习围棋,并先后打败了人类顶尖高手李世石和柯洁。
然而,经验毕竟是有限的,而且需要大量人力和时间去总结和标签。真实世界的大多数决策毕竟不像围棋,拥有数千年的经验积累和现成棋谱。那么,机器是否能够具备自己去挖掘经验的能力呢?
由此,机器学习进入了“无监督学习”领域,即让机器彻底去自己摸索,人类不给予任何总结的经验,不对任何数据进行标签。当前人工智能中的自然语言处理,让人工智能通过大量的语言输入去理解语言中词语关系的内在规律,就是“无监督学习”的一种应用。更常见的应用则是在网上购物的“推荐商品”中,机器通过分析大量的过往数据,“学习”去推荐买家最有可能感兴趣的商品。
第三种模式则叫做“强化学习”,可以算是“监督”和“无监督”各占一半的方式。
还是用企业新员工来打比方,这一次老板并不具体告员工要怎么做,但是到了年底会发出或多或少的奖金。当然,奖金的多少存在不同的可能性,是员工对客户服务态度好?还是工作特别勤奋?又或是拍老板马屁拍的好?在真实的人生中,这种分析显然是极为困难的。然而理论上,如果这个职员一直通过奖金多少来反省自己的工作,然后持续做同一份工作一百万年时间,那么他会无限逼近“奖金的真相”。
这种通过反馈来修改行动的模型,我们称之为策略-评估(Actor-Critic)模型,随着策略(Actor)所做的决策被评估(Critic)所修正,决策的质量一点一点逐步地改善,机器开始自己去学习,并找到独特的学习方法。人活不了一百万年,当然也就算不了一百万年。但是机器随着计算速度——即所谓“算力”的迅速提高,却有望解决这个看起来荒谬的难题。2016年的计算机已经比2007年速度快一万倍,今天普通工业级电脑已经可以展开深度强化学习,而且算力的提高速度还在持续加快。
2017年10月,Alpha Go进化为Alpha Go Zero。两者最大区别就是,后者在没有任何棋谱数据和人类经验输入的前提下学习围棋,每一步都由机器自己随机尝试,通过最后胜败的统计分析来判断每一步是“好棋”还是“臭棋”。算力强大的Alpha Go Zero仅仅用了三天,就从一张白纸成长为以100比0完胜旧版Alpha Go(即击败柯洁的版本)的顶级高手。最妙的是,至今人类也不知道Alpha Go Zero自己摸索开发出的算法是怎样。
同样是2017年,发明家马斯克旗下Open AI的人工智能玩家在电竞游戏DOTA这种存在各种陌生环境,需要团体协作的游戏中,连续打败顶尖业余人类玩家组合的队伍。在此之前,人工智能仅仅经历数周的自我训练和对战,游戏技巧的进步一日千里。这也代表着人工智能“深度学习”的能力,已经从围棋这种相对单纯的“分割空间”走向更为复杂的“连续空间”,开始处理更复杂环境中的决策。
人工智能会下棋就会投资?
相信大家已经看出,人工智能的深度强化学习的范畴,已经跟真实环境中的要求越来越接近。可以说,基于深度强化学习的“金融Alpha Go Zero”诞生只是时间问题。目前,我们正在研发中的人工智能量化投资模型,与上文中围棋或电竞游戏的方法非常相似:
在环境因素中,Alpha Go Zero分析的是对手和自己的下子,金融Alpha Go Zero分析的则是资本市场和宏观经济的各种信息。在回报方面,Alpha Go Zero分析获胜的概率,金融Alpha Go Zero分析的回报则是投资收益,是否达到投资目标。在行动范围方面,围棋Alpha Go Zero分析的是棋盘上没有被落子的位置,金融Alpha Go Zero分析的则是设计者规定的投资范围和标的。
在学习的过程中,围棋Alpha Go Zero评估潜在落子位置的价值,评估自己的落子位置策略和先后,金融Alpha Go Zero则评估各类资产的投资价值,评估每个可投资资产应当被依照什么比重来配置。
这只自我学习的“金融阿尔法狗”如何工作是人类难以想象的。正如围棋Alpha Go Zero不再需要经验和棋谱,“金融阿尔法狗”学习的是投资的“能力”而非仅是“技巧”。
与过去各类量化投资模型相比,这一进步的巨大意义首先在于,设计者不需要再对每类资产单独设计模型,不用提取“因子”或设立标签,大大减少了人力成本,而其学习也不受到资产类别的限制,可以自动灵活应变。由于不用人类提供标签和经验,设计者可以建立各种不同的目标,例如成本、风险、最大回撤、流动性变现等等,各种投资中需要考虑的因素和目标如何去平衡?这个问题交给机器自己。
此外,过往的量化投资算法往往本身就基于历史数据和经验归纳,很难再用同一堆历史数据去测试出它真实的投资能力,而且金融市场用历史推断未来往往失效。人工智能的强化学习则可以采取用一类资产的历史数据进行学习,再用另一类资产的数据进行测试,或者是用中国股市的数据进行学习,用印度股市的数据来测试,更能够测试出人工智能的真实能力。
这听起来或许神乎其神,但事实上,它符合我们生活中最简单的判断方式——要知道一个孩子是不是好学生,最好的方法是交给他新的学习任务,看他是否能很快攻克。要知道一个新人是不是好员工,最好的方法是交给他从未做过的工作,看他是否能顺利完成。人工智能是不是真的能自学成才,超越人类投资专家,也有待给予它们全新挑战去验证。
-
人工智能
+关注
关注
1789文章
46576浏览量
236899 -
强化学习
+关注
关注
4文章
265浏览量
11195
原文标题:人工智能真的能成为投资高手吗?
文章出处:【微信号:robot-1hjqr,微信公众号:1号机器人网】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论