一、什么是数据挖掘
数据挖掘(Data Mining),也叫数据开采,数据采掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘基于的数据库类型主要有关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、文本型、 Internet信息库 以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。数据挖掘在数据由数据库转化为知识的过程中,所处的位置如图1所示。
图1 数据由数据库转化为知识的过程
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识(也包括大量的不公开的数据)。数据挖掘使数据库技术进入了一个更高级的阶段。数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。能够比市场提前知道这种信息,提前做出决策就会获得超额利润。
二、数据挖掘的原理
数据本来只是数据,直观上并没有表现出任务有价值的知识。当我们用数据挖掘方法,从数据中挖掘出知识后,这种知识是否值得信赖呢?为了说明这种知识是可信的, 现在来简要介绍一下数据挖掘的原理。
图2 数据挖掘与其他学科的关系
数据挖掘其实质是综合应用各种技术,对于业务相关的数据进行一系列科学的处理,这这过程中需要用到数据库、统计学、应用数学、机器学习、可视化、信息科学、程序开发以及其他学科(如图2所示)。其核心是利用算法对处理好的输入和输出数据进行训练,并得到模型, 然后再对模型进行验证,使得模型能够在一定程度上刻画出数据由输入到输出的关系, 然后再利用该模型,对新输入的数据进行计算,从而得到我们希望得到的新的输出。所以虽然这种模型不容易解释或很难看到, 但它是基于大量数据训练并经过验证的,所以能够反映输入数据和输出数据之间的大致关系,这种关系(模型)就是我们需要的知识。这就是数据挖掘的原理。从数据挖掘的原理可以看出, 数据挖掘是有一定科学依据的, 数据挖掘的结果也是值得信赖的。
三、数据挖掘在量化投资的应用
1、宏观经济分析
股市的影响因素很多,但中国股市对宏观政策尤其敏感,从根本上说,股市的运行与宏观的经济运行应当是一致的,经济的周期决定着股市的周期,股市周期的变化反映了经济周期的变动。其中经济周期包括衰退、危机、复苏和繁荣四个阶段。按照一般常理来说,在经济衰退时期,股价指数会逐渐下跌;到经济危机时期,股价指数跌至最低点;当经济复苏开始时,股价指数又会逐步上升;到经济繁荣时,股价指数则上涨至最高点。由此看来宏观经济走势影响着股市的波动,但宏观经济走势与股市趋势的变动周期也不是完全同步的。所以无论从量化投资角度还是传统投资方式角度,对宏观经济进行深入的分析是必须的。
在量化投资领域, 数据挖掘技术可以做以下几个方面的工作:
分析GDP对股市及个股的影响。
分析分析货币供应量对股票价格的影响及对个股的影响。
分析利率对股市的影响及利率变化对个股的影响。
分析汇率对股市及个股的影响。
在宏观经济分析方面, 经常用到回归、关联分析、分类、预测等方法。比如利用回归、预测等技术确定经济周期, 并研究不同股票于各经济周期的关联性, 这样就可以在不同的经济周期,制定不同的投资策略,这样不仅可以在不同的经济周期实现持续盈利,还可以规避风险。 比如有的投资机构在2008年前就利用数据挖掘技术确认当时的经济周期,提前减仓,改变投资策略,不仅避免了风险,而且实现了高额收益。 其实,如果将08年之前的宏观经济数据可视化之后(图3所示), 就会发现这期间的经济环境了。
图3 08年前后的宏观经济趋势图
2、估价
国内外大量实证研究结果表明:上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资。
通过对上市公司的价值的评估,来进行股票的选择。这是现在占据主流地位的基本面分析的基本方法。通过各种不同的方法对于上市公司的价值进行一个评估,然后结合股票市场上的表现来决定市场上的价格是否被低估或者高估。如果低估则买入,如果高估则卖出。当然,中国市场现在还没有卖空的途径,刚刚获批的融资融券业务也只是在限定标的的情况下进行部分的卖空,所以中国市场还是主要以买入为主。于是,我们更多的是选择那些价格被低估的股票。分析未来股票发行和上市价格的合理定位。
数据挖掘技术在估价方面的应用就是去挖掘价值被低估的股票, 比如可以用最近邻方法确定基本面相似的股票的市场估价, 然后根据实际价格很容易确定哪些股票被低估或者高估。 该方法对于新股的认购策略也同样非常有帮助, 因为可以用来评估新股的合理价格区间。
3、量化选股
量化选股是数据挖掘在量化投资领域研究和应用最多的课题,毕竟选股是量化投资的最重要的内容。像上面刚介绍的多因子选股模型,主要是靠数据挖掘中的回归方法得到的。当然量化选股的内容不仅限于此,数据挖掘技术在选股上有多重应用,有时是为策略提供决策基础, 有时是根据策略进行挖掘。 比如,可以用聚类方法对股票进行聚类,从而对股票进行分池, 选股的时候就2可以从上涨概率比较大的池子中选择股票。 再比如,可以用神经网络方法预测股票的涨跌概率,具体实现方法这里先不赘述, 这些内容在本书中将都会进行介绍。
4、量化择时
量化投资领域中,一个好的选股策略是比较容易实现的。这是因为在长时间跨度里能够跑赢市场的一些投资组合一般会满足某种特性,例如低估值、例如高成长、例如小市值、例如隐形资产低估等等。 但择时就不是那么简单了, 这里会有一个简单的问题:大盘明天是涨还是跌?
这个看似简单的问题其实并不好回答,尤其是从量化的角度去处理,甚至我们从传统的策略研究——技术面+基本面+政策面会更加好回答一些。为什么?因为量化择时无法处理来自政策面的消息。还有就是量化择时经常会有很强的时域特性,太短的时域预测例如一天,太长的时域预测例如一年,量化择时是很难处理的。
正因为择时比较难处理, 所以采用数据挖掘技术, 用大量的数据去寻找最佳的卖点相对显得更理性些。 比如用上面刚介绍的SVM方法进行择时, 或采用神经网络预测近期的涨跌趋势, 再或者采用分类方法判断近期的最佳交易周期。
5、算法交易
算法交易(algorithmic trading),是指把一个指定交易量的买入或者卖出指令放入模型,该模型包含交易员确定的某些目标。 根据这些特殊的算法目标,该模型会产生执行指令的时机和交易额。而这些目标往往基于某个基准、价格或时间。这种交易有时候被称“黑箱交易”。算法交易通过程序系统交易,将一个大额的交易拆分成数十个小额交易,以此来尽量减少对市场价格造成冲击,降低交易成本,且还能帮助机构投资者快速增加交易量。
算法交易系统的核心是通过一套计算机程序,可以在一秒钟内产生数千个交易指令,其中许多指令瞬间就可以被取消或被新的指令取代,从而把大额委托化整为零,减小对市场的冲击,并且可以寻求最佳的成交执行路径,减少交易成本。但程序的核心是交易算法,而这种敢于在市场上进行实操的算法往往都是在大量的历史交易数据挖掘中得到的, 然后再经过严格的测试,确定算法的可靠且有效后方可投入实际的算法交易。 在算法交易方面,可用到的数据挖掘技术比较广, 往往涉及到多种方法的综合。 在算法交易方面,目前用的比较多的数据挖掘方法是集成决策树, 其核心是当不同的指标(信号)出现不同的情况时,给出具体的交易操作(买入或卖出),采用这种方法不仅是稳定、灵活,而且还可以采用优化算法对其进行优化,提高收益, 图4即为采用遗传算法优化交易指标的迭代效果图。
图4 遗传算法优化交易指标的迭代效果图
-
数据挖掘
+关注
关注
1文章
406浏览量
24212
发布评论请先 登录
相关推荐
评论