0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于数据挖掘原理分析及其在量化投资中的应用介绍

MATLAB 来源:djl 2019-09-19 09:00 次阅读

一、什么是数据挖掘

数据挖掘(Data Mining),也叫数据开采,数据采掘等,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘基于的数据库类型主要有关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、文本型、 Internet信息库 以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。数据挖掘在数据由数据库转化为知识的过程中,所处的位置如图1所示。

关于数据挖掘原理分析及其在量化投资中的应用介绍

图1 数据由数据库转化为知识的过程

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识(也包括大量的不公开的数据)。数据挖掘使数据库技术进入了一个更高级的阶段。数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。能够比市场提前知道这种信息,提前做出决策就会获得超额利润。

二、数据挖掘的原理

数据本来只是数据,直观上并没有表现出任务有价值的知识。当我们用数据挖掘方法,从数据中挖掘出知识后,这种知识是否值得信赖呢?为了说明这种知识是可信的, 现在来简要介绍一下数据挖掘的原理。

关于数据挖掘原理分析及其在量化投资中的应用介绍


图2 数据挖掘与其他学科的关系

数据挖掘其实质是综合应用各种技术,对于业务相关的数据进行一系列科学的处理,这这过程中需要用到数据库、统计学、应用数学、机器学习、可视化、信息科学、程序开发以及其他学科(如图2所示)。其核心是利用算法对处理好的输入和输出数据进行训练,并得到模型, 然后再对模型进行验证,使得模型能够在一定程度上刻画出数据由输入到输出的关系, 然后再利用该模型,对新输入的数据进行计算,从而得到我们希望得到的新的输出。所以虽然这种模型不容易解释或很难看到, 但它是基于大量数据训练并经过验证的,所以能够反映输入数据和输出数据之间的大致关系,这种关系(模型)就是我们需要的知识。这就是数据挖掘的原理。从数据挖掘的原理可以看出, 数据挖掘是有一定科学依据的, 数据挖掘的结果也是值得信赖的。

三、数据挖掘在量化投资的应用

1、宏观经济分析

股市的影响因素很多,但中国股市对宏观政策尤其敏感,从根本上说,股市的运行与宏观的经济运行应当是一致的,经济的周期决定着股市的周期,股市周期的变化反映了经济周期的变动。其中经济周期包括衰退、危机、复苏和繁荣四个阶段。按照一般常理来说,在经济衰退时期,股价指数会逐渐下跌;到经济危机时期,股价指数跌至最低点;当经济复苏开始时,股价指数又会逐步上升;到经济繁荣时,股价指数则上涨至最高点。由此看来宏观经济走势影响着股市的波动,但宏观经济走势与股市趋势的变动周期也不是完全同步的。所以无论从量化投资角度还是传统投资方式角度,对宏观经济进行深入的分析是必须的。

在量化投资领域, 数据挖掘技术可以做以下几个方面的工作:

分析GDP对股市及个股的影响。

分析分析货币供应量对股票价格的影响及对个股的影响。

分析利率对股市的影响及利率变化对个股的影响。

分析汇率对股市及个股的影响。

在宏观经济分析方面, 经常用到回归、关联分析、分类、预测等方法。比如利用回归、预测等技术确定经济周期, 并研究不同股票于各经济周期的关联性, 这样就可以在不同的经济周期,制定不同的投资策略,这样不仅可以在不同的经济周期实现持续盈利,还可以规避风险。 比如有的投资机构在2008年前就利用数据挖掘技术确认当时的经济周期,提前减仓,改变投资策略,不仅避免了风险,而且实现了高额收益。 其实,如果将08年之前的宏观经济数据可视化之后(图3所示), 就会发现这期间的经济环境了。

关于数据挖掘原理分析及其在量化投资中的应用介绍

图3 08年前后的宏观经济趋势图

2、估价

国内外大量实证研究结果表明:上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资。

通过对上市公司的价值的评估,来进行股票的选择。这是现在占据主流地位的基本面分析的基本方法。通过各种不同的方法对于上市公司的价值进行一个评估,然后结合股票市场上的表现来决定市场上的价格是否被低估或者高估。如果低估则买入,如果高估则卖出。当然,中国市场现在还没有卖空的途径,刚刚获批的融资融券业务也只是在限定标的的情况下进行部分的卖空,所以中国市场还是主要以买入为主。于是,我们更多的是选择那些价格被低估的股票。分析未来股票发行和上市价格的合理定位。

数据挖掘技术在估价方面的应用就是去挖掘价值被低估的股票, 比如可以用最近邻方法确定基本面相似的股票的市场估价, 然后根据实际价格很容易确定哪些股票被低估或者高估。 该方法对于新股的认购策略也同样非常有帮助, 因为可以用来评估新股的合理价格区间。

3、量化选股

量化选股是数据挖掘在量化投资领域研究和应用最多的课题,毕竟选股是量化投资的最重要的内容。像上面刚介绍的多因子选股模型,主要是靠数据挖掘中的回归方法得到的。当然量化选股的内容不仅限于此,数据挖掘技术在选股上有多重应用,有时是为策略提供决策基础, 有时是根据策略进行挖掘。 比如,可以用聚类方法对股票进行聚类,从而对股票进行分池, 选股的时候就2可以从上涨概率比较大的池子中选择股票。 再比如,可以用神经网络方法预测股票的涨跌概率,具体实现方法这里先不赘述, 这些内容在本书中将都会进行介绍。

4、量化择时

量化投资领域中,一个好的选股策略是比较容易实现的。这是因为在长时间跨度里能够跑赢市场的一些投资组合一般会满足某种特性,例如低估值、例如高成长、例如小市值、例如隐形资产低估等等。 但择时就不是那么简单了, 这里会有一个简单的问题:大盘明天是涨还是跌?

这个看似简单的问题其实并不好回答,尤其是从量化的角度去处理,甚至我们从传统的策略研究——技术面+基本面+政策面会更加好回答一些。为什么?因为量化择时无法处理来自政策面的消息。还有就是量化择时经常会有很强的时域特性,太短的时域预测例如一天,太长的时域预测例如一年,量化择时是很难处理的。

正因为择时比较难处理, 所以采用数据挖掘技术, 用大量的数据去寻找最佳的卖点相对显得更理性些。 比如用上面刚介绍的SVM方法进行择时, 或采用神经网络预测近期的涨跌趋势, 再或者采用分类方法判断近期的最佳交易周期。

5、算法交易

算法交易(algorithmic trading),是指把一个指定交易量的买入或者卖出指令放入模型,该模型包含交易员确定的某些目标。 根据这些特殊的算法目标,该模型会产生执行指令的时机和交易额。而这些目标往往基于某个基准、价格或时间。这种交易有时候被称“黑箱交易”。算法交易通过程序系统交易,将一个大额的交易拆分成数十个小额交易,以此来尽量减少对市场价格造成冲击,降低交易成本,且还能帮助机构投资者快速增加交易量。

算法交易系统的核心是通过一套计算机程序,可以在一秒钟内产生数千个交易指令,其中许多指令瞬间就可以被取消或被新的指令取代,从而把大额委托化整为零,减小对市场的冲击,并且可以寻求最佳的成交执行路径,减少交易成本。但程序的核心是交易算法,而这种敢于在市场上进行实操的算法往往都是在大量的历史交易数据挖掘中得到的, 然后再经过严格的测试,确定算法的可靠且有效后方可投入实际的算法交易。 在算法交易方面,可用到的数据挖掘技术比较广, 往往涉及到多种方法的综合。 在算法交易方面,目前用的比较多的数据挖掘方法是集成决策树, 其核心是当不同的指标(信号)出现不同的情况时,给出具体的交易操作(买入或卖出),采用这种方法不仅是稳定、灵活,而且还可以采用优化算法对其进行优化,提高收益, 图4即为采用遗传算法优化交易指标的迭代效果图。

关于数据挖掘原理分析及其在量化投资中的应用介绍


图4 遗传算法优化交易指标的迭代效果图

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24212
收藏 人收藏

    评论

    相关推荐

    Prosus投资Swiggy获利丰厚

    南非Naspers集团荷兰子公司Prosus,同时也是腾讯的大股东,近期印度在线食品订购和配送公司Swiggy的投资中取得了显著的回报。据Prosus透露,该公司Swiggy的投资中
    的头像 发表于 11-14 15:01 243次阅读

    raid 数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID数据分
    的头像 发表于 11-12 09:44 164次阅读

    博世氢动力系统重庆项目入选央视财经“投资中国”年度案例

    中央广播电视总台与中国国际贸易促进委员会共同主办的“投资中国·央视财经CBD跨国公司对话”活动北京举办。活动现场,由国家发展改革委、工信部、商务部、海关总署、市场监管总局以及中国贸促会联合
    的头像 发表于 09-29 10:00 326次阅读

    5G轻量化网关是什么

    量化网关的定义、特点、应用场景以及其物联网领域的重大意义。 定义与概述 5G轻量化网关,全称为Reduced Capability(RedCap)网关,是5G技术的一种创新应用,旨
    的头像 发表于 09-04 15:17 265次阅读
    5G轻<b class='flag-5'>量化</b>网关是什么

    英特尔成都入选央视财经“投资中国”年度案例

    日前,中央广播电视总台主办的“投资中国·央视财经CBD跨国公司对话”活动上,英特尔产品(成都)有限公司(简称“英特尔成都”)凭借过去二十多年的持续投入、对进出口贸易的长期贡献以及可持续发展等方面的卓越表现,入选央视财经“
    的头像 发表于 08-16 15:38 465次阅读

    StarRocks 与 AWS 合作持续深入,为全球245个国家企业用户提供轻量化云服务

    。 随着数据时代的到来,企业面临着海量数据的挑战,如何从这些数据挖掘出有价值的信息成为了关键。 StarRocks通过与亚马逊云科技AWS的深度合作,为用户提供低成本高效率的
    的头像 发表于 08-12 17:29 377次阅读
    StarRocks 与 AWS 合作持续深入,为全球245个国家企业用户提供轻<b class='flag-5'>量化</b>云服务

    典型的数据采集系统设计及其核心元件

    本文简要介绍了典型的数据采集系统及其核心元件。然后介绍 AnalogDevices Inc 的数据采集 (DAQ) 模块,该模块集成了许多关
    的头像 发表于 07-18 10:28 1422次阅读
    典型的<b class='flag-5'>数据</b>采集系统设计<b class='flag-5'>及其</b>核心元件

    数据分析除了spss还有什么

    Sciences)是一款非常流行的统计分析软件,但除了SPSS之外,还有许多其他数据分析工具和方法。 引言 数据分析是一个跨学科的领域,涉及到统计学、计算机科学、数据
    的头像 发表于 07-05 15:01 556次阅读

    esp-dl int8量化模型数据集评估精度下降的疑问求解?

    一 试着将模型进行了esp-dl上int16和int8的量化,并在测试数据集上进行精度评估,其中int16的模型精度基本没有下降,但是int8的模型评估精度下降了很多,目前正在尝试修改
    发表于 06-28 15:10

    求助,关于AD采集到的数据分析问题

    MATLAB中画图后能看到几个周期的图像 数据特征:matlab中能看到图像是由两部分构成,一部分是基波及其n次谐波,即存在上升沿,过冲,另一部分是随机噪声 求各位大神科普数据分析
    发表于 05-09 07:40

    态势数据分析系统软件

    智慧华盛恒辉态势分析软件系统的功能描述、部署环境、界面使用、技术支持及一些常见问题及其解决办法等。为数据态势分析软件系统的管理人员和使用人员提供说明。 智慧华盛恒辉态势
    的头像 发表于 04-22 11:36 415次阅读

    数据挖掘的应用领域,并举例说明

    揭示数据中隐藏的规律、关联和趋势,支持决策和预测。 数据挖掘广泛应用于各个领域,涉及金融、电子商务、医疗健康、交通运输、社交网络、市场营销、能源资源、航空航天、环境保护、国防安全等等。下面将详细
    的头像 发表于 02-03 14:19 2934次阅读

    全球显示设施投资将锐减,OLED将在2024年引领市场

    此外,DSCC还预测,明年OLED设施投资规模将基本相当于2021年预设,而2025年的投资规模则预期与2020年相仿。报告同时指出,尽管OLED显示屏设备投资中的比例逐渐提高,但其
    的头像 发表于 12-26 09:53 420次阅读

    瑞萨量化宽松(快速有效)工具解决方案介绍

    电子发烧友网站提供《瑞萨量化宽松(快速有效)工具解决方案介绍.pdf》资料免费下载
    发表于 12-21 10:39 0次下载
    瑞萨<b class='flag-5'>量化</b>宽松(快速有效)工具解决方案<b class='flag-5'>介绍</b>

    数据挖掘示波器与传统示波器的区别在哪里?

    数据采集方式:传统示波器通过将模拟信号转换为数字信号进行采集和显示。而数据挖掘示波器主要用于数字信号的采集和分析,例如从数字通信系统、传感器网络等获取的数字信号进行处理和
    的头像 发表于 12-04 14:28 398次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>挖掘</b>示波器与传统示波器的区别在哪里?