证券业的数据挖掘
其典型应用包括有:
1、客户分析
建立数据仓库来存放对全体客户、预定义客户群、某个客户的信息和交易数据,并通过对这些数据进行挖掘和关联分析,实现面向主题的信息抽取。对客户的需求模式和盈利价值进行分类,找出最有价值和盈利潜力的客户群,以及他们最需要的服务,更好地配置资源,改进服务,牢牢抓住最有价值的客户。
通过对客户资源信息进行多角度挖掘,了解客户各项指标(如资产贡献、忠诚度、盈利率、持仓比率等),掌握客户投诉、客户流失等信息,从而在客户离开券商之前,捕获信息,及时采取措施挽留客户。
2、咨询服务
根据采集行情和交易数据,结合行情分析,预测未来大盘走势,并发现交易情况随着大盘变化的规律,并根据这些规律做出趋势分析,对客户针对性进行咨询。
3、风险防范
通过对资金数据的分析,可以控制营业风险,同时可以改变公司总部原来的资金控制模式,并通过横向比较及时了解资金情况,起到风险预警的作用。
4、经营状况分析
通过数据挖掘,可以及时了解营业状况、资金情况、利润情况、客户群分布等重要的信息。并结合大盘走势,提供不同行情条件下的最大收益经营方式。同时,通过对各营业部经营情况的横向比较,以及对本营业部历史数据的纵向比较,对营业部的经营状况作出分析,提出经营建议。
电信业的数据挖掘
电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、计算机和WEB数据传输以及其他的数据通信服务。电信、计算机网络、因特网和各种其他方式的的通信和计算的融合是目前的大势所趋。而且随着许多国家对电信业的开放和新兴计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早的发现盗用,为公司减少损失。
移动通信领域的数据挖掘
针对信息化的应用,移动通信行业信息化进程得到巨大发展和广泛应用,运营网络系统、综合业务系统、计费系统、办公自动化等系统的相继使用,为计算机应用系统的运行积累了大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析人员与管理决策者的。一方面,联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业务扩展的需求;另一方面,管理者和决策者只能根据固定的、定时的报表系统获得有限的经营与业务信息,无法适应激烈的市场竞争。
随着我国政府对电信行业经营的进一步放开和政策约束的调整以及客户对电信服务质量要求的提高、盗打、欺诈因素的增加等等,移动通信的经营面临更加复杂的局面,营运成本大幅度增加。因此,如何在激烈的市场竞争条件下,在满足客户需求和优质服务的前提下充分利用现有设备降低成本、提高效益,就成为决策者们共同关心的课题。
依照国外电信市场的发展经验和历程,市场竞争中电信公司的成功经营之道是:(1) 以高质量的服务留住现有客户;(2) 提高通话量和设备利用率,用比竞争者更低的成本争取新客户,扩大市场份额;(3)放弃无利润和信用差的客户,降低经营风险和成本。
对于一个相对成熟的移动通信运营商来说,各运营与支撑系统所积累的海量历史数据无疑是一笔宝贵的财富,而数据挖掘正是充分利用这些宝贵资源从而达到上述三重目标的一种最为有效的方法与手段。
体育领域的数据挖掘
1、体质数据分析
目前,我国对健康和增强体质都十分重视,每年都有很多相关的体质测试。这样年复一年地积累了大量数据,而对这些数据的分析采用的几乎都是统计方法,包括很多单位的体育分析和评价软件,主要是对体质数据的均值分析以及套用规定的评价公式进行评价和分析。显然,它们对体育中的体质数据分析有一定的贡献,但其作用也只能局限于数据本身的大小比较,且产生的结果通常只能由专业人员能够理解,另外只采用统计的方法挖掘数据之间的联系也十分有限。
利用数据挖掘对体质数据进行挖掘,很容易产生统计方法难以实现的结果。例如,根据积累和不断收集的数据,结合体质数据和营养学方面的知识,可以挖掘出造成不同地区体质好或差的营养方面的原因;同样,根据体质数据和医学方面的知识,能够挖掘出人们的健康状况,甚至分析出导致健康状况较低的可能的疾病原因,从而可以更好地为人们自我保健和健身等各方面提供有力的指导;此外,采用数据挖掘对有名运动员的早期体质数据进行分析,能够找出它们的共同特点,从而为体育选材提供有力的依据。体质数据库正如一个宝矿,采用数据挖掘技术,肯定能够挖掘出很多难以想象的宝藏。
2、 体育产业中的应用
数据挖掘最初的应用就是商业领域,而体育产业本身就是一类典型的商业。在一般的商业数据挖掘中,DM技术判断哪些是它们的最有价值客户、重新制定它们的产品推广策略(把产品推广给最需要它们的人),以用最小的花费得到最好的销售。以体育广告为例,可以对国内从事不同体育运动广告业务的数据库进行挖掘,比如,发现了做某类体育广告的单位或公司的特征,那么就可以向那些具有这些特征但还未成为我们的客户的其它公司或单位推销这类体育广告;同样,如果通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。这样,可以一定程度地提高体育广告的效益。,因此,及时、有效地利用DM,可以为我国体育产业创造更多的财富。
3、 竞技体育中的应用
竞技体育特别是对抗性质的竞技,通常不但要求运动员实际水平高,同时战术策略也相当重要,有时竞技中的战术甚至起到决定性作用。认识到数据挖掘的功能后,国外已经将其应用于竞技体育中。例如,美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场辅助决定替换队员,而且取得了很好的效果。系统分析显示魔术队先发阵容中的两个后卫安佛尼。哈德卫(Anfernee Hardaway)和伯兰。绍(Brian Shaw)在前两场中被评为-17分,这意味着他俩在场上本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔。阿姆斯创(Darrell Armstrong)组合时,魔术队得分为正14分。在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但数据挖掘毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。目前,NBA球队中大约20个使用了IBM公司开发的该软件系统来优化他们的战术组合。同样,利用数据挖掘技术也可以分析足球、排球等类似对抗性的竞技运动,从中找出对手的弱点,制定出到更有效的战术。
邮政业的数据挖掘
中国邮政建立了目前国内最大的物流交换体系,同时也积累了大量的用户数据,如何利用这些用户数据,通过数据分析为邮政业务的发展提供科学决策依据,是邮政部门十分关心的问题。数据挖掘技术可以很好地为邮政部门解决上述问题,利用该技术,我们可以进行客户存款余额分析、客户存款结构分析、平均存款利率分析、不同储种余额分析、不同储种客户分析、揽储统计分析、业务量统计分析等等。我们以客户存款分析进行介绍。采用分析的维包括如下: 营业网点的地区:以地区作为分析维度,可以判断出各个储蓄所的工作业绩情况; 客户的年龄:根据客户年龄段对存款余额进行统计,从中可以分析出哪个年龄段的客户是优良客户,哪些客户是未来开发的重点。客户的地址:根据客户所在地区统计存款余额, 可以分析出各地区的经济情况以及人们对邮政储蓄的认识程度,从而为以后的业务拓展提供依据; 存款的用途:居民的储蓄存款用途比较繁杂,但是了解有规律的存款目的一方面可以帮助邮政储蓄及时想客户之所想,拉近与客户之间的距离;另一方面可以为新业务的拓展提供有力的信息;时间段:通过这种分析可以及时掌握客户储蓄的变化规律,从而适当调整邮政业务流程。例如,根据客户存款的变化规律可以预见性的及时调整邮政储蓄的头寸资金,在保证投资最大化的同时,预防金融风险。
呼叫中心的数据挖掘
呼叫中心正在逐渐成为企业进行信息收集的主要渠道。在收集了大量的数据之后,如何将这些数据进行整理、分析,为企业进行科学决策提供支持,也是面临的一个主要问题。数据挖掘技术,能提供一条新的解决出路。
为决策提供依据,将数据挖掘技术引入呼叫中心,具有十分重要的意义。企业运营过程中的各种信息都是通过数据反映出来的,通过对这些数据的分析,可以发现企业运营过程中的规律,从而对企业的生产活动、市场活动等提供科学指导意义。
呼叫中心目前仅解决了企业与外部市场进行信息接入的问题,产生的大量数据通过报表等统计方法,只能得到一般意义上的信息反映。而通过数据挖掘技术,可以发现许多深层的、手工无法发现的规律,帮助企业在激烈的竞争环境中,占有更多的先机。
为用户提供针对性服务,通过数据挖掘技术,可以根据客户的消费行为进行分类,找出该类客户的消费特征,然后通过呼叫中心提供更具个性化的服务,从而改进企业的服务水平,提高企业的社会效益和经济效益。
提高企业的决策科学,目前,企业的决策具有很大的盲目性。如果采用数据挖掘技术,就可以在自己的生产过程中产生的数据基础上,进行科学分析,得出比较科学的预测结果,减少决策失误。通过数据挖掘技术,可以让企业的决策回归到自己的业务中,得出更实际的判断。
增值更容易,数据挖掘在呼叫中心中会有很多种应用,而且有些应用可以帮助简化管理运营,有的则可以提供一些业务关联性的数据,帮助企业呼叫中心更好地开展业务,实现增值。具体说来,增值应用表现在以下方面。分析客户行为,进行交叉销售。在呼叫中心的各种客户中,可以根据其消费的特点,进行相关分析,了解某类客户在购买一种商品时,购买其它种类产品的概率有多大。根据这种相互的关联性,就可以进行交叉销售。分析客户忠诚度,避免客户流失。在客户分析过程中,会有很多重要的大客户流失。采用数据挖掘技术,可以对这些流失的大客户进行分析,找出数据模型,发现其流失的规律,然后有针对性地改进服务质量,避免客户的流失,减少企业的经济损失。
简化管理,呼叫中心的运营管理被人们提到前所未有的高度,因为一个中心即使建得很好,技术也很先进,但如果管理不好,优势仍然发挥不出来。然而,管理对于很多呼叫中心来说,却是很难过的门槛,数据挖掘能帮助简化管理。
预测话务量,安排人工座席,在呼叫中心中,话务量是个重要的指标,企业要根据话务量的大小,安排座席人员的数量,但话务量是个变化的指标,以往比较难以预测。通过数据挖掘中的时间序列分析,可以对话务量的情况进行一定程度的预测,就可以更合理地安排座席人员的数量,在不降低呼叫中心接通率的基础上,降低企业的运营成本。
进行关联分析,降低运营成本。在运营型的呼叫中心中,常常会提供很多种业务服务,并根据这些业务种类的不同,安排座席人员的数量和排班。通过数据挖掘中关联分析,可以进行业务的相关性分析,分析出哪几种业务具有比较强的关联性。如在快递行业,送生日蛋糕的业务与送鲜花的业务可能就有很大的关联性。这样,在安排座席人员时,就可以将两种业务的座席人员进行一定程度的合并,减少人员数量,降低呼叫中心的经营成本。
数字图书馆的数据挖掘
WEB挖掘是一个前景非常看好的工具。我们知道,传统的效率低下的搜索引擎检索出的信息往往索引不完全、有大量的无关信息或没有进行可靠性验证。用户能够快速方便地从WEB中检索出相关的可靠的信息是一个系统的最基本的要求。WEB挖掘不仅能够从WWW的大量的数据中发现信息,而且它监视和预测用户的访问习惯。这样给设计人员在设计WEB站点时有更多的可靠的信息。WEB挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方向发展。WEB挖掘技术为图书馆员进行信息服务提供了先进的工具。有了这个工具,图书馆员能够按照各个用户的要求或习惯,为用户组织更多、更好的高质量信息。
例如;院校图书馆员们应用WEB挖掘技术为本院校不同学科中的不同研究课题从WWW中检索相关信息。该技术可以自动地检索信息,并把信息按照课题领域进行分类,使它们更容易访问。图书馆员可以通过为不同的课题领域建立一组特征,并以这些特征为基础进行检索和分类,从而保证得到的信息是可靠的和具有权威性的。由于WEB挖掘技术能够自动地,不须人工干预地从WWW中发现和组织信息,从而使图书馆员只需花少量的时间来维护数据库即可完成任务。用户由于不需要花大量的时间来浏览成百上千的文档,就可在相当短的时间里得到想要的信息而感到非常满意。更重要的是,他们可以在任何时间访问到世界任何地方的信息。事实上,这就是图书馆员把他们的咨询服务从桌面转移到INTERNET的具体工作表现。
网站的数据挖掘
随着Web技术的发展,各类电子商务网站风起云涌。建立一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需要点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Log files)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。
生物医学和DNA的数据挖掘
生物信息或基因数据挖掘对人类受益非浅。例如,基因的组合千变万化,得某种疾病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。
对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。
因特网筛选的数据挖掘
最近,有不少数据挖掘产品用来筛选因特网上的新闻,保护用户不受无聊电子邮件和商业推销的干扰,很受欢迎。
气象预报中的数据挖掘
农业生产与气候、气象有着密切的关系,我国是一个农业大国,农业生产关系到国家经济命脉和人民生活。天气系统是一个复杂性系统,其影响因素多,时空状态变化大。气象数据中蕴含着复杂非线性动力学机制。各个因素之间的关系十分复杂,并具有纷杂多变的时空特征。因而,难以建立农业生产与气象要素的关系。采用新的技术和方法进行相关研究有实际意义,也是应用发展及需求的驱动,数据挖掘技术可以用来解决此问题。
国外利用数据挖掘来进行气象预报的应用研究所采用的方法主要包括:神经网络、分类和聚类;国内则有人采用了小波分析与语言场相结合的知识表示方法,针对气象数据提出一种新的基于小波分析和混沌理论相结合进行类别知识的发现方法,气象数据通过小波变换后可以提取表示天气系统的特征数据,利用特征数据同农业生产相关指标(如产量,害虫密度等)的关系进行数据挖掘,数据挖掘的方法包括:分类、聚类、关联规则以及相似模式等,从非结构化数据信息挖掘的角度构建了一个实用的、可扩展的、易操作的气象科学研究的应用系统。
水文数据的数据挖掘
信息获取与分析技术的快速发展,特别是遥测、遥感、网络、数据库等技术的应用,有力地促进了水文数据的采集和处理技术的发展,使之在时间和空间的尺度及要素类型上有了不同程度的扩展。由于水在人类生存发展中的特殊作用,应用各种新技术获取水文数据,挖掘蕴藏于水文数据中的知识,已成为水文科学发展的新热点。数字水文系统的提出是水文科学发展的时代标志之一。其核心是如何形成数字化的、覆盖整个指定地域空间的、多重时空尺度的、多种要素的、对水文分析有用的数据产品。
水文数据挖掘是精确水文预报和水文数据分析的重要基础。在我国,整个水文整编资料数据累计量已超过7000MB,加上进行水文预报所需的天气、地理等数据,进行水文分析所需要处理的数据量很大。从这些数量巨大、类型复杂的数据中及时准确地挖掘出满足需要的知识,往往因为计算能力、存储能力、算法的不足而无能为力。因此,需要高效的水文数据挖掘技术。数据挖掘技术在水文信息服务领域的应用将是多方面的。
数据挖掘一般有关联分析(Associations)、序列模式分析(Sequential Patterns)、分类分析(Classifiers)、聚类分析(Clustering)等功能类型。根据应用目标不同,数据挖掘可以采用或借鉴各种已经存在的理论和算法,如信息论、数理逻辑、进化计算、神经计算、统计学等以及面向实例的学习的许多算法都可以应用于数据挖掘系统的实现中。水文数据挖掘可以应用决策树、神经网络、覆盖正例排斥反例、粗糙集(Rough Set)、概念树、遗传算法、公式发现、统计分析、模糊论等理论与技术,并在可视化技术的支持下,构造满足不同目的的水文数据挖掘应用系统。
视频数据的数据挖掘
目前,多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,尤其是视频数据,由于它能记录、保留空间和时间上的各种信息,其内容丰富,但使人们能够以最接近自然的方式获得更多的细节。视频数据在生活中的应用越来越广泛,已产生了大量的数字视频库,目前的研究主要集中在数字视频库的组织管理和使用上,特别是基于内容的视频检索技术。基于内容的视频信息检索技术虽然在某种程度上解决了视频搜索和资源发现问题,但是,视频信息检索只能获取用户要求的视频“信息”,而不能从大量视频数据中分析出蕴含的有价值的用视频媒体表示的“知识”。为此,需要研究比检索和查询层次更高的视频分析方法,那就是视频挖掘(Video Mining)。视频挖掘就是通过综合分析视频数据的视听特性、时间结构、事件关系和语义信息,发现隐含的、有价值的、可理解的视频模式,得出视频表示事件的趋向和关联,改善视频信息管理的智能程度。
个人数据挖掘
个人数据挖掘的应用非常广泛,例如,可以挖掘公司记录,选择最好的合作伙伴;挖掘个人家庭医疗史,确定和遗传有关的医学模式,从而对生活方式和健康做出最优决策;挖掘股票和公司业绩来选择最优投资方式等。
数据挖掘工具的评价标准
如何选择满足自己需要的数据挖掘工具呢?评价一个数据挖掘工具,需要从以下几个方面来考虑:
1产生的模式种类的多少。
2解决复杂问题的能力。
数据量的增大,对模式精细度、准确度要求的增高都会导致问题复杂性的增大。数据挖掘系统可以提供下列方法解决复杂问题:
多种模式多种类别模式的结合使用有助于发现有用的模式,降低问题复杂性。例如,首先用聚类的方法把数据分组,然后再在各个组上挖掘预测性的模式,将会比单纯在整个数据集上进行操作更有效、准确度更高。
多种算法很多模式,特别是与分类有关的模式,可以有不同的算法来实现,各有各的优缺点,适用于不同的需求和环境。数据挖掘系统提供多种途径产生同种模式,将更有能力解决复杂问题。验证方法在评估模式时,有多种可能的验证方法。比较成熟的方法像N层交叉验证或Bootstrapping等可以控制,以达到最大的准确度。
数据选择和转换模式通常被大量的数据项隐藏。有些数据是冗余的,有些数据是完全无关的。而这些数据项的存在会影响到有价值的模式的发现。数据挖掘系统的一个很重要功能就是能够处理数据复杂性,提供工具,选择正确的数据项和转换数据值。
可视化工具提供直观、简洁的机制表示大量的信息。这有助于定位重要的数据,评价模式的质量,从而减少建模的复杂性。 扩展性为了更有效地提高处理大量数据的效率,数据挖掘系统的扩展性十分重要。需要了解的是:数据挖掘系统能否充分利用硬件资源?是否支持并行计算?算法本身设计为并行的或利用了DBMS的并行性能?支持哪种并行计算机,SMP服务器还是MPP服务器?当处理器的数量增加时,计算规模是否相应增长?是否支持数据并行存储?
为单处理器的计算机编写的数据挖掘算法不会在并行计算机上自动以更快的速度运行。为充分发挥并行计算的优点,需要编写支持并行计算的算法。
3易操作性
易操作性是一个重要的因素。有的工具有图形化界面,引导用户半自动化地执行任务,有的使用脚本语言。有些工具还提供数据挖掘的API,可以嵌入到像C、VisualBasic、PowerBuilder这样的编程语言中。
模式可以运用到已存在或新增加的数据上。有的工具有图形化的界面,有的允许通过使用C这样的程序语言或SQL中的规则集,把模式导出到程序或数据库中。
4数据存取能力
好的数据挖掘工具可以使用SQL语句直接从DBMS中读取数据。这样可以简化数据准备工作,并且可以充分利用数据库的优点(比如平行读取)。没有一种工具可以支持大量的DBMS,但可以通过通用的接口连接大多数流行的DBMS。Microsoft的ODBC就是一个这样的接口。
5与其他产品的接口
有很多别的工具可以帮助用户理解数据,理解结果。这些工具可以是传统的查询工具、可视化工具、OLAP工具。数据挖掘工具是否能提供与这些工具集成的简易途径?
国外的许多行业如通信、信用卡公司、银行和股票交易所、保险公司、广告公司、商店等已经大量利用数据挖掘工具来协助其业务活动,国内在这方面的应用还处于起步阶段,对数据挖掘技术和工具的研究人员以及开发商来说,我国是一个有巨大潜力的市场。
评论
查看更多