数据挖掘给人们生活带来的改变
摘要:随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,其中蕴藏着大量的信息,数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。本文简要阐述了大数据的研究现状与重大意义,探讨通过对数据进行挖掘,分析,给人们的生活带来的改变。
关键字:大数据、知识获取、数据挖掘、应用及改变
一、引言
近年来,随着互联网、物联网、云计算、三网融合等IT与通信技术的迅猛发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,因而信息社会已经进入了大数据时代。大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式,甚至还引起科学研究模式的根本性改变。数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域
的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。我们只有通过对数据进行挖掘,分析、筛选、比较、综合、才能提取出知识和规则。
二、知识获取与数据挖掘
一般说来,知识获取(Knowledge Discovery inDatabases,称称KDD)意为数据库中知识获取,它代表从低层次数据中提取高层次知识的全过程,包括数据信息的收集,数据原型的确定,相关函数的分析,知识的抽取和数据模式分析。统计学中常指的是无假设证实所进行的数据测量和分析。而数据挖掘则是指从数据中自动地抽取模型。数据挖掘包括许多步骤:从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一部分。
三、数据挖掘的重大意义
数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们也希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望"数"兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘从大量数据中提取出隐藏在数据之后的有用的信息,它被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的帮助。
四、数据挖掘给人们生活带来的改变
(一)、市场营销
由于管理信息系统和POS系统在商业尤其是零售业内的普遍使用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据,并且数据量在不断激增。对市场行销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策
提供了可靠的依据。数据库数据挖掘在行销业上的应用可分为两类:数据库行销(databasemarketing)和货篮分析(basketanalysis)。
(二)、金融投资
典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。由于金融投资的风险很大生活中数据库系统的实际例子,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测,这些人工的预测一般是根据自己的经验再通过对已有的股票数据的分析而得到的,由于是人工处理,很难对更大量的股市数据进行分析。无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理,到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。这方面的系FidelityStockSelector,LBSCapitalManagement。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。
(三)、产品制造
随着现代技术越来越多地应用于产品制造业,制造业已不是人们想象中的手工劳动,而是集成了多种先进科技的流水作业。在产品的生产制造过程中常常伴随有大量的数据,如产品的各种加工条件或控制参数(如时间、温度等控制参数),这些数据反映了每个生产环节的状态,不仅为生产的顺利进行提供了保证,而且通过对这些数据的分析,得到产品质量与这些参数之间的关系。这样通过数据挖掘对这些数据的分析,可以对改进产品质量提出针对性很强的建议,而且有可能提出新的更高效节约的控制模式,从而为制造厂家带来极大的回报。这方面的系统有CASSIOPEE(由Acknosoft公司用KATE发现工具开发的),已用于诊断和预测在制造波音飞机制造过程中可能出现的问题。
(四)、通信网络管理
现代社会越来越依赖于通信系统来沟通信息,通信系统的结构非常复杂,如何保证通信系统安全运转成为一个极其重要的问题。在通信网络运行过程中,会产生一系列警告,这些警告有的可以置之不理,而有的如果不及时采取措施则会带来不可挽回的损失。由于警告产生的随机性很大,究竟哪些警告可以不予理睬,哪些警告必须迅速处理往往很难判断,一般需要由人工根据经验进行处理,效率不高。数据挖掘可以通过分析已有的警告信息的正确处理方法以及警告之
间的前后关系的记录,得到警告之间的关联规则,这些有价值的信息可用于网络故障的定位检测和严重故障的预测等等任务中。根据当前的警告信息,就可以得到其后续发生各种情况的可能性,对危险事件可以起到预防的作用,从而使通信网络得以安全运转。
(五)、Internet应用
(五)、Internet应用
用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。这是一种完全不同于上述所讲的资源发现的任务。理解Web上的用户访问模式有这些好处:辅助改进分布式网络系统的设计性能,如在有高度相关的站点间提供快速有效的访问通道;能帮助更好地组织设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页上或更好地理解客户的兴趣。
(六)、学生学习
大数据可以收集足够多的信息,且覆盖面广泛。我们在制作和利用大数据时,需要用个性化的方法把它们组织起来,将其运用于教育领域,进而帮助我们以前所未有的视角判断什么可
行、什么不可行;展示那些以前不可能观察到的学习层面,实现学生学业表现的提升;基于学生的需求而非统一的课程标准来定制个性化课堂,促进理解并提高成绩。
200多年以来,学习一直是学校体系的一部分。但其实在此之前,还没有现代意义上的学校或者大学,教育基本上是以个人形态存在的。一些富人家的孩子会获得一个一对一的导师,但这样的教育只有少数人才可以享有。现在教育是由普通大众来获得,这无论如何都是一个好事,是前进的一大步。但是,目前的这种情况还是不够的。
为什么这么说呢?因为,作为学生,其实我们每一个人都有自己独特的个性、需求和学习上的倾向。但是,目前我们这个教育系统还没有办法支持这个个性。如何才可以改变、完善这个系统?就是要通过对数据的收集和利用。如今一些技术上的进展已经为有关数据的大规模收集和利用创造了条件。在我看来,大数据正是可以从这个意义上重塑学习的三个主要特征,即反馈、个性化和概率预测。
为什么这么说呢?因为,作为学生,其实我们每一个人都有自己独特的个性、需求和学习上的倾向。但是,目前我们这个教育系统还没有办法支持这个个性。如何才可以改变、完善这个系统?就是要通过对数据的收集和利用。如今一些技术上的进展已经为有关数据的大规模收集和利用创造了条件。在我看来,大数据正是可以从这个意义上重塑学习的三个主要特征,即反馈、个性化和概率预测。
参考文献:
[1]王军.数据挖掘技术[J] .计算机世界, 1998
[2]朱延劭.科学研究的好帮手[J] .计算机世界, 1998
[3]何新贵.人工智能新进展[M] .北京:清华大学出版社, 1994.
[4]陶浦周,李强.Sybase数据库技术大全[M] .北京:科学出版社, 1995.
[5]曾勇,唐小我.线性规划在非负权重最优组合预测计算中的应用[J].预测,1994
[6]唐纪,王景.组合预测方法评述[J].预测,1999
[7]林字等编著.数据仓库原理与实践.北京:人民邮电出版社,2003
[8]张春阳,周继恩,刘贵全,蔡庆生.基于数据仓库的决策支持系统的构建,计算机工程.2002(4):249-252
[9]陈德军,盛翊智,陈绵云.基于数据仓库的OLAP在DSS中的应用研究.2003(1):30-31
[10] 陈京民等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.
[8]张春阳,周继恩,刘贵全,蔡庆生.基于数据仓库的决策支持系统的构建,计算机工程.2002(4):249-252
[9]陈德军,盛翊智,陈绵云.基于数据仓库的OLAP在DSS中的应用研究.2003(1):30-31
[10] 陈京民等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论