数据挖掘分析的要素和方法
作者:***
来源:《电子技术与软件工程》2018年第03期
        摘 要 本文通过从数据分析的价值,延伸到数据分析三要素能力应用的案例,进而探索式的分享做好数据挖掘分析工作的五步法,为有志在这行业发展的人提供一些思路参考。
        【关键词】数据分析 数据挖掘 方法论
        1 绪论
        在互联网快速发展的时代,通信、互联网、金融、制造业等这些行业每天产生海量的生产运营数据。拥有这些关于数百万潜在顾客的海量数据,结合软件工具、数据库技术、各种硬件设备的飞快发展,使得我们分析海量数据成为可能,也使得数据分析师能更好的为领导决策提供参考依据,进而节约成本,提高企业盈利能力。
        2 数据挖掘分析思维的三要素
        数据分析师不在于掌握多高深的分析方法和算法技术,而是要对分析的指标深入理解,理解数据背后的业务场景,同时,要不断的去探究为什么,不是只告诉人家What,还要告诉人家下一步的How,这才是数据分析师的价值。
        比如针对一组数据分析结果,“2017年7~9月公司的客户活跃度是12%。”要更好的抓住和解决客户活跃度的问题。需要考虑以下三大要素。
        2.1 反馈场景现状——描述问题
        这个活跃度的数据统计口径是什么?客户活跃度是如何得到的?数值代表业务发生了什么(背景是什么)?客户活跃度是如何定义的?这次取的数据是否具有一定的代表性?活跃的人具有什么特点:是访问了一下就走,还是呆了比较长时间才走,主要访问了哪几个功能模块等,尽可能如实的描述数据在场景下的状态。
        2.2 比较到定位——比较问题
        描述了之后还要做比较,如12%算高还是低呢,要结合我们制定的活跃度目标,只有这样才能明确这个活跃率是高还是低,要有个定性的结论:它是增长了还是衰退了;而且还需
跟行业内其他竞争对手相比,还需同比和环比的情况,只有这样,我们分析的数据才有立体感。
        2.3 顺藤到根源——分析和解决问题
        描述问题、比较问题,最终都是为了分析和解决问题。要进一步探究原因,到解决方案和思路。
        通过分析,对以下几个问题就可以很好的做决策辅助:
        2.3.1 对客户
        最近要对已有产品设计改版,活跃的人经常访问的内容是否跟我们的客户投诉有关联?哪些设计能极大提升客户的满意度?
        2.3.2 对活动
        这次活跃度的提高或降低是因为什么原因?因为做营销活动带来的提升么?如果是,我们的营销效果情况怎样?后续要如何更好的跟踪和评估效果。
        上面的转换思考例子,更多的要求数据分析师能结合一定的业务场景,并且能把业务的问题数据化,把数据的问题可视化,进而对后续的经营决策做辅助支撑。
        3 数据挖掘分析5步法
        数据挖掘分析工作都有一定的模式和方法论,重点以下5步骤如何更好的执行。
        3.1 需求明确,理解业务
        业务理解阶段重点把握以下两点:
        3.1.1 需求分析,抓住痛点
        具体可考虑以下三个方法:
        (1)用户使用场景梳理,明确问题在哪里?怎么发生的问题;
        (2)用户访谈、调查调研(为什么);
        (3)利用原型法来确定或引导用户需求,评估项目中可能的问题。
        以上三个方法还需要考虑,满足用户的需求,并在痛点需求上引导用户。
        3.1.2 业务目标的明确和可行性分析
        做好了需求分析就要明确业务目标,明确目标需要业务背景,明确数据挖掘分析的成功标准是什么。同时要做可行性分析,要从技术角度、业务角度、商业市场等角度,结合拥有的资源,条件和限制,评估风险,并做成本和效益估计,并对数据挖掘分析做整体的规划,初步估计用到的工具和技术。
        3.2 数据准备,加工处理
        3.2.1 数据准备,探索数据属性
        重点做好收集原始数据并对收集的数据进行简单的统计分析,了解数据的分布属性,结合数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择,只有这样才能科学的选择样本数据,分析场景结果。
        3.2.2 数据加工处理,为分析建模做数据资源准备
        重点是做好ETL(抽取、转换、加载),清洗加载转换数据过程是核心和灵魂,把数据从各种原始的业务系统中读取出来,按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来,最后把转换完的数据按计划增量或全部导入到目标结果库中。
        3.3 建立模型,寻规律
        在数据准备加工好后,需要利用数据分析的方法和工具对对处理过的数据进行分析,重点是包含以下四个内容:
        (1)选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;
什么人适合做数据分析师        (2)测试方案设计:设计某种测试模型的质量和有效性的机制;
        (3)模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型。
        3.4 模型评估,目标导向
        模型评估(Evaluation)阶段,主要包括以下三个内容:
        (1)结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;
        (2)过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;
        (3)确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。
        3.5 数据展现,报表撰写
        一般情况下,数据是通过表格和图形的方式来呈现的。能用图说明问题的就不用表格,能用表说明问题的就不用文字。
        一份好的数据分析报告,首先需要有一个好的分析汇报框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
        好的数据分析报告需要有明确的结论、建议或解决方案。
        4 小结
        数据分析行业是一个朝阳行业,特别是互联网的不断发展和大数据技术的应用和普及,越来越多的企业需要有数据分析师资质的专业人士为他们的项目做出科学、合理的分析,以便正确决策项目;越来越多的有志之士把数据分析知识作为其职业生涯发展中必备的知识体系。
        参考文献
        [1][美]Nathan Yau.鲜活的数据[M].北京:人民邮电出版社,2012(10).
        [2]陈哲.数据分析企业的贤内助[M].北京:机械工业出版社,2013(11).
        作者单位
        中电福富信息科技有限公司 福建省福州市 350003

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。