淘宝大数据案例
【篇一:淘宝大数据案例】
【编者按】近两年,“大数据”这个词越来越为大众所熟悉,“大数据”一直是以高冷的形象出现在大众面前,面对大数据,相信许多人都一头雾水。下面我们通过十个经典案例,让大家实打实触摸一把“大数据”。你会发现它其实就在身边而且也是很有趣的。
马云说:互联网还没搞清楚的时候,移动互联就来了,移动互联还没搞清楚的时候,大数据就来了。近两年,“大数据”这个词越来越为大众所熟悉,“大数据”一直是以高冷的形象出现在大众面前,面对大数据,相信许多人都一头雾水。下面我们通过十个经典案例,让大家实打实触摸一把“大数据”。你会发现它其实就在身边而且也是很有趣的。
啤酒与尿布
全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析
成果早已成了大数据技术应用的经典案例,被人津津乐道。
数据新闻让英国撤军
2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件,鼠标点击红点后弹出的窗口则有详细的说明:伤亡人数、时间,造成伤亡的具体原因。密布的红点多达39万,显得格外触目惊心。一经刊出立即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。
意料之外:胸部最大的是新疆妹子
淘宝数据平台显示,购买最多的文胸尺码为b罩杯。b罩杯占比达41.45%,其中又以75b的销量最好。其次是a罩杯,购买占比达25.26%,c罩杯只有8.96%。在文胸颜中,黑最为畅销。以省市排名,胸部最大的是新疆妹子。
qq圈子把前女友推荐给未婚妻
2012年3月腾讯推出qq圈子,按共同好友的连锁反应摊开用户的人际关系网,把用户的前女友推荐给未婚妻,把同学同事朋友圈子分门别类,利用大数据处理能力给人带来“震撼”。
“魔镜”预知石油市场走向大数据etl工具有哪些
如果你对“魔镜”还停留在“魔镜魔镜,告诉我谁是世界上最美的女人”,那你就真的out了。“魔镜”不仅仅是童话中王后的宝贝,而且是真实世界中的一款神器。其实,“魔镜”是苏州国云数据科技公司的一款牛逼的大数据可视化产品,而且是国内首款喔。
在现在,“魔镜”可以通过数据的整合分析可视化不仅可以得出谁是世界上最美的女人,还能通过价量关系得出市场的走向。在不久前,“魔镜”帮助中石等企业分析数据,将数据可视化,使企业科学的判断、决策,节约成本,合理配置资源,提高了收益。
【篇二:淘宝大数据案例】
在这个时代能够存活下来的,不是最强大的企业,而是能够随环境变化而迅速做出调整的企业。
很多人有这样的体验。有一天在一个b2c商城选剃须刀,发现没有合适的。第二天。上其他新闻网站的时候,看到了很多这类产品的推荐广告,又忍不住去点击浏览,甚至购买。
这项反复跟踪推荐的技术,就是营销公司开发的所谓 到访定位 技术,针对目标用户进行再次营销,其精准的效果要大大好于其他定向技术。而这背后则是在起作用,将数据运用于营销正改变着传统传播方式和消费者洞察方式。
2013年是爆发年,作为以数据和技术为驱动力的互联网营销,大数据将为其带来巨大的应用价值,也会在广告营销层面上帮助企业做得更好。
无论是百度、腾讯还是淘宝、新浪,每个平台上都有海量的数据,即便是一个单一的媒体平台,其数据也反映着网民的各种行为,例如百度的平台上呈现的是网民的各种与搜索有关的行为,而淘宝上则显示着网民的购买行为,新浪的平台上则可以看到网民的阅读行为。
从商业本质上说,营销的过程就是就是满足需求、提供价值、完成交易实现利润的过程,互联网的迅速发展,改变了消费者的消费模式和行为习惯,也飞速改变着传统的商业模式, 这是最好的时代,这是最坏的时代 ,狄更斯的这句话,用在今天再合适不过。
巨变 是这个时代的特点,在这个时代能够存活下来的,不是最强大的企业,而是能够随环境变化而迅速做出调整的企业。而要调整的,最重要的是一种思维模式。
在 大数据 时代之前,企业多从哪些平台提取数据、提取哪些营销数据呢?一般是crm或bi系统中的顾客信息、市场促销、广告活动、展览等结构化数据以及企业一些数据。但这些信息只能达到企业正常营销管理需求的10%的量能,并不足够给出一个重要洞察和发现规律。
而其他85%的数据,诸如社交媒体数据、邮件数据、地理位置、音视频等这类不断增加的信息数据,和包括数据量更大、逐渐广泛应用、以传感器为主的物联网信息,以及风起云涌的移动3g互联网信息等,这些就是大数据所指的非结构性或者叫作多元结构性所需的数据,它们更多以图片、视频等方式,几年前可能被置之度外不会被运用,而今大数据能进一步提高算法和机器分析的作用,这类数据在如今竞争激烈的市场日显宝贵、作用突出,并能被大数据技术所充分挖掘、运用。
但目前,虽然大数据展示了非凡的前景和巨大作用,不过,大数据营销仍面临不少问题与挑战。首先面临的是技术难题,毕竟大数据技术尚处于活跃前期,各方面技术并不太扎实,
各项工具需要进一步完善。但实际情况是,真正启动大数据营销,你面临的不仅仅是技术和工具问题,更重要的是要转变经营思维和组织架构,来真正地挖掘那座数据金矿。
【篇三:淘宝大数据案例】
图1 数据仓库平台发展三个阶段
第一个阶段:rac时代
2008年前的单节点oracle,这个时候还称不上数据仓库,只能承担简单的数据处理工作,也基本上没有数据仓库架构,随着业务的飞速发展,很快单节点的oracle因无扩展能力,计算存储能力就应付不了了;
2008年之后,为了应对日益增长的数据量,rac集应运而生,从一开始的4个节点逐步发展到20个节点,成为当时号称全球最大的rac集,在oracle上也作为了经典案例,rac集当时不管在稳
定性、安全性、存储能力还是计算能力都表现非常优秀,随之而来第一代数据仓库架构也逐步形成;
这个阶段数据的etl过程主要通过oracle的存储过程实现,大量的sql脚本任务运行在集上,任务运行的调度过程是通过crontab来进行控制管理,随着任务数的不断增长,这时面临最大的问题是如何保证这成千上万的脚本每天是正常运行,出错后如何及时发现解决,这在当时天天困扰着开发,一直处于每天救火的状态,也就是这个时候,为了解决这个难题,数据团队开始自主研发调度系统,并将之命名为天网调度系统,形成了如下第一代调度系统的架构和原型:
图2 天网调度系统架构
图3 天网调度系统原型
第二个阶段:hadoop时代
调度系统的上线很好的解决了每天救火的状态,但是好景不常在;2008年,淘宝b2c新平台淘宝商城(天猫前身)上线;2009年,淘宝网成为中国最大的综合卖场;2010年1月1日 淘宝网发布全新首页,此后聚划算上线,然后又推出一淘网;业务的飞速发展给数据带来的挑战,就是每天处理的数据量也在不断的翻倍,首先碰上瓶颈的是rac集针对网站的访问日志数
据已经搞不定了,rac集虽然有一定的扩展能力,但是无法无限制的线性扩展,并且扩容就意味着高昂的机器成本和软件成本,为了应对日益增长的数据量,2009年数据团队开始探索新的技术领域,同时探索应用了两个方向的技术:greenplum 和 hadoop,主要的场景就是用来解决海量的日志数据,hadoop因其良好的线性扩展能力,并且是开源的系统,能够基于官方版本二次开发适合淘宝的特性功能,逐渐占据了优势;
2010年初,最终确定放弃greenplum和rac,全面使用hadoop,也就是这个时候我加入了淘宝数据团队,之后不久数据团队启动了去o项目,整个数据团队历经一个多月时间,风风火火将所有rac上的存储过程,改写成hive和mr脚本,并将所有的数据都搬到了hadoop上,hadoop集命名为云梯1,形成了hadoop时代的数据仓库架构,如下图4:
图4 云梯1数据仓库架构
进入2010年底,数据应用场景越来越多,2010年底发布了量子统计(淘宝官方版),2011年4月1日淘宝发布了数据魔方,将数据对外进行开放,广告和搜索团队也大量将数据应用到业务系统中,对内的淘数据产品也越来越成熟,数据的大量应用,带来的一个问题是如何保证数据的准确性和稳定性,需要从数据采集到数据加工及最终的数据应用全流程的保障;
这时第一个环节就碰到了问题,数据同步,业务系统有各种各样的数据源,oracle、mysql、日志系统、爬虫数据,当时有多种同步的方式,有通过shell脚本的、也有通过jdbcdump的、还有别的方式,当时负责数据同步的同学,最痛苦的事情莫过于,业务系统进行数据库变更时,各种同步任务需要不断的调整,每次调整几百个任务极其容易出错,当时为了解决数据同步的问题,数据工具团队开始研发专门的同步工具datax,也就是现在同步中心的前身,同时还研发了针对db的实时同步工具dbsync和针对日志的tt,现在统一叫tt,如图5:
图5 云梯1数据同步工具
天网调度系统也不断进行完善,开始支持小时调度、甚至分钟调度,并且集成了自动告警等一系统功能,升级为在云端,相关的dqc系统、数据地图、血缘分析等周边系统在这个时期不断推出,数据团队也不在断壮大。
在这期间,双十一网购狂欢节的影响力不断放大,已成为中国电子商务行业的年度盛事,并且逐渐影响到国际电子商务行业,不断刷新的成交记录刺激着所有人的神经。这时为了直观的提供第一线的数据给到决策层,产生了数据直播间的数据应用,需要活动当天及统
计相关的数据,2013年前,采用的方式都是基于hadoop一个小时计算一次的方式进行数据计算,数据存在一定的延迟性,从2013年开始,数据团队开始投入研发实时计算平台,也就是现在的galaxy,并在当年的双11上线了第一个应用,双11数据直播间实时版本。
第三个阶段:maxcompute(原odps)时代
就在hadoop大量应用的同时,另外一个项目正在悄悄进行,那就是阿里云团队自主研发的odps系统,odps所有的代码都由阿里自己完成,在统一、安全、可管理、能开放方面相比于hadoop做了大量的完善,odps系统命名为云梯二,从2010年开始,在很长一段时间内,一直处于云梯一和云梯二并存的状态;
这期间,集团为更好的打造数据生态,成立了cdo,统一数据平台事业,专门投入研发大数据平台的相关工具,包含计算存储平台、周边的调度系统、元数据血缘系统、数据质量管理系统、还有dqc等;
这个状态持续到2013年4月, 这时出现了一个新的挑战,hadoop集的上限是5000个节点,按照当时数据增长数据的推算,集存储即将撞墙,但是基于当时的状况,odps无法
完全替代hadoop,于是当时启动了一个规模非常庞大的项目,叫做 5k项目 ,同时进行云梯一和云梯二的跨机房集项目,当时世界上没有任何一家公司具备跨机房的能力,存在非常大的技术挑战,最后项目历经近5个月的周期,攻克大量技术难点,项目取得了成功;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论