创业公司应该如何开展⼤数据团队建设⼯作?
⼤数据之所以能称得上⼀个时代,来⾃于整个社会的集体狂欢。数据源于各⾏各业,这场变⾰带来的机遇⾃然蕴藏于各⾏各业之中。紧盯这个市场等待机遇的,⽆所谓IT巨头或是初创企业,⽆所谓团队规模是⼤是⼩。
⼤数据能为企业带来什么?
✔ 更多的订单,更低的成本,更快捷的管理,更新的业务模式。
✔ 巧妙善⽤互联⽹上的⼤数据, ⼩型创业团队就可以为⾃⼰快速积攒早期创业所需的资源,从⽽降低创业成本,提⾼收益率。
然⽽我们却看到,在每轮技术变⾰中中⼩企业都是被最后照顾到的。在这场新变⾰的席卷下,我们不禁⼜要问⼩团队,你的⼤数据在哪⾥?
诚然,缺技术、缺⼈才、缺数据等种种现实,都将⼩团队置⾝于⽔深⽕热之中。那么⼤数据时代的⼩团队还有机会吗?
公⼦义从事9年的⼤数据的研究,结合⾃⾝的实践经验,为⼤家仔细剖析⾯对种种问题下的⼩团队该如何做好技术选型,及如何权衡⾯临的⼤数据成⽤成本和数据隐私担忧。
⼩团队的⼤数据都有哪些挑战?
近⼏年,以Hadoop⽣态为代表的数据基础设施发展很快,给⼤数据技术的易⽤性提供了很⼤改善,也使技术门槛降低很多。在公⼦义看来,⼩团队在⼤数据⽅⾯的挑战主要表现为⼈才短缺和数据来源。为了应对这两个问题,⼩团队必须要在业务上下功夫,依据核⼼的业务形态,深⼊挖掘⾃⾝数据。
数据应该如何挖掘呢?
具体应该怎么做呢?公⼦义以视频⽤户数据举例。虽然⽤户在观看视频的过程中,没有太多的互动过程,但还是可以挖掘出价值⾮常⼤的⾼频数据。基于⽤户的拖拽、回看这样同⼀份数据,我们可以做到的可以有很多:
挖掘到不同⽤户对视频内容的High点,帮助视频的内容运营和内容创作到⽤户兴趣点;
认识⽤户⾏为,到相似⽤户,基于内容兴趣进⾏⽤户画像;根据⽤户对内容上的喜好更好地进⾏CD
N的预分发。根据⽤户⾏为做视频推荐
某种意义上说,视频推荐⽐商品推荐更容易。视频作为⽤户相对⾼频的⾏为,意味着我们能抓取到⽤户更多的⾏为数据,对⽤户的喜好反映更全⾯;从应⽤场景的⾓度来说,⽤户对于商品是否购买可能是⼀个很⼤的决定,⽽看不看视频相对决定很⼩,决定错误的损失也很⼩。在进⾏视频内容分析时,由于视频⽂本挖掘的维度偏少,因此进⾏⽂本分析的价值不⼤。
通过数据挖掘分析⽤户的属性,洞察消费者!
因此,同⼀技术在不同的业务领域上的重视程度,和起到的作⽤是不⼀样的。⼩团队由于⾃⾝技术能⼒和专业⼈才资源都有限,⼀定要更加细致地了解⾃⼰的业务形态,最⼤程度利⽤已有数据。
案例研究:深圳指微科技 数据⼯场⼤数据平台架构
深圳指微科技⽬前除了发展⾃⼰的公司,还投资了很多⽣态链企业。随着业务的快速增长,业务产⽣的数据量突飞猛涨。⼤家都知道,数据越集中,利⽤价值越⼤,由此深圳指微科技数据⼯场应运⽽⽣。
深圳指微科技数据⼯场主要承担着为全公司各团队及⽣态链建设,提供数据采集、计算、存储等基础能⼒,以及机器学习、挖掘的⼯具和⽅法的任务。除了底层的能⼒,数据⼯场也为公司及⽣态链企业提供⼀些具体的基础数据服务,利⽤风控和额度评估、⼴告精准投放、限时抢购时⽤数据打击黄⽜等等。通过数据⼯场提供的数据能⼒,企业不仅能够对业务进⾏数据分析,也实实在在将数据应⽤到核⼼业务场景中。
深圳指微科技数据⼯场主要的⼯作是管理数据、元数据、数据权限,以及管理⼤量的计算。公⼦义认为把数据存下来不是⽬的,⽽是要通过计算运⽤到各个业务领域中。⽣态链的业务场景丰富,因此整个计算体系是纷繁复杂的。
运⽤好⼤数据才是最终的⽬的
为了更好适应未来的需求,深圳指微科技数据⼯场围绕Hadoop⽣态构建底层基础平台。虑到扩展性,数据⼯场天⽣基于Scala设计成分布式架构。由于⼩⽶及其⽣态链企业业务场景丰富,因此在技术选型⽅⾯全⽣态都会涉及,如消息流、批处理、实时计算等技术都需要⽤到,HBase、Hive、Spark、Storm 、Impala都在不同的场景下使⽤。
利⽤Docker解决异构和资源问题:为了管理好这些纷繁的计算框架和模型,在计算的执⾏⽅⾯,⼩⽶使⽤Docker来解决对环境的不同需求和利⽤Docker解决异构和资源问题:
异构问题,并且与Hive、Impala、Spark这些不同的计算模型都进⾏了对接,去适配不同应⽤场景计算不同数据的模型。另外,在不同业务场景下,同⼀个计算逻辑也可以选⽤不同的计算模型,Docker 的使⽤也避免了资源的浪费。⽐如⼀个计算任务每天凌晨运⾏,为了追求吞吐量,可以
放到Hive⾥跑;还是同样⼀个计算模型,现在就要跑,可以不⽤更改,就放到Impala⾥运⾏。
⼩团队的⼤数据敏捷之路
选择热门的技术:⼩公司的时间耽误不起。选择热门的、常⽤的、经过⼤公司验证的技术,⼀是少踩坑,⼆是常⽤的技术⼈才相对好。
选择热门的技术:
按需使⽤,不要规划得太⼤。传统BI进⾏数据分析时通常会建⽴⼀个⼤⽽全的模型,再根据业务需求进⾏调整。但⼩团队的业务发展很快,因此按需使⽤,不要规划得太⼤。
在初期不要规划得太⼤,⽽是根据业务需要,细分业务场景,在每个⼩场景⾥构建⼩的数据模型,分析⽤户就建⽤户模match型,分析产品⽤简单的产品模型。
大数据etl工具有哪些
根据⽤户体建⽴最为简单的数据模型
另外,⼩团队要考虑到⾃⼰的应⽤场景是以分析型为主,还是应⽤型为主,之后再进⾏相关的技术选型,如Hive、Impala 、Presto等;⽽如果是以业务型为主,就要具体结合⾃⾝业务和技术能⼒综合来看。在数据量不是⾮常⼤的情况下,没必要选择HBase这样集的存储⽅案,有许多产品可以替代。
⽐如MySQL这类传统数据库能⽀持的数据规模也不⼩。根据计算要求和数据规模综合来选,不是超⾼量的不需要选太⼤规模的技术选型。
选择便捷、灵活和易于管理的技术。⼤公司在技术和系统使⽤上⾸先考虑的是集的利⽤率和吞吐量,⽽⼩公司则要从便捷、灵活和易于管理选择便捷、灵活和易于管理的技术。
的维度来考虑。
存储⽅⾯:建议使⽤以HDFS为主的存储,因为很多计算的⼯具所使⽤的存储都建⽴在它之上。对于业务未来的迅速发展,有⽐较好的兼容性;存储⽅⾯:
计算⽅⾯:建议在选⽤常⽤的基础设施之外,具体计算⽤户交互时使⽤易于使⽤的技术:
计算⽅⾯:
HUE:基于web,在进⾏Hive 查询时可以直接在平台上完成,使⽤门槛更低;
Presto:适应数据源多,可以连接各种各样的数据源做计算和数据分析。由于业务数据和⽤户的⾏为数据时分开的。使⽤Presto这种连接器型的分析⼯具时,有分析能⼒的⼈就可以直接使⽤这种⼯具,我们不需要将不同的数据还要ETL导⼊到⼀起,后续还要做加⼯处理,只需要在物理打通就可以。
在平时的⼯作需要重视数据的积累!
重视数据积累:⼩团队在前期积累数据时,⼀定要多花点⼉功夫,不要偷懒,把数据尽可能采集全、采集准。千万不要等⽤到什么数据才去数重视数据积累:
据,⼀旦发现你需要的数据之前没积累;或是积累的是错的;或是没有对数据进⾏标识,没办法区分这是哪个⽤户,陷⼊逻辑孤岛,都会⾮常⿇烦。
⽐如我们需要采集⽤户在看⼀篇⽂章时的数据。这时我们应该将采集的维度考虑得更多,⾄少从⽤户本⾝的维度、⽂章内容、上下⽂关系、⽤互交互事件这四个维度上考虑。采集的数据可能包括⽂章分类、标题、内容ID、当前该⽂章热度、⽤户获取⽂章的渠道等等。这会让我们更全⾯地了解⽤户的喜好,也将⽤户的路径分析的很清楚。
哪怕未来不知道怎么⽤,采集更多更全的数据⼀定会对应⽤产⽣价值。在存储成本较低的现状下,多采集数据带来的代价并不⼤。真正昂贵的其实是计算,⽽⼀旦没有数据,代价将会更⼤。
通过数据为公司创造价值才是⼩公司的最终的出发点
对于创业公司来说,在更短的时间内创造更⼤的价值,是企业得以存活的根本。⼤数据是⼯具,了解⼤数据的作⽤,结合业务的真实场据,满⾜⽤户需求,⼤数据才能真的帮得上你。
公⼦义【号gongzi348】80后,90后⼼理研究专家,4年⼼理学,9年⼤数据研究者,专注于移动互联⽹,⼤数据究狂热爱好者,热爱写作。原创⽂章,未经许可,严禁转载,违者追究法律责任。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。