大数据的分类和采集方法:
大数据的分类主要有业务数据、行业数据、内容数据和线上行为数据等。
业务数据包括消费者数据、客户关系数据、库存数据、账目数据等;行业数据包括车流量数据、能耗数据、PM2.5数据等;内容数据包括应用日志、电子文档、机器数据、语音数据、社交媒体数据等;线上行为数据包括页面数据、交互数据、表单数据、会话数据、反馈数据等。
大数据的采集方法主要包括离线采集、实时采集和互联网采集。
离线采集一般使用ETL工具,在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。
实时采集主要用在考虑流处理的业务场景,比如记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和web服务器记录的用户访问行为。这个过程类似
传统的ETL,但它是流式的处理方式,而非定时的批处理Job,些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。
互联网采集可以使用Crawler, DPI等工具进行采集。Scribe是Facebook开发的数据(日志)收集系统。
大数据etl工具有哪些此外,还有其他数据采集方法,例如感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论