公安大数据平台视频大数据平台
1.1.1.Hadoop基础平台
系统设计和实现基于Hadoop为基础平台,采用分布式文件系统、分布式列式数据库对数据进行存储,融合流式计算、批处理计算及即席查询多种计算模式,实现数据快速处理的同时极大提高了系统的可扩展性。
1、HDFS
HDFS (Hadoop Distributed File System) 是Hadoop项目的核心子项目;是Hadoop主要应用的一个分布式文件系统。它可以运行于廉价的商用服务器上。总的来说,可以将HDFS的主要特点概括为以下几点。
(1) 处理超大文件
这里的超大文件通常是指数百GB、甚至数百TB大小的文件。在Yahoo!, Hadoop集也已经扩展到了4000个节点, 用来存储管理PB ( PeteBytes)级的数据。
(2) 流式地访问数据
HDFS的设计建立在更多地响应“一次写入、多次读取”任务的基础之上。一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。对HDFS来说,请求读取整个数据集要比读取一条记录更加高效。
(3) 运行于廉价的商用机器集上
Hadoop设计对硬件需求比较低,只须运行在廉价的商用硬件集上,而无须昂贵的高可用性机器上。
2、MapReduce
MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。MapReduce广泛应用于日志分析、海量数据排序、在海量数据中查特定模式等场景中。
在Hadoop中,每个Mapreduce任务都被初始化成为一个job。每个job又可以分为两个阶段:Map阶段和Reudce阶段。这两个阶段分别用两个函数来表示,即Map函数和Reduce函数。Map函数接收一个<key,value>形式的输入,然后同样产生一个<key,value>形式的中间输出,Hadoop会负责将所有具有相同中间key值得value集合到一起传递给Reduce函数,Reduce函数接收一个如<key,(list of values)>形式的输入,然后对这个value集合进行处理,每个reduce产生0或1个输出,Reduce的输出也是<key,value>形式的。
3、HBase
Hbase即Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与Hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
HBase 从 2008 年第一次商用开始,已经被越来越多的在线服务公司所采用。其中最大的是
Facebook 新上线的整合 Email, SNS , Chat 和短消息的在线即时消息系统。
4、Kafka
Kafka (Adistributed publish-subscribe messaging system)是一个消息订阅和发布的系统,Kafka主要用于处理活跃的流式数据,有如下优势和特点:
(1)以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能。
(2)高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输。
(3)支持Kafka Server间的消息分区及分布式消费,同时保证每个partition内的消息顺序传输。
(4)同时支持离线数据处理和实时数据处理。
1.1.2.数据采集平台
数据采集平台采用分布式架构,通过集化部署提升系统数据采集与数据清洗能力。在数据采集方面,每一种数据源采用独立的数据模板与进程,在实现对数据适配采集的同时,通过进程隔离技术保证采集平台的稳定性,即,在不影响系统正常工作的情况下,可以动态增加对新增数据源的适配,任何一种数据接口故障将不会影响其他接口的正常工作。
⏹大数据采集平台主要由以下模块组成
数据模板
数据通过可视化工具自定义格式模板,即,针对每一种数据配置定制化模板,并建立起与标准化数据模板的映射关系,通过配置自定义模板和字段映射,快速实现数据的采集和字段适配。
规则引擎
数据从来源端进行抽取、转换、加载至目的端规则的集合,通过数据采集规则的定义实现定制化的数据采集过程。
分布式数据清洗
数据清洗服务实现待采集数据的标准化转换,通过采集控制分发数据清洗规则到多个采集器组的方式实现分布式的数据清洗采集。
集管理
实现数据采集平台集化部署与管理,实现各个数据采集节点的任务管理、负载均衡、状态管理、异常监控、吞吐量控制等。
数据管道
低延时高吞吐量的分布式数据传输高速通道,同时满足在线数据传输和离线数据传输的数据管道。在数据的生成者与消费者之间屏蔽数据类型和来源的差异,实现数据传输的高吞吐量、灵活性和稳定性。
⏹大数据采集平台特点
整合能力强
通过配置数据模板和规则就可以实现对新增数据的采集,可以灵活应对各类数据资源的整合。
稳定性高
采用进程隔离技术将不同数据采集接口隔离,防止单接口故障造成对系统的影响。
部署灵活
系统采用分布式架构,可以根据前端数据量灵活配置集节点数据,动态增加数据采集节点不影响系统正常工作。
传输可靠
分布式数据传输通道在实现高数据吞吐量的基础上,通过数据的缓存机制实现数据传输的稳定性。对重要数据进行属性配置防止重要数据在极限情况下溢出、丢失。
1.1.3.大数据平台
⏹平台主要模块如下
分布式文件系统HDFS
分布式文件系统采用Hadoop大数据分布式文件系统,适应多种底层硬件,具有高容错性、高吞吐量、批量数据访问等特点,适合超大数据集存储应用。
分布式数据库MPPDBhbase主要用来储存什么数据
分布式数据库实现关系型数据的分布式存储与查询,通过数据分片技术提高超大体量数据查询与存储性能。
结构化数据存储Hbase
架构化数据存储融合了多种索引技术、分布式事物处理、全文实时检索、图数据检索技术等多种NoSQL实时处理技术,支持面向应用的在线OLTP、高并发OLAP和批处理等。
云存储PFS
云存储用于存储视频和图片文件的专业云存储系统,基于对视频文件进行的流化索引处理,可以为应用层提供快速精准的视频检索和定位服务,对图片等小文件的打包整合,有效提升了对海量小文件的访问效率。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论