数据、数据仓库、大数据平台、数据中台、数据湖比分析
一、概况
层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:
数据
什么是大数据
数据分析与数据挖掘的区别是什么
数据库
什么是数据库
数据库中的分布式事务理论
数据仓库
什么是数据仓库
什么是数据集市
数据库与数据仓库的区别是什么
大数据平台
什么是大数据平台
什么是大数据开发平台
数据中台
什么是数据中台
数据仓库与数据中台的区别与联系
greenplum数据库数据湖
什么是数据湖
数据仓库与数据湖有什么区别与联系
希望本文对你有所帮助,烦请读者诸君分享、点赞、转发。
二、数据
什么是大数据?
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增长的时代,业务需求增长促进技术迭代,技术满足需求后又形成闭环促进业务持续增长,从而形成一个闭环。
数据分析与数据挖掘的区别是什么?
数据分析可以分为广义的数据分析和狭义的数据分析。广义的数据分析就包括狭义的数据分析数据挖掘。我们在工作中经常常说的数据分析指的是狭义的数据分析。
数据分析(狭义)
Data Analysis
数据挖掘  Data Mining
定义
根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。
作用
主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布等,这就是事先未知的,但又是非常有价值的信息。
方法
主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法。
主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。
结果
数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。
输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。
三、数据库据库
什么是数据库?
数据库是按照数据结构来组织、存储和管理数据的仓库。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。
根据数据存储的方式不同,可以将数据库分为三类:分别为行存储列存储行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata等;行列混合存储的数据库代表产品有TiDB,ADB for Mysql等。
数据库中的分布式事务理论
ACID
传统关系型数据库事务设计原则,以下四点必须全部满足:
原子性Atomicity:事务中操作要么都发生,要么都不发生;
一致性Consistency:事务前后数据完整性保持一致;
隔离性Isolation:多个用户并发事务相互隔离;
持久性Durability:事务被提交后数据的改变就是永久性的。
举例说明:A账号有200元,B账号有100元,现在A给B账户进行转账操作:
A减少100元,同时B增加100元,两个操作要么都成功要么都失败,满足原子性;
A减少的金额,和B增加的金额要一致,按照一致性;
假如A给B转账的同一时刻,B又给C转账,这两笔交易是相互隔离,满足隔离性;
A给B转账100元,事务提交之后,在查询账号,A减少100元,B增加100元,满足持久性;
CAP理论
2000年,Berkerly大学有位Eric Brewer教授提出了一个CAP理论,在2002年,麻省理工学院的Seth Gilbert(赛斯·吉尔伯特)Nancy Lynch(南希·林奇)发表了布鲁尔猜想的证明,证明了CAP理论的正确性。所谓CAP理论,是指对于一个分布式计算系统来说,不可能同时满足以下三点:
一致性(Consistency) 等同于所有节点访问同一份最新的数据副本。即任何一个读操作总是能够读到之前完成的写操作的结果,也就是说,在分布式环境中,不同节点访问的数据是一致的。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。