⼤数据术语英⽂翻译及详解
⼀、⼤数据
英⽂:big data,mega data
⼤数据,或称巨量资料,指的是需要新处理模式才能具有更强的决策⼒、洞察发现⼒和流程优化能⼒的海量、⾼增长率和多样化的信息资产。
⼆、⼤数据的4V:
Volume(⼤量)、Velocity(⾼速)、Variety(多样)、Value(价值)
三、当前⽤于分析⼤数据的⼯具主要有开源与商⽤两个⽣态圈
开源⼤数据⽣态圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞⽣,早期Hadoop⽣态圈逐步形成。
2、. Hypertable是另类。它存在于Hadoop⽣态圈之外,但也曾经有⼀些⽤户。
3、NoSQL,membase、MongoDb
商⽤⼤数据⽣态圈:
1、⼀体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。
四、Hadoop
Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础架构。
⽤户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利⽤集的威⼒进⾏⾼速运算和存储。
Hadoop实现了⼀个分布式⽂件系统(Hadoop Distributed File System),简称HDFS。HDFS有⾼容错性的特点,并且设计⽤来部署在低廉的(low-cost)硬件上;⽽且它提供⾼吞吐量(high throughput)来访问应⽤程序的数据,适合那些有着超⼤数据集(large data set)的应⽤程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)⽂件系统中的数据。
Hadoop的框架最核⼼的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
五、MapReduce
MapReduce是⼀种编程模型,⽤于⼤规模数据集(⼤于1TB)的并⾏运算。概念”Map(映射)”和”Reduce(归约)”,和它们的主要思想,都是从函数式编程语⾔⾥借来的,还有从⽮量编程语⾔⾥借来的特性。它极⼤地⽅便了编程⼈员在不会分布式并⾏编程的情况下,将⾃⼰的程序运⾏在分布式系统上。 当前的软件实现是指定⼀个Map(映射)函数,⽤来把⼀组键值对映射成⼀组新的键值对,指定并发的Reduce(归约)函数,⽤来保证所有映射的键值对中的每⼀个共享相同的键组。
六、云计算
云计算(cloud computing)是基于互联⽹的相关服务的增加、使⽤和交付模式,通常涉及通过互联⽹来提供动态易扩展且经常是虚拟化的资源。云是⽹络、互联⽹的⼀种⽐喻说法。过去在图中往往⽤云来表⽰电信⽹,后来也⽤来表⽰互联⽹和底层基础设施的抽象。因此,云计算甚⾄可以让你体验每秒10万亿次的运算能⼒,拥有这么强⼤的计算能⼒可以模拟核爆炸、预测⽓候变化和市场发展趋势。⽤户通过电脑、笔记本、⼿机等⽅式接⼊数据中⼼,按⾃⼰的需求进⾏运算。
七、云计算相关
分布式计算(Distributed Computing)
并⾏计算(Parallel Computing)
效⽤计算(Utility Computing)
⽹络存储(Network Storage Technologies)
虚拟化(Virtualization)
负载均衡(Load Balance)
热备份冗余(High Available)
⼋、数据仓库
数据仓库,英⽂名称为Data Warehouse,可简写为DW或DWH。数据仓库是为企业所有级别的决策制定过程提供⽀持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策⽀持的⽬的⽽创建。 为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。
九:⾮关系型数据库
NoSQL,泛指⾮关系型的数据库。随着互联⽹web2.0⽹站的兴起,传统的关系数据库在应付web2.0⽹站,特别是超⼤规模和⾼并发的SNS类型的web2.0纯动态⽹站已经显得⼒不从⼼,暴露了很多难以克服的问题,⽽⾮关系型的数据库则由于其本⾝的特点得到了⾮常迅速的发展。NoSQL数据库的产⽣就是为了解决⼤规模数据集合多重数据种类带来的挑战,尤其是⼤数据应⽤难题。
⼗:结构化数据
结构化数据(即⾏数据,存储在数据库⾥,可以⽤⼆维表结构来逻辑表达实现的数据)⽽⾔,不⽅便⽤数据库⼆维逻辑表来表现的数据即称为⾮结构化数据,包括所有格式的办公⽂档、⽂本、图⽚、标准通⽤标记语⾔下的⼦集XML、HTML、各类报表、图像和⾳频/视频信息等等。
⼗⼀:结构化分析⽅法
结构化分析⽅法(Structured Method,结构化⽅法)是强调开发⽅法的结构合理性以及所开发软件的结构合理性的软件开发⽅法。结构是指系统内各个组成要素之间的相互联系、相互作⽤的框架。结构化开发⽅法提出了⼀组提⾼软件结构合理性的准则,如分解与抽象、模块独⽴性、信息隐蔽等。针对软件⽣存周期各个不同的阶段,它有结构化分析(SA)和结构化程序设计(SP)等⽅法。
⼗⼆、半结构化数据
和普通纯⽂本相⽐,半结构化数据具有⼀定的结构性,但和具有严格理论模型的关系数据库的数据相⽐。OEM(Object exchange Model)是⼀种典型的半结构化数据模型。
半结构化数据(semi-structured data)
在做⼀个信息系统设计时肯定会涉及到数据的存储,⼀般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。⽐如我们做⼀个业务系统,要保存员⼯基本信息:⼯号、姓名、性别、出⽣⽇期等等;我们就会建⽴⼀个对应的staff表。
但不是系统中所有信息都可以这样简单的⽤⼀个表中的字段就能对应的。
⼗三:⾮结构化数据
⾮结构化数据库是指其字段长度可变,并且每个字段的记录⼜可以由可重复或不可重复的⼦字段构成的数据库,⽤它不仅可以处理结构化数据(如数字、符号等信息)⽽且更适合处理⾮结构化数据(全⽂⽂本、图象、声⾳、影视、超媒体等信息)。
⼗四:数据库(Database)
数据库是按照数据结构来组织、存储和管理数据的仓库,它产⽣于距今六⼗多年前,随着信息技术和市场的发展,特别是⼆⼗世纪九⼗年代以后,数据管理不再仅仅是存储和管理数据,⽽转变成⽤户所需要的各种数据管理的⽅式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进⾏海量数据存储的⼤型数据库系统都在各个⽅⾯得到了⼴泛的应⽤。
⼗五:数据分析
英⽂名:Data Analysis
数据分析是指⽤适当的统计分析⽅法对收集来的⼤量数据进⾏分析,提取有⽤信息和形成结论⽽对数据加以详细研究和概括总结的过程。这⼀过程也是质量管理体系的⽀持过程。在实⽤中,数据分析可帮助⼈们作出判断,以便采取适当⾏动。
Excel作为常⽤的分析⼯具,可以实现基本的分析⼯作,在商业智能领域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及国内产品如Yonghong Z-Suite BI套件等。
⼗六:数据挖掘
数据挖掘(英语:Data mining),⼜译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的⼀个步骤。数据挖掘⼀般是指从⼤量的数据中
通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多⽅法来实现上述⽬标。
⼗七:数据清洗
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据⽂件中可识别的错误的最后⼀道程序,包括检查数据⼀致性,处理⽆效值和缺失值等。因为数据仓库中的数据是⾯向某⼀主题的数据的集合,这些数据从多个业务系统中抽取⽽来⽽且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照⼀定的规则把“脏数据”“洗掉”,这就是数据清洗。⽽数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进⾏抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三⼤类。数据清洗是与问卷审核不同,录⼊后的数据清理⼀般是由计算机⽽不是⼈⼯完成。
⼗⼋:可视化
可视化(Visualization)是利⽤计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显⽰出来,并进⾏交互处理的理论、⽅法和技术。它涉及到计算机图形学、图像处理、计算机视觉、计算
机辅助设计等多个领域,成为研究数据表⽰、数据处理、决策分析等⼀系列问题的综合技术。⽬前正在飞速发展的虚拟现实技术也是以图形图像的可视化技术为依托的。
⼗九:数据可视化
英⽂名:Data visualization
数据可视化技术的基本思想是将数据库中每⼀个数据项作为单个图元元素表⽰,⼤量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表⽰,可以从不同的维度观察数据,从⽽对数据进⾏更深⼊的观察和分析。
数据可视化主要旨在借助于图形化⼿段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就⼀定因为要实现其功能⽤途⽽令⼈感到枯燥乏味,或者是为了看上去绚丽多彩⽽显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的⽅⾯与特征,从⽽实现对于相当稀疏⽽⼜复杂的数据集的深⼊洞察。然⽽,设计⼈员往往并不能很好地把握设计与功能之间的平衡,从⽽创造出华⽽不实的数据可视化形式,⽆法达到其主要⽬的,也就是传达与沟通信息。
⼆⼗:算法
算法(Algorithm)是指解题⽅案的准确⽽完整的描述,是⼀系列解决问题的清晰指令,算法代表着⽤系统的⽅法描述解决问题的策略机制。也就是说,能够对⼀定规范的输⼊,在有限时间内获得所要求的输出。如果⼀个算法有缺陷,或不适合于某个问题,执⾏这个算法将不会解决这个问题。不同的算法可能⽤不同的时间、空间或效率来完成同样的任务。⼀个算法的优劣可以⽤空间复杂度与时间复杂度来衡量。
⼆⼗⼀:机器学习
机器学习(Machine Learning, ML)是⼀门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现⼈类的学习⾏为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善⾃⾝的性能。
它是⼈⼯智能的核⼼,是使计算机具有智能的根本途径,其应⽤遍及⼈⼯智能的各个领域,它主要使⽤归纳、综合⽽不是演绎。
⼆⼗⼆:⼈⼯智能
⼈⼯智能(Artificial Intelligence) ,英⽂缩写为AI。它是研究、开发⽤于模拟、延伸和扩展⼈的智能的理论、⽅法、技术及应⽤系统的⼀门新的技术科学。 ⼈⼯智能是计算机科学的⼀个分⽀,它企图了
解智能的实质,并⽣产出⼀种新的能以⼈类智能相似的⽅式做出反应的智能机器,该领域的研究包括机器⼈、语⾔识别、图像识别、⾃然语⾔处理和专家系统等。⼈⼯智能从诞⽣以来,理论和技术⽇益成熟,应⽤领域也不断扩⼤,可以设想,未来⼈⼯智能带来的科技产品,将会是⼈类智慧的“容器”。
⼆⼗三:深度学习
英⽂名:Deep Learning
深度学习的概念源于⼈⼯神经⽹络的研究。含多隐层的多层感知器就是⼀种深度学习结构。深度学习通过组合低层特征形成更加抽象的⾼层表⽰属性类别或特征,以发现数据的分布式特征表⽰。
深度学习的概念由Hinton等⼈于2006年提出。基于深信度⽹(DBN)提出⾮监督贪⼼逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层⾃动编码器深层结构。此外Lecun等⼈提出的卷积神经⽹络是第⼀个真正多层结构学习算法,它利⽤空间相对关系减少参数数⽬以提⾼训练性能。
深度学习是机器学习研究中的⼀个新的领域,其动机在于建⽴、模拟⼈脑进⾏分析学习的神经⽹络,它模仿⼈脑的机制来解释数据,例如图像,声⾳和⽂本。
⼆⼗四:神经⽹络
⼈⼯神经⽹络(Artificial Neural Networks,简写为ANNs)也简称为神经⽹络(NNs)或称作连接模型(Connection Model),它是⼀种模仿动物神经⽹络⾏为特征,进⾏分布式并⾏信息处理的算法数学模型。这种⽹络依靠系统的复杂程度,通过调整内部⼤量节点之间相互连接的关系,从⽽达到处理信息的⽬的。
⼆⼗五:SaaS
greenplum数据库SaaS是Software-as-a-Service(软件即服务)的简称,随着互联⽹技术的发展和应⽤软件的成熟, 在21世纪开始兴起的⼀种完全创新的软件应⽤模式。它与“on-demand software”(按需软件),the application service provider(ASP,应⽤服务提供商),hosted software(托管软件)所具有相似的含义。它是⼀种通过Internet提供软件的模式,⼚商将应⽤软件统⼀部署在⾃⼰的服务器上,客户可以根据⾃⼰实际需求,通过互联⽹向⼚商定购所需的应⽤软件服务,按定购的服务多少和时间长短向⼚商⽀付费⽤,并通过互联⽹获得⼚商提供的服务。
⼆⼗六:Paas
PaaS是Platform-as-a-Service的缩写,意思是平台即服务。 把服务器平台作为⼀种服务提供的商业模式。通过⽹络进⾏程序提供的服务称之为SaaS(Software as a Service),⽽云计算时代相应的服务器平台或者开发环境作为服务进⾏提供就成为了PaaS(Platform as a Service)。
所谓PaaS实际上是指将软件研发的平台(计世资讯定义为业务基础平台)作为⼀种服务,以SaaS的模式提交给⽤户。因此,PaaS也是SaaS模式的⼀种应⽤。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应⽤的开发速度。在2007年国内外SaaS⼚商先后推出⾃⼰的PAAS平台。
⼆⼗七:IaaS
IaaS(Infrastructure as a Service),即基础设施即服务。
消费者通过Internet 可以从完善的计算机基础设施获得服务。这类服务称为基础设施即服务。基于 Internet 的服务(如存储和数据库)是IaaS的⼀部分。Internet上其他类型的服务包括平台即服务(Platform as a Service,PaaS)和软件即服务(Software as a
Service,SaaS)。PaaS提供了⽤户可以访问的完整或部分的应⽤程序开发,SaaS则提供了完整的可直接使⽤的应⽤程序,⽐如通过Internet管理企业资源。
⼆⼗⼋:DaaS
(DaaS),数据即服务。
DaaS是SaaS的孪⽣兄弟 ,作为“as a service”家族成员之⼀,它将数据作为⼀种商品提供给任何有需
求的组织或个⼈ 。SOA(service oriented architecture,⾯向服务的体系架构)是⼀种业务驱动的、粗粒度、松耦合的服务架构,⽀持对业务进⾏整合,使其成为⼀种相互联系、可重⽤的业务任务或服务,是实现DaaS最有效的⽅法。基于SOA的DaaS体系架构如图1所⽰。基础异构数据资源经过数据整合后⽣成符合公共语⾔模式的视图,最后利⽤Web service技术将视图封装成具有公共接⼝的服务供⽤户调⽤,从⽽实现数据资源的按需获取。
⼆⼗九:HaaS
以提供的Hadoop作为⼀种服务(HAAS)
HaaS(Hardware-as-a-service)的意思是硬件即服务。HaaS概念的出现源于云计算,现在被称作基础架构即服务(IaaS)或基础架构云,使⽤IaaS,各企业可通过Web将更多的基础架构容量作为服务提供。“通过Web”分配更多的存储或处理容量当然要⽐供应商在基础环境中引⼊和安装新硬件要快得多。HaaS还具有另外⼀层含义是针对嵌⼊式设备⽽⾔的,⽬的在于建⽴通过互联⽹(Web)进⾏嵌⼊式设备统⼀管理服务的模式。在这种情况下,HaaS类似于SaaS,对于嵌⼊式设备使⽤者来说,⽆需对所需嵌⼊式设备进⾏⼀次性购买,仅需按照设备使⽤量或其它标准⽀付设备的服务费及维护费即可。
三⼗:数据聚类

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。