常见的⼤数据术语表(中英⽂对照版)
常见的⼤数据术语表(中英⽂对照版)
A
聚合(Aggregation) - 搜索、合并、显⽰数据的过程
算法(Algorithms) - 可以完成某种数据分析的数学公式
分析法(Analytics) - ⽤于发现数据的内在涵义
异常检测(Anomaly detection) - 在数据集中搜索与预期模式或⾏为不匹配的数据项。除了"Anomalies",⽤来表⽰异常的词有以下⼏种:outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执⾏信息
匿名化(Anonymization) - 使数据匿名,即移除所有与个⼈隐私相关的数据
应⽤(Application) - 实现某种特定功能的计算机软件
⼈⼯智能(Artificial Intelligence) - 研发智能机器和智能软件,这些智能设备能够感知周遭的环境,并
根据要求作出相应的反应,甚⾄能⾃我学习
B
⾏为分析法(Behavioural Analytics) - 这种分析法是根据⽤户的⾏为如"怎么做","为什么这么做",以及"做了什么"来得出结论,⽽不是仅仅针对⼈物和时间的⼀门分析学科,它着眼于数据中的⼈性化模式
⼤数据科学家(Big Data Scientist) - 能够设计⼤数据算法使得⼤数据变得有⽤的⼈
⼤数据创业公司(Big data startup) - 指研发最新⼤数据技术的新兴公司
⽣物测定术(Biometrics) - 根据个⼈的特征进⾏⾝份识别
B字节(BB: Brontobytes) - 约等于1000 YB(Yottabytes),相当于未来数字化宇宙的⼤⼩。1 B字节包含了27个0!
商业智能(Business Intelligence) - 是⼀系列理论、⽅法学和过程,使得数据更容易被理解
C
分类分析(Classification analysis) - 从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(meta data),是描述数据的数据
云计算(Cloud computing) - 构建在⽹络上的分布式计算系统,数据是存储于机房外的(即云端)
聚类分析(Clustering analysis) - 它是将相似的对象聚合在⼀起,每类相似的对象组合成⼀个聚类(也叫作簇)的过程。这种分析⽅法的⽬的在于分析数据间的差异和相似性
冷数据存储(Cold data storage) - 在低功耗服务器上存储那些⼏乎不被使⽤的旧数据。但这些数据检索起来将会很耗时
对⽐分析(Comparative analysis) - 在⾮常⼤的数据集中进⾏模式匹配时,进⾏⼀步步的对⽐和计算过程得到分析结果
复杂结构的数据(Complex structured data) - 由两个或多个复杂⽽相互关联部分组成的数据,这类数据不能简单地由结构化查询语⾔或⼯具(SQL)解析
计算机产⽣的数据(Computer generated data) - 如⽇志⽂件这类由计算机⽣成的数据
并发(Concurrency) - 同时执⾏多个任务或运⾏多个进程
相关性分析(Correlation analysis) - 是⼀种数据分析⽅法,⽤于分析变量之间是否存在正相关,或者负相关
客户关系管理(CRM: Customer Relationship Management) - ⽤于管理销售、业务过程的⼀种技术,⼤数据将影响公司的客户关系管理的策略
D
仪表板(Dashboard) - 使⽤算法分析数据,并将结果⽤图表⽅式显⽰于仪表板中
数据聚合⼯具(Data aggregation tools) - 将分散于众多数据源的数据转化成⼀个全新数据源的过程
数据分析师(Data analyst) - 从事数据分析、建模、清理、处理的专业⼈员
数据库(Database) - ⼀个以某种特定的技术来存储数据集合的仓库
数据库即服务(Database-as-a-Service) - 部署在云端的数据库,即⽤即付,例如亚马逊云服务(AWS: Amazon Web Services)
数据库管理系统(DBMS: Database Management System) - 收集、存储数据,并提供数据的访问
数据中⼼(Data centre) - ⼀个实体地点,放置了⽤来存储数据的服务器
数据清洗(Data cleansing) - 对数据进⾏重新审查和校验的过程,⽬的在于删除重复信息、纠正存在的错误,并提供数据⼀致性
数据管理员(Data custodian) - 负责维护数据存储所需技术环境的专业技术⼈员
数据道德准则(Data ethical guidelines) - 这些准则有助于组织机构使其数据透明化,保证数据的简洁、安全及隐私
数据订阅(Data feed) - ⼀种数据流,例如Twitter订阅和RSS
数据集市(Data marketplace) - 进⾏数据集买卖的在线交易场所
数据挖掘(Data mining) - 从数据集中发掘特定模式或信息的过程
数据建模(Data modelling) - 使⽤数据建模技术来分析数据对象,以此洞悉数据的内在涵义
数据集(Data set) - ⼤量数据的集合
数据虚拟化(Data virtualization) - 数据整合的过程,以此获得更多的数据信息,这个过程通常会引⼊其他技术,例如数据库,应⽤程序,⽂件系统,⽹页技术,⼤数据技术等等
去⾝份识别(De-identification) - 也称为匿名化(anonymization),确保个⼈不会通过数据被识别
判别分析(Discriminant analysis) - 将数据分类;按不同的分类⽅式,可将数据分配到不同的组,类别或者⽬录。是⼀种统计分析法,可以对数据中某些组或集的已知信息进⾏分析,并从中获取分类规则。
分布式⽂件系统(Distributed File System) - 提供简化的,⾼可⽤的⽅式来存储、分析、处理数据的系统
⽂件存贮数据库(Document Store Databases) - ⼜称为⽂档数据库(document-oriented database),为存储、管理、恢复⽂档数据⽽专门设计的数据库,这类⽂档数据也称为半结构化数据
E
探索性分析(Exploratory analysis) - 在没有标准的流程或⽅法的情况下从数据中发掘模式。是⼀种发掘数据和数据集主要特性的⼀种⽅法
E字节(EB: Exabytes) - 约等于1000 PB(petabytes),约等于1
百万 GB。如今全球每天所制造的新信息量⼤约为1 EB
常见mpp数据库提取-转换-加载(ETL: Extract, Transform and Load) - 是⼀种⽤于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满⾜业务需要的数据,最后将其加载(L)到数据库
F
故障切换(Failover) - 当系统中某个服务器发⽣故障时,能⾃动地将运⾏任务切换到另⼀个可⽤服务器或节点上
容错设计(Fault-tolerant design) - ⼀个⽀持容错设计的系统应该能够做到当某⼀部分出现故障也能继续运⾏
G
游戏化(Gamification) - 在其他⾮游戏领域中运⽤游戏的思维和机制,这种⽅法可以以⼀种⼗分友好的⽅式进⾏数据的创建和侦测,⾮常有效。
图形数据库(Graph Databases) - 运⽤图形结构(例如,⼀组有限的有序对,或者某种实体)来存
储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的⾃由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。
⽹格计算(Grid computing) - 将许多分布在不同地点的计算机连接在⼀起,⽤以处理某个特定问题,通常是通过云将计算机相连在⼀起。
H
Hadoop - ⼀个开源的分布式系统基础框架,可⽤于开发分布式程序,进⾏⼤数据的运算与存储。
Hadoop数据库(HBase) - ⼀个开源的、⾮关系型、分布式数据库,与
Hadoop框架共同使⽤
HDFS - Hadoop分布式⽂件系统(Hadoop Distributed File System);是⼀个被设计成适合运⾏在通⽤硬件(commodity hardware)上的分布式⽂件系统
⾼性能计算(HPC: High-Performance-Computing) - 使⽤超级计算机来解决极其复杂的计算问题
I
内存数据库(IMDB: In-memory) - ⼀种数据库管理系统,与普通数据库管理系统不同之处在于,它⽤主存来存储数据,⽽⾮硬盘。其特点在于能⾼速地进⾏数据的处理和存取。
物联⽹(Internet of Things) - 在普通的设备中装上传感器,使这些设备能够在任何时间任何地点与⽹络相连。
J
法律上的数据⼀致性(Juridical data compliance) - 当你使⽤的云计算解决⽅案,将你的数据存储于不同的国家或不同的⼤陆时,就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。
K
键值数据库(KeyValue Databases) - 数据的存储⽅式是使⽤⼀个特定的键,指向⼀个特定的数据记录,这种⽅式使得数据的查更加⽅便快捷。键值数据库中所存的数据通常为编程语⾔中基本数据类型的数据。
L
延迟(Latency) - 表⽰系统时间的延迟
遗留系统(Legacy system) - 是⼀种旧的应⽤程序,或是旧的技术,或是旧的计算系统,现在已经不再⽀持了。
负载均衡(Load balancing) - 将⼯作量分配到多台电脑或服务器上,以获得最优结果和最⼤的系统利⽤率。
位置信息(Location data) - GPS信息,即地理位置信息。
⽇志⽂件(Log file) - 由计算机系统⾃动⽣成的⽂件,记录系统的运⾏过程。
M
M2M数据(Machine2Machine data) - 两台或多台机器间交流与传输的内容
机器数据(Machine data) - 由传感器或算法在机器上产⽣的数据
机器学习(Machine learning) - ⼈⼯智能的⼀部分,指的是机器能够从它们所完成的任务中进⾏⾃我学习,通过长期的累积实现⾃我改进。
MapReduce - 是处理⼤规模数据的⼀种软件框架(Map: 映射,Reduce: 归纳)。
⼤规模并⾏处理(MPP: Massively Parallel Processing) - 同时使⽤多个处理器(或多台计算机)处理同⼀个计算任务。
元数据(Metadata) - 被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。
MongoDB - ⼀种开源的⾮关系型数据库(NoSQL database)
多维数据库(Multi-Dimensional Databases) - ⽤于优化数据联机分析处理(OLAP)程序,优化数据仓库的⼀种数据库。
多值数据库(MultiValue Databases) - 是⼀种⾮关系型数据库(NoSQL),⼀种特殊的多维数据库:能处理3个维度的数据。主要针对⾮常长的字符串,能够完美地处理HTML和XML中的字串。
N
⾃然语⾔处理(Natural Language Processing) - 是计算机科学的⼀个分⽀领域,它研究如何实现计算机与⼈类语⾔之间的交互。
⽹络分析(Network analysis) - 分析⽹络或图论中节点间的关系,即分析⽹络中节点间的连接和强度关系。
NewSQL - ⼀个优雅的、定义良好的数据库系统,⽐SQL更易学习和使⽤,⽐NoSQL更晚提出的新型数据库
NoSQL - 顾名思义,就是"不使⽤SQL"的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的⼀致性,能处理超⼤规模和⾼并发的数据。
O
对象数据库(Object Databases) - (也称为⾯象对象数据库)以对象的形式存储数据,⽤于⾯向对象编程。它不同于关系型数据库和图形数据库,⼤部分对象数据库都提供⼀种查询语⾔,允许使⽤声明式编程(declarative programming)访问对象。
基于对象图像分析(Object-based Image Analysis) - 数字图像分析⽅法是对每⼀个像素的数据进⾏分析,⽽基于对象的图像分析⽅法则只分析相关像素的数据,这些相关像素被称为对象或图像对象。
操作型数据库(Operational Databases) - 这类数据库可以完成⼀个组织机构的常规操作,对商业运营⾮常重要,⼀般使⽤在线事务处理,允许⽤户访问、收集、检索公司内部的具体信息。
优化分析(Optimization analysis) - 在产品设计周期依靠算法来实现的优化过程,在这⼀过程中,公司可以设计各种各样的产品并测试这些产品是否满⾜预设值。
本体论(Ontology) - 表⽰知识本体,⽤于定义⼀个领域中的概念集及概念之间的关系的⼀种哲学思想。(译者注:数据被提⾼到哲学的⾼度,被赋予了世界本体的意义,成为⼀个独⽴的客观数据世界)
异常值检测(Outlier detection) - 异常值是指严重偏离⼀个数据集或⼀个数据组合总平均值的对象,该对象与数据集中的其他它相去甚远,因此,异常值的出现意味着系统发⽣问题,需要对此另加分析。
P
模式识别(Pattern Recognition) - 通过算法来识别数据中的模式,并对同⼀数据源中的新数据作出预测
P字节(PB: Petabytes) - 约等于1000 TB(terabytes),约等于1百万 GB (gigabytes)。欧洲核⼦研究中⼼(CERN)⼤型强⼦对撞机每秒产⽣的粒⼦个数就约为1 PB
平台即服务(PaaS: Platform-as-a-Service) - 为云计算解决⽅案提供所有必需的基础平台的⼀种服务
预测分析(Predictive analysis) - ⼤数据分析⽅法中最有价值的⼀种分析⽅法,这种⽅法有助于预测个⼈未来(近期)的⾏为,例如某⼈很可能会买某些商品,可能会访问某些⽹站,做某些事情或者产⽣某种⾏为。通过使⽤各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个⼈信息数据,来识别风险和机遇
隐私(Privacy) - 把具有可识别出个⼈信息的数据与其他数据分离开,以确保⽤户隐私。
公共数据(Public data) - 由公共基⾦创建的公共信息或公共数据集。
Q
数字化⾃我(Quantified Self) - 使⽤应⽤程序跟踪⽤户⼀天的⼀举⼀动,从⽽更好地理解其相关的⾏为
查询(Query) - 查某个问题答案的相关信息
R
再识别(Re-identification) - 将多个数据集合并在⼀起,从匿名化的数据中识别出个⼈信息
回归分析(Regression analysis) - 确定两个变量间的依赖关系。这种⽅法假设两个变量之间存在单向的因果关系(译者注:⾃变量,因变量,⼆者不可互换)
RFID - 射频识别;这种识别技术使⽤⼀种⽆线⾮接触式射频电磁场传感器来传输数据

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。