⼀个字形容⼤数据_关于⼤数据,你应该知道的75个专业术语原标题:关于⼤数据,你应该知道的75个专业术语
上篇(25 个术语)
如果你刚接触⼤数据,你可能会觉得这个领域很难以理解,⽆从下⼿。不过,你可以从下⾯这份包含了 25 个⼤数据术语的清单⼊⼿,那么我们开始吧。
开发一个平台需要多少钱算法(Algorithm):算法可以理解成⼀种数学公式或⽤于进⾏数据分析的统计学过程。那么,「算法」⼜是何以与⼤数据扯上关系的呢?要知道,尽管算法这个词是⼀个统称,但是在这个流⾏⼤数据分析的时代,算法也经常被提及且变得越发流⾏。
分析(Analytics):让我们试想⼀个很可能发⽣的情况,你的信⽤卡公司给你发了封记录着你全年卡内资⾦转账情况的邮件,如果这个时候你拿着这张单⼦,开始认真研究你在⾷品、⾐物、娱乐等⽅⾯消费情况的百分⽐会怎样?你正在进⾏分析⼯作,你在从你原始的数据(这些数据可以帮助你为来年⾃⼰的消费情况作出决定)中挖掘有⽤的信息。那么,如果你以类似的⽅法在推特和脸书上对整个城市⼈们发的帖⼦进⾏处理会如何呢?在这种情况下,我们就可以称之为⼤数据分析。所谓⼤数据分析,就是对⼤量数据进⾏推理并从中道出有⽤的信息。以下有三种不同类型的分析⽅法,现在我们来对它们分别进⾏梳理。
描述性分析法(Deive Analytics):如果你只说出⾃⼰去年信⽤卡消费情况为:⾷品⽅⾯ 25%、⾐物⽅⾯ 35%、娱乐⽅⾯ 20%、剩下20% 为杂项开⽀,那么这种分析⽅法被称为描述性分析法。当然,你也可以出更多细节。
预测性分析法(Predictive Analytics):如果你对过去 5 年信⽤卡消费的历史进⾏了分析,发现每年的消费情况基本上呈现⼀个连续变化的趋势,那么在这种情况下你就可以⾼概率预测出:来年的消费状态应该和以往是类似的。这不是说我们在预测未来,⽽是应该理解为,我们在「⽤概率预测」可能发⽣什么事情。在⼤数据的预测分析中,数据科学家可能会使⽤先进的技术,如机器学习,和先进的统计学处理⽅法(这部分后⾯我们会谈到)来预测天⽓情况、经济变化等等。
规范性分析(Preive Analytics):这⾥我们还是⽤信⽤卡转账的例⼦来理解。假如你想出⾃⼰的哪类消费(如⾷品、娱乐、⾐物等等)可以对整体消费产⽣巨⼤影响,那么基于预测性分析(Predictive Analytics)的规范性分析法通过引⼊「动态指标(action)」(如减少⾷品或⾐物或娱乐)以及对由此产⽣的结果进⾏分析来规定⼀个可以降低你整体开销的最佳消费项。你可以将它延伸到⼤数据领域,并想象⼀个负责⼈是如何通过观察他⾯前多种动态指标的影响,进⽽作出所谓由「数据驱动」的决策的。
批处理(Batch processing):尽管批量数据处理从⼤型机(mainframe)时代就已经存在了,但是在处理⼤量数据的⼤数据时代⾯前,批处理获得了更重要的意义。批量数据处理是⼀种处理⼤量数据(如在⼀段时
间内收集到的⼀堆交易数据)的有效⽅法。分布式计算(Hadoop),后⾯会讨论,就是⼀种专门处理批量数据的⽅法。
Cassandra:是⼀个很流⾏的开源数据管理系统,由 Apache Software Foundation 开发并运营。Apache 掌握了很多⼤数据处理技术,Cassandra 就是他们专门设计⽤于在分布式服务器之间处理⼤量数据的系统。
云计算(Cloud computing):虽然云计算这个词现在已经家喻户晓,这⾥⼤可不必赘述,但是为了全篇内容完整性的考虑,笔者还是在这⾥加⼊了云计算词条。本质上讲,软件或数据在远程服务器上进⾏处理,并且这些资源可以在⽹络上任何地⽅被访问,那么它就可被称为云计算。
集计算(Cluster computing):这是⼀个来描述使⽤多个服务器丰富资源的⼀个集(cluster)的计算的形象化术语。更技术层⾯的理解是,在集处理的语境下,我们可能会讨论节点(node)、集管理层(cluster management layer)、负载平衡(load balancing)和并⾏处理(parallel processing)等等。
暗数据(Dark data):这是⼀个⽣造词,在笔者看来,它是⽤来吓唬⼈,让⾼级管理听上去晦涩难懂的。基本⽽⾔,所谓暗数据指的是,那些公司积累和处理的实际上完全⽤不到的所有数据,从这个意义上来说我们称它们为「暗」的数据,它们有可能根本不会被分析。这些数据可以是社交⽹络中的信息,电话中⼼的记录,会议记录等等。很多估计认为所有公司的数据中有 60% 到 90% 不等可能是暗数据,但实
际上没⼈知道。
数据湖(Data lake):当笔者第⼀次听到这个词时,真的以为这是个愚⼈节笑话。但是它真的是⼀个术语。所以⼀个数据湖(data lake)即⼀个以⼤量原始格式保存了公司级别的数据知识库。这⾥我们介绍⼀下数据仓库(Data warehouse)。数据仓库是⼀个与这⾥提到的数据湖类似的概念,但不同的是,它保存的是经过清理和并且其它资源整合后的结构化数据。数据仓库经常被⽤于通⽤数据(但不⼀定如此)。⼀般认为,⼀个数据湖可以让⼈更⽅便地接触到那些你真正需要的数据,此外,你也可以更⽅便地处理、有效地使⽤它们。
数据挖掘(Data mining):数据挖掘关乎如下过程,从⼀⼤数据中以复杂的模式识别技巧出有意义的模式,并且得到相关洞见。它与前⽂所述的「分析」息息相关,在数据挖掘中,你将会先对数据进⾏挖掘,然后对这些得到的结果进⾏分析。为了得到有意义的模式(pattern),数据挖掘⼈员会使⽤到统计学(⼀种经典的旧⽅法)、机器学习算法和⼈⼯智能。
数据科学家:数据科学家是时下⾮常性感的⼀门⾏业。它指那些可以通过提取原始数据(这就是我们前⾯所谓的数据湖)进⽽理解、处理并得出洞见的这样⼀批⼈。部分数据科学家必备的技能可以说只有超⼈才有:分析能⼒、统计学、计算机科学、创造⼒、讲故事能⼒以及理解商业背景的能⼒。难怪这帮⼈⼯资很⾼。
分布式⽂件系统(Distributed File System):⼤数据数量太⼤,不能存储在⼀个单独的系统中,分布式⽂件系统是⼀个能够把⼤量数据存储在多个存储设备上的⽂件系统,它能够减少存储⼤量数据的成本和复杂度。
ETL:ETL 代表提取、转换和加载。它指的是这⼀个过程:「提取」原始数据,通过清洗/丰富的⼿段,把数据「转换」为「适合使⽤」的形式,并且将其「加载」到合适的库中供系统使⽤。即使 ETL 源⾃数据仓库,但是这个过程在获取数据的时候也在被使⽤,例如,在⼤数据系统中从外部源获得数据。
Hadoop:当⼈们思考⼤数据的时候,他们会⽴即想到 Hadoop。Hadoop 是⼀个开源软件架构(logo 是⼀头可爱的⼤象),它由 Hadoop 分布式⽂件系统(HDFS)构成,它允许使⽤分布式硬件对⼤数据进⾏存储、抽象和分析。如果你真的想让某⼈对这个东西印象深刻,你可以跟他说 YARN(Yet Another Resource Scheduler),顾名思义,就是另⼀个资源调度器。我确实被提出这些名字的⼈深深震撼了。提出Hadoop 的 Apache 基⾦会,还负责 Pig、Hive 以及 Spark(这都是⼀些软件的名字)。你没有被这些名字惊艳到吗?
内存计算(In-memory computing):通常认为,任何不涉及到 I/O 访问的计算都会更快⼀些。内存计算就是这样的技术,它把所有的⼯作数据集都移动到集的集体内存中,避免了在计算过程中向磁盘写⼊中间结果。Apache Spark 就是⼀个内存计算的系统,它相对Mapreduce 这类 I/O 绑定的系统具有很⼤的优势。
物联⽹(IoT):最新的流⾏语就是物联⽹(IoT)。IoT 是嵌⼊式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备通过英特⽹的互联,它们能够收发数据。物联⽹⽣成了海量的数据,带来了很多⼤数据分析的机遇。
机器学习(Machine Learning):机器学习是基于喂⼊的数据去设计能够学习、调整和提升的系统的⼀种⽅法。使⽤设定的预测和统计算法,它们持续地逼近「正确的」⾏为和想法,随着更多的数据被输⼊到系统,它们能够进⼀步提升。
MapReduce:MapReduce 可能有点难以理解,我试着解释⼀下吧。MapReduceMapReduce 是⼀个编程模型,最好的理解就是要注意到 Map 和 Reduce 是两个不同的过程。在 MapReduce 中,程序模型⾸先将⼤数据集分割成⼀些⼩块(这些⼩块拿技术术语来讲叫做「元组」,但是我描述的时候会尽量避免晦涩的技术术语),然后这些⼩块会被分发给不同位置上的不同计算机(也就是说之前描述过的集),这在 Map 过程是必须的。然后模型会收集每个计算结果,并且将它们「reduce」成⼀个部分。MapReduce 的数据处理模型和 Hadoop 分布式⽂件系统是分不开的。
⾮关系型数据库(NoSQL):这个词听起来⼏乎就是「SQL,结构化查询语⾔」的反义词,SQL 是传统的关系型数据管理系统(RDBMS)必需的,但是 NOSQL 实际上指的是「不⽌ SQL」。NoSQL 实际上指的是那些被设计来处理没有结构(或者没有「schema」,纲要)的⼤量数据的数据库管理系统。NoSQL 适合⼤数据系统,因为⼤规模的⾮结构化数据库需要 NoSQL 的这种灵活性和分布式优先的特点。
R 语⾔:这还有⼈能给⼀个编程语⾔起⼀个更加糟糕的名字吗?R 语⾔就是这样的语⾔。不过,R 语⾔是⼀个在统计⼯作中⼯作得很好的语⾔。如果你不知道 R 语⾔,别说你是数据科学家。因为 R 语⾔是数据科学中最流⾏的编程语⾔之⼀。
Spark(Apache Spark):Apache Spark 是⼀个快速的内存数据处理引擎,它能够有效地执⾏那些需要迭代访问数据库的流处理、机器学习以及 SQL 负载。Spark 通常会⽐我们前⾯讨论过的 MapReduce 快好多。
流处理(Stream processing):流处理被设计来⽤于持续地进⾏流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能⼒)结合起来,流处理⽅法特别能够针对⼤规模数据的实时处理。
结构化 vs ⾮结构化数据(Structured v Unstructured Data):这是⼤数据中的对⽐之⼀。结构化数据基本上是那些能够被放在关系型数据库中的任何数据,以这种⽅式组织的数据可以与其他数据通过表格来关联。⾮结构化数据是指任何不能够被放在关系型数据库中的数据,例如邮件信息、社交媒体上的状态,以及⼈类语⾳等等。
⼆、下篇(50 个术语)
这篇⽂章是上篇⽂章的延续,由于上篇反响热烈,我决定多介绍 50 个相关术语。下⾯来对上篇⽂章涵
盖的术语做个简短的回顾:算法,分析,描述性分析,预处理分析,预测分析,批处理,Cassandra(⼀个⼤规模分布式数据存储系统),云计算,集计算,暗数据,数据湖,数据挖掘,数据科学家,分布式⽂件系统,ETL,Hadoop(⼀个开发和运⾏处理⼤规模数据的软件平台),内存计算,物联⽹,机器学
习,Mapreduce(hadoop 的核⼼组件之⼀),NoSQL(⾮关系型的数据库),R,Spark(计算引擎),流处理,结构化 vs ⾮结构化数据。
我们接下来继续了解另外 50 个⼤数据术语。
Apache:软件基⾦会(ASF)提供了许多⼤数据的开源项⽬,⽬前有 350 多个。解释完这些项⽬需要耗费⼤量时间,所以我只挑选解释了⼀些流⾏术语。
Apache Kafka:命名于捷克作家卡夫卡,⽤于构建实时数据管道和流媒体应⽤。它如此流⾏的原因在于能够以容错的⽅式存储、管理和处理数据流,据说还⾮常「快速」。鉴于社交⽹络环境⼤量涉及数据流的处理,卡夫卡⽬前⾮常受欢迎。
Apache Mahout:Mahout 提供了⼀个⽤于机器学习和数据挖掘的预制算法库,也可⽤作创建更多算法的环境。换句话说,机器学习极客的最佳环境。
Apache Oozie:在任何编程环境中,你都需要⼀些⼯作流系统通过预定义的⽅式和定义的依赖关系,安
排和运⾏⼯作。Oozie 为 pig、MapReduce 以及 Hive 等语⾔编写的⼤数据⼯作所提供正是这个。
Apache Drill, Apache Impala, Apache Spark SQL:这三个开源项⽬都提供快速和交互式的 SQL,如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以⼤数据格式存储的数据(即 HBase 或 HDFS),这些功能将⾮常有⽤。抱歉,这⾥说的有点奇怪。
Apache Hive:知道 SQL 吗?如果知道那你就很好上⼿ Hive 了。Hive 有助于使⽤ SQL 读取、写⼊和管理驻留在分布式存储中的⼤型数据集。
Apache Pig:Pig 是在⼤型分布式数据集上创建、查询、执⾏例程的平台。所使⽤的脚本语⾔叫做 Pig Latin(我绝对不是瞎说,相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的?
Apache Sqoop:⼀个⽤于将数据从 Hadoop 转移到⾮ Hadoop 数据存储(如数据仓库和关系数据库)的⼯具。
Apache Storm:⼀个免费开源的实时分布式计算系统。它使得使⽤ Hadoop 进⾏批处理的同时可以更容易地处理⾮结构化数据。
⼈⼯智能(AI):为什么 AI 出现在这⾥?你可能会问,这不是⼀个单独的领域吗?所有这些技术发展趋势紧密相连,所以我们最好静下⼼来继续学习,对吧?AI 以软硬件结合的⽅式开发智能机器和软件,这种硬
件和软件的结合能够感知环境并在需要时采取必要的⾏动,不断从这些⾏动中学习。是不是听起来很像机器学习?跟我⼀起「困惑」吧。
⾏为分析(Behavioral Analytics):你有没有想过⾕歌是如何为你需要的产品/服务提供⼴告的?⾏为分析侧重于理解消费者和应⽤程序所做的事情,以及如何与为什么它们以某种⽅式起作⽤。这涉及了解我们的上⽹模式,社交媒体互动⾏为,以及我们的⽹上购物活动(购物车等),连接这些⽆关的数据点,并试图预测结果。举⼀个例⼦,在我到⼀家酒店并清空购物车后,我收到了度假村假期线路的电话。我还要说多点吗?
Brontobytes:1 后⾯ 27 个零,这是未来数字世界存储单位的⼤⼩。⽽我们在这⾥,来谈谈 Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你⼀定要读这篇⽂章才能深⼊了解这些术语。
商业智能(Business Intelligence):我将重⽤ Gartner 对 BI 的定义,因为它解释的很好。商业智能是⼀个总称,包括应⽤程序、基础设施、⼯具以及最佳实践,它可以访问和分析信息,从⽽改善和优化决策及绩效。
⽣物测定学(Biometrics):这是⼀项 James Bondish 技术与分析技术相结合的通过⼈体的⼀种或多种物理特征来识别⼈的技术,如⾯部识别,虹膜识别,指纹识别等。
点击流分析(Clickstream analytics):⽤于分析⽤户在⽹络上浏览时的在线点击数据。有没有想过即使在切换⽹站时,为什么某些⾕歌⼴告还是阴魂不散?因为⾕歌⼤佬知道你在点击什么。
聚类分析(Cluster Analysis):是⼀个试图识别数据结构的探索性分析,也称为分割分析或分类分析。更具体地说,它试图确定案例的同质组(homogenous groups),即观察、参与者、受访者。如果分组以前未知,则使⽤聚类分析来识别案例组。因为它是探索性的,确实对依赖变量和独⽴变量进⾏了区分。SPSS 提供的不同的聚类分析⽅法可以处理⼆进制、标称、序数和规模(区间或⽐率)数据。
⽐较分析(Comparative Analytics):因为⼤数据的关键就在于分析,所以本⽂中我将深⼊讲解分析的意义。顾名思义,⽐较分析是使⽤诸如模式分析、过滤和决策树分析等统计技术来⽐较多个进程、数据集或其他对象。我知道它涉及的技术越来越少,但是我仍⽆法完全避免使⽤术语。⽐较分析可⽤于医疗保健领域,通过⽐较⼤量的医疗记录、⽂件、图像等,给出更有效和更准确的医疗诊断。
关联分析(Connection Analytics):你⼀定看到了像图表⼀样的蜘蛛⽹将⼈与主题连接起来,从⽽确定特定主题的影响者。关联分析分析可以帮助发现⼈们、产品、⽹络之中的系统,甚⾄是数据与多个⽹络结合之间的相关连接和影响。
数据分析师(Data Analyst):数据分析师是⼀个⾮常重要和受欢迎的⼯作,除了准备报告之外,它还负责收集、编辑和分析数据。我会写⼀篇更详细的关于数据分析师的⽂章。
数据清洗(Data Cleansing):顾名思义,数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录,然后记住「脏数据」。借助于⾃动化或者⼈⼯⼯具和算法,数据分析师能够更正并进⼀步丰富数据,以提⾼数据质量。请记住,脏数据会导致错误的分析和糟糕的决策。
数据即服务(DaaS):我们有软件即服务(SaaS), 平台即服务(PaaS),现在我们⼜有 DaaS,它的意思是:数据即服务。通过给⽤户提供按需访问的云端数据,DaaS 提供商能够帮助我们快速地得到⾼质量的数据。
数据虚拟化(Data virtualization):这是⼀种数据管理⽅法,它允许某个应⽤在不知道技术细节(如数据存放在何处,以什么格式)的情况下能够抽取并操作数据。例如,社交⽹络利⽤这个⽅法来存储我们的照⽚。
脏数据(Dirty Data):既然⼤数据这么吸引⼈,那么⼈们也开始给数据加上其他的形容词来形成新的术语,例如⿊数据(dark data)、脏数据(dirty data)、⼩数据(small data),以及现在的智能数据(smart data)。脏数据就是不⼲净的数据,换⾔之,就是不准确的、重复的以及不⼀致的数据。显然,你不会想着和脏数据搅在⼀起。所以,尽快地修正它。
模糊逻辑(Fuzzy logic):我们有多少次对⼀件事情是确定的,例如 100% 正确?很稀少!我们的⼤脑将数据聚合成部分的事实,这些事实进⼀步被抽象为某种能够决定我们决策的阈值。模糊逻辑是⼀种这样的
计算⽅式,与像布尔代数等等中的「0」和「1」相反,它旨在通过渐渐消除部分事实来模仿⼈脑。
游戏化(Gamification):在⼀个典型的游戏中,你会有⼀个类似于分数⼀样的元素与别⼈竞争,并且还有明确的游戏规则。⼤数据中的游戏化就是使⽤这些概念来收集、分析数据或者激发玩家。
图数据库(Graph Databases):图数据使⽤节点和边这样的概念来代表⼈和业务以及他们之间的关系,以挖掘社交媒体中的数据。是否曾经惊叹过亚马逊在你买⼀件产品的时候告诉你的关于别⼈在买什么的信息?对,这就是图数据库。
Hadoop ⽤户体验(Hadoop User Experience /Hue):Hue 是⼀个能够让使⽤ Apache Hadoop 变得更加容易的开源接⼝。它是⼀款基于 web 的应⽤;它有⼀款分布式⽂件系统的⽂件浏览器;它有⽤于 MapReduce 的任务设计;它有能够调度⼯作流的框架 Oozie;它有⼀个shell、⼀个 Impala、⼀个 Hive UI 以及⼀组 Hadoop API。
⾼性能分析应⽤(HANA):这是 SAP 公司为⼤数据传输和分析设计的⼀个软硬件内存平台。
HBase:⼀个分布式的⾯向列的数据库。它使⽤ HDFS 作为其底层存储,既⽀持利⽤ MapReduce 进⾏的批量计算,也⽀持利⽤事物交互的批量计算。
负载均衡(Load balancing):为了实现最佳的结果和对系统的利⽤,将负载分发给多个计算机或者服务器。
元数据(Metadata):元数据就是能够描述其他数据的数据。元数据总结了数据的基本信息,这使得查和使⽤特定的数据实例变得更加容易。例如,作者、数据的创建⽇期、修改⽇期以及⼤⼩,这⼏项是基本的⽂档元数据。除了⽂档⽂件之外,元数据还被⽤于图像、视频、电⼦表格和⽹页。
MongoDB:MongoDB 是⼀个⾯向⽂本数据模型的跨平台开源数据库,⽽不是传统的基于表格的关系数据库。这种数据库结构的主要设计⽬的是让结构化数据和⾮结构化数据在特定类型应⽤的整合更快、更容易。
Mashup:幸运的是,这个术语和我们在⽇常⽣活中使⽤的「mashup」⼀词有着相近的含义,就是混搭的意思。实质上,mashup 是⼀个将不同的数据集合并到⼀个单独应⽤中的⽅法(例如:将房地产数据与地理位置数据、⼈⼝数据结合起来)。这确实能够让可视化变得很酷。
多维数据库(Multi-Dimensional Databases):这是⼀个为了数据在线分析处理(OLAP)和数据仓库优化⽽来的数据库。如果你不知道数据仓库是什么,我可以解释⼀下,数据仓库不是别的什么东西,它只是对多个数据源的数据做了集中存储。
多值数据库(MultiValue Databases):多值数据库是⼀种⾮关系型数据库,它能够直接理解三维数据,这对直接操作 HTML 和 XML 字符串是很好的。
⾃然语⾔处理(Natural Language Processing):⾃然语⾔处理是被设计来让计算机更加准确地理解⼈类⽇常语⾔的软件算法,能够让⼈类更加⾃然、更加有效地和计算机交互。
神经⽹络(Neural Network):根据这个描述神经⽹络是⼀个受⽣物学启发的⾮常漂亮的编程范式,它能够让计算机从观察到的数据中学习。已经好久没有⼀个⼈会说⼀个编程范式很漂亮了。实际上,神经⽹络就是受现实⽣活中脑⽣物学启发的模型....... 与神经⽹络紧密关联的⼀个术语就是深度学习。深度学习是神经⽹络中⼀系列学习技术的集合。
模式识别(Pattern Recognition):当算法需要在⼤规模数据集或者在不同的数据集上确定回归或者规律的时候,就出现了模式识别。它与机器学习和数据挖掘紧密相连,甚⾄被认为是后两者的代名词。这种可见性可以帮助研究者发现⼀些深刻的规律或者得到⼀些可能被认为很荒谬的结论。
射频识别(Radio Frequency Identification/RFID):射频识别是⼀类使⽤⾮接触性⽆线射频电磁场来传输数据的传感器。随着物联⽹的发展,RFID 标签能够被嵌⼊到任何可能的「东西⾥⾯」,这能够⽣成很多需要被分析的数据。欢迎来到数据世界。
软件即服务(SaaS):软件即服务让服务提供商把应⽤托管在互联⽹上。SaaS 提供商在云端提供服务。
半结构化数据(Semi-structured data):半结构化数据指的是那些没有以传统的⽅法进⾏格式化的数据,
例如那些与传统数据库相关的数据域或者常⽤的数据模型。半结构化数据也不是完全原始的数据或者完全⾮结构化的数据,它可能会包含⼀些数据表、标签或者其他的结构元素。半结构化数据的例⼦有图、表、XML ⽂档以及电⼦邮件。半结构化数据在万维⽹上⼗分流⾏,在⾯向对象数据库中经常能够被到。
情感分析(Sentiment Analysis):情感分析涉及到了对消费者在社交媒体、顾客代表电话访谈和调查中存在的多种类型的交互和⽂档中所表达的情感、情绪和意见的捕捉、追踪和分析。⽂本分析和⾃然语⾔处理是情感分析过程中的典型技术。情感分析的⽬标就是要辨别或评价针对⼀个公司、产品、服务、⼈或者时间所持有的态度或者情感。
空间分析(Spatial analysis):空间分析指的是对空间数据作出分析,以识别或者理解分布在⼏何空间中的数据的模式和规律,这类数据有⼏何数据和拓扑数据。
流处理(Stream processing):流处理被设计⽤来对「流数据」进⾏实时的「连续」查询和处理。为了对⼤量的流数据以很快的速度持续地进⾏实时的数值计算和统计分析,社交⽹络上的流数据对流处理的需求很明确。
智能数据(Smart Data):是经过⼀些算法处理之后有⽤并且可操作的数据。
Terabyte:这是⼀个相对⼤的数字数据单位,1TB 等于 1000GB。据估计,10TB 能够容纳美国国会图书馆的所有印刷品,⽽ 1TB 则能够容纳整个百科全书 Encyclopedia Brittanica。
可视化(Visualization):有了合理的可视化之后,原始数据就能够使⽤了。当然这⾥的可视化并不⽌简单的图表。⽽是能够包含数据的很多变量的同时还具有可读性和可理解性的复杂图表。
Yottabytes:接近 1000 Zettabytes,或者 2500 万亿张 DVD。现在所有的数字存储⼤概是 1 Yottabyte,⽽且这个数字每 18 个⽉会翻⼀番。
Zettabytes:接近 1000 Exabytes,或者 10 亿 Terabytes。返回搜狐,查看更多
责任编辑:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论