OpenRefine中文使用教程
第一章:初识OpenRefine
本章中,我们会说明OpenRefine是用来干什么的?为什么我们需要用它?并且怎么用它。简单介绍后,我们会通过七个基本小点让你初尝OpenRefine的魅力。
◎安装OpenRefine
◎创建一个项目
◎探索你的数据
record是什么意思中文◎操纵列
◎使用项目历史
◎输出项目
◎充分利用内存
虽然每个点都相对独立,我们还是建议新读者按照我们的顺序学习,最起码开始的几点需
要如此,因为这几点中我们提供了软件操作的重要信息。有经验的高级读者可以按照自己喜欢自由选择。
介绍OpenRefine
我们需要承认这样一个事实:你的数据是不完美的,所有的数据都是不完美的。无论你多么小心地建立数据,错误总会偷偷溜进你的数据中。如果是多人共同创建或者已经几经转手,那么错误更加无法避免。无论你的数据本来就是数字化的,还是通过传统刊物数字化转换而来的,无论它们存储在excel表中还是数据库中,数据中的错误总是无法避免。
确认错误是保证数据质量的第一步,主要包括数据画像和数据清洗。
数据画像 Olson定义为:使用统计方法发现数据的结构、内容、质量。换句话说,这是一种对你的数据进行画像,预发现包含的错误信息的方法。
数据清洗 用半自动化的方式改正画像过程中发现的错误,比如:删除缺失和重复值、行过滤透视、值聚类及转换、单元格拆分等等。
鉴于后续章节都需要保证数据已经画像清洗过,数据转换工具(IDTS)能够快速廉价的在一个操作界面内处理大量的数据问题,即使处理人员缺乏专业技术背景,所以IDTS也就成为了首选。
OpenRefine就是这样一个IDTS工具,其能够对数据进行可视化操作处理。它很像传统的excel软件,但其工作方式更像数据库,因其并不是处理单独的单元格,而是处理列和字段。这意味着OpenRefine对于增加新行内容表现不佳,但对于探索、清洗、整合数据却功能强大。
第一章的要点介绍将帮助您熟悉OpenRefine的主要功能,从导入导出数据到数据探索,从历史操作使用到内存管理。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。