⼤数据之数据采集⽅法
引⾔
数据源的分类,⼤体可以分为三类:结构化数据,半结构化数据,⾮结构化数据
开始
我仅对我⼯作中接触的数据和使⽤的⽅法做总结,不免有些遗漏或错误。
⾸先,我们⾯临的数据源多⽽杂,有来⾃公司⾃有平台的数据,来⾃第三⽅现有的数据,来⾃通过爬取获取的数据。
⾃有平台数据的采集
⾃有平台的数据包括:⾃有系统中的数据和各个部门⼿动整理的历史数据
(1)⾃有系统的数据,存放在oracle数据库中,⽽我们抽取的数据统⼀放在⼀个数据平台,数据平台采⽤的数据库为mongodb。所以⾃有系统的数据采集,关键是如何从oracle到mongodb中。
如果采集的数据对实时性要求⽐较⾼,那么采⽤ogg实时迁移⽅案。
oracle to oracle迁移⽅案
oracle to mongodb迁移⽅案
如果采集数据对实时性要求不⾼,那么采⽤定时的迁移⽅案:使⽤etl⼯具进⾏数据迁移(spoon)
(2)⾃有数据,还有⼀部分是以csv或txt的形式存在
如果对实时性要求⽐较⾼:使⽤flume对⽇志进⾏收集,然后存放的mongodb中
如果对实时性要求不⾼:使⽤mongodbimport⼯具导⼊mongodb即可
第三⽅现有数据的采集半结构化数据
仅有⾃有的数据是不⾜以⽀撑业务需求的分析,所以收集第三⽅数据是必须的,第三⽅的数据来源就多种多样了,⼤体可以⼆类:来⾃数据库中的半结构化数据,来⾃⽂件的半结构化数据
大数据etl工具有哪些如果数据来⾃关系型数据库mysql或oracle,并且提供的是dmp⽂件,那么就需要将获取的数据存⼊到mongodb。这⾥提供两种思路:
(1)先将数据存⼊oracle或mysql,然后使⽤上述迁移⽅案完成数据的采集
(2)直接将获取的数据,使⽤⼯具导⼊到oracle
如果数据提供的是txt或csv⽂件,那么直接使⽤mongoimport导⼊mongodb
⾮结构化数据采集
这⼀节,没多少要讲的。因为没有接触很深,但是后续是个必须的过程。使⽤python爬取各种数据,存储成csv或txt⽂件
爬取的⽂件,再使⽤mongodbimport导⼊mongodb中
由于要提供数据的可视化和搜索平台,建议使⽤ELK的技术栈,所以数据的收集使⽤Logstash
<b>下⼀章节总结⼀下数据的规整

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。