⼏种常见的软件数据对接技术
⽬前数据孤岛林⽴,对接业务软件或者是获取软件中的数据存在较⼤困难,尤其是CS软件的数据爬取难度更⼤。
系统对接最常见的⽅式是接⼝⽅式,运⽓好的情况下,能够顺利对接,但是接⼝对接⽅式常需花费⼤量时间协调各个软件⼚商。
除了软件接⼝,是否还有其他⽅式,⼩编总结了集中常见的技术供⼤家参考,主要分为以下⼏类:
CS软件数据采集技术。
C/S架构软件属于⽐较⽼的架构,能采集这种软件数据的产品⽐较少。
常见的是博为⼩帮软件机器⼈,在不需要软件⼚商配合的情况下,基于“”所见即所得“的⽅式采集界⾯上的数据。输出的结果是结构化的数据库或者excel表。如果只需要业务数据的话,或者⼚商倒闭,数据库分析困难的情况下,这个⼯具可以采集数据,尤其是详情页数据的采集功能⽐较有特⾊。
值得⼀提的是,这个产品的使⽤门槛很低,没有 IT背景的业务同学也能使⽤,⼤⼤拓展了使⽤的⼈。
⼆、⽹络数据采集API。通过⽹络爬⾍和⼀些⽹站平台提供的公共API(如Twitter和新浪微博API)等⽅式从⽹站上获取数据。这样就可以将⾮结构化数据和半结构化数据的⽹页数据从⽹页中提取出来。
互联⽹的⽹页⼤数据采集和处理的整体过程包含四个主要模块:web爬⾍(Spider)、数据处理(Data Process)、爬取URL队列(URL Queue)和数据。
数据库⽅式
两个系统分别有各⾃的数据库,同类型的数据库之间是⽐较⽅便的:
1)如果两个数据库在同⼀个服务器上,只要⽤户名设置的没有问题,就可以直接相互访问,需要在from后将其数据库名称及表的架构所有者带spider软件
上即可。
2)如果两个系统的数据库不在⼀个服务器上,那么建议采⽤链接服务器的形式来处理,或者使⽤openset和opendatasource的⽅式,这个需要对数据库的访问进⾏外围服务器的配置。
不同类型的数据库之间的连接就⽐较⿇烦,需要做很多设置才能⽣效,这⾥不做详细说明。
开放数据库⽅式需要协调各个软件⼚商开放数据库,其难度很⼤;⼀个平台如果要同时连接很多个软件⼚商的数据库,并且实时都在获取数据,这对平台本⾝的性能也是个巨⼤的挑战。
欢迎⼤家⼀起讨论。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论