盘点⼤数据开发常⽤的四种编程语⾔
1.Python语⾔
如果你的数据科学家不使⽤R,他们可能就会彻底了解Python。如果你有⼀个需要NLP处理的项⽬,就会⾯临数量多得让⼈眼花缭乱的选择,包括经典的NTLK、使⽤GenSim的主题建模,或者超快、准确的spaCy。还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使⽤⼀种可共享的⽇志格式,将代码、图形以及⼏乎任何对象混合起来。这⼀直是Python的杀⼿级功能之⼀
2、R语⾔
使⽤R语⾔,只需要短短的⼏⾏代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字。它被⽐喻为是Excel的⼀个极度活跃版本。R语⾔最伟⼤的资本是
目前流行的编程语言已围绕它开发的充满活⼒的⽣态系统:R语⾔社区总是在不断地添加新的软件包和功能到它已经相当丰富的功能集中。据估计,超过200万的⼈使⽤R语⾔,并且最近的⼀次投票表明,R语⾔是迄今为⽌在科学数据中最流⾏的语⾔,被61%的受访者使⽤(其次是Python,39%)
3、JAVA
Java,以及基于Java的框架, Java不能提供R和Python同样质量的可视化,并且它并⾮统计建模的最佳选择。但是,如果你移动到过去的原型制作并需要建⽴⼤型系统,那么Java往往是你的最佳选择
4、Hadoop和Hive
⼀基于Java的⼯具被开发出来以满⾜数据处理的巨⼤需求。Hadoop作为⾸选的基于Java的框架⽤于批处理数据已经点燃了⼤家的热情。Hadoop⽐其他⼀些处理⼯具慢,但它出奇的准确,因此被⼴泛⽤于后端分析。它和Hive⼀个基于查询并且运⾏在顶部的框架可以很好地结对⼯作

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。