数据科学与大数据技术专业导论学习总结
选择数据科学与大数据技术专业本身是自己对于该专业的喜欢,同时自己也对于此专业有一定的了解。
数据科学与大数据技术专业是在数据信息爆炸式发展背景下设立的面向大数据时代巨大人才需求的一个新兴专业,旨在培养具有良好的科学素养和社会责任感与使命感,具有较为宽广的国际视野,具有从事数据科学与大数据相关的软硬件及网络的研究、设计、开发以及综合应用的高级工程技术人才。而我们需要更加努力去成为数据技术方面的人才,成为社会不断发展不断进步的推动者之一。
据了解,本科专业中和大数据相对应的是“数据科学与大数据技术”专业,它是2015年教育部公布的新增专业。2016年3月公布的《高校本科专业备案和审批结果》中,北京大学、对外经济贸易大学和中南大学3所高校首批获批开设“数据科学与大数据技术”专业。随后第二年又有32所高校获批“数据科学与大数据技术”专业。两次获批的名单中显示,该专业学制为四年,大部分
为工学。就业前景广阔,毕业生能够在计算机和互联网领域以及大数据相关产业从事数据科学研究、大数据相关工程应用开发、技术管理与咨询等工作。该专业适合升学考研。在2018年,淮北师范大学也开设数据科学与大数据专业,紧跟教育部的教育发展方向,为国家和社会培养更多的互联网方面的人才。数据科学与大数据技术主要研究计算机科学和大数据处理技术等相关的知识和技能,从大数据应用的三个主要层面(即数据管理、系统开发、海量数据分析与挖掘)出发,对实际问题进行分析和解决。
谈及数据科学与大数据技术的专业特点我觉得可以从以下方面概括。首先最重要的一点就是处理的信息量非常庞大,从一开始的TB级别,增到PB级别。其起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。随着信息技术的不断飞速发展,数据呈爆发性的增张。信息量的剧增化趋势日益明显,以刚刚度过的双十一狂欢节为例,阿里巴巴内部需要处理的信息量及其庞大。随着第12个天猫双11落下帷幕,根据阿里巴巴公布的数据显示,今年天猫双11成交额达4982亿元,再次创下新高。相比较下,2019年双11成交额为2684亿元,2018年双11成交额为2135亿元,2017年双11成交额为1682亿元。庞大的数字背后的信息量是惊人的,几千亿的订单信息,物流信息等构成了庞大的数据库。其次,还有其他的不同类型数据。这些数据的来源有社交网络(微博、推特、脸书)、移动
网络、各种智能工具,服务工具等。而在淘宝网,有近4亿的会员每日产生的商品交易数据约20TB;在脸书约有10亿的用户,每日产生的日志数据超过300TB。所以急需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理这么大规模的数据。
第二点,数据的类型有很多。众多的数据来源,也就决定了大数据形式的多样性。无论怎样形式的数据都能产生作用,而如今应用最广泛的就是推荐系统,像新浪微博,网易云音乐和今日头条等这些平台,都可以对用户的日志数据进行分析,进而推荐用户喜欢的东西。
日志数据是一种结构化明显的数据,但还有一些数据结构化并不明显,像图片、音频、视频。在现实世界所产生的数据里,一般有价值的数据所占比例很小
第三点就是分析数据的可利用性,与传统的小数据相比,大数据最大的价值是可以通过从众多不相关的各种类型的数据中,从而可以挖掘出对未来趋势与模式预测分析有价值的数据。还可以通过机器的学习方法、人工智能方法或数据挖掘方法去深度分析,然后发现新规律和新知识,且运用于农业、金融、医疗等不同领域,最终可以达到改善社会治理、提
高生产效率、推进科学研究的效果。
还有一点就是大数据的处理速度快、时效高这是大数据区分于传统数据挖掘最显著的特征。大数据的产生十分迅速,主要通过互联网的传输。在生活中我们都离不开互联网,可以说每人每天都在向大数据提供众多的资料,而这些数据是应该及时处理的。但花费大量资本去存储作用较小的历史数据,这样是很不划算的。而对于一个平台来说,可能保存的数据只是在过去几天或者一个月之内,所以再远的数据都要及时清理,不然代价很大。对于这种情况,大数据对处理的速度有很严格的要求,服务器中很多的资源都用于处理和计算数据,而很多平台都需要做到实时分析。数据时刻都在产生,所以谁的速度更快,谁就会有优势。
数据科学与大数据技术可以大致分成大数据以及数据科学两个方面,在我的理解中
大数据的课程偏向系统工程师以及算法研究员,偏计算机的知识更多,如果再与结合非结构化数据的处理技术,这块内容会更有点偏向人工智能的课程。其次呢,数据科学的课程更偏向统计、优化,更强调的是一种优化、实验、迭代、分析等建模的思维,同时结合行业应用的深度更强。数据科学可包括数据科学导论,数据可视化,数据产品开发,探索性
数据分析,大数据分析,试验设计,优化论,因果分析,数据科学综合训练课程等方面。
对于本专业的课程体系,它是从多方面需要学习的一门重要课程。首先就是概率论与数理计,它的主要内容为数理统计的基本概念、抽样分布、参数估计、假设检验;然后是多元统计分析:多元正态分布;聚类分析;判别分析;主成分分析;因子分析;对应分析;Logistic回归模型、偏最小二乘回归模型等。当然学会微积分也很重要,有关的基本的微积分概念及计算原理我们也需要更好的掌握;大学时期的最初阶段学习本专业的学生的一门必修课便是线性代数,通过学习并掌握基本的线性代数概念,计算原理为学习大数据打下基础;然后时间序列的基本概念、基本原理、基本方法、定量分析也需要适当了解;对于数据结构其实是我们学习的必修,在大数据领域有着举足轻重的作用,我们需要学习相关的编程工具,如Python或R、C或Java,还有主要的程序结构、基本的数据结构、常用算法;第七点呢就是计算机系统基础,其中包括计算机系统架构的基本概念、常规信息系统的基本架构、主要的数据传输方法、数据解析和信息抽取技术;然后就是本专业学生比较数序的大数据导论,通过学习大数据导论我们可以了解Hadoop大数据的基本概念、大数据分析基础、大数据挖掘基础、大数据可视化技术基础、大数据存储技术基础、大数据安全技术基础、数据科学基础、大数据与crm等;其中提及的Hadoop大数据技术也就是Hadoop
生态,介绍Hadoop的安装和配置,Hadoop的组件包括HDFS分布式存储系统,MapReduce计算框架,海量数据库HBase,Hive数据仓库,Pig、ZooKeeper管理系统等知识;有关分布式数据库原理及应用便是介绍分布式数据库的原理和应用,以及当前大数据行业主要的非结构化的数据库,内容包括分布式数据库设计,分布式查询的分解与优化,事务管理,分布式并发控制,分布式数据库管理系统的可靠性,数据复制等分布式数据管理技术的经典内容;当然比较重要的一点还有数据建模分析,介绍数据挖掘/建模的主要流程以及除算法外的其它建模重点,包括数据探索性分析、建模(具体的建模算法放到数据挖掘课程)、实验设计、评估方法等;数据仓库与数据挖掘技术是经典以及最新的数据建模分析技术研究成果,如小波分析、Rough分析、蚁分析、分形技术、Agent、进化算法、分/聚类分析、非结构数据的挖掘、离数据挖掘;然后数据可视化技术是从人、数据、可视化流程等三个层面阐述数据可视化的基础理论和概念;针对实际应用中遇到的不同类型的数据,包括时空数据、地理信息数据、高维非空间数据、层次和网络数据介绍相应的可视化方法;介绍可视化综合应用及实用系统;同时还有大数据分析与内存计算Spark的体系结构、工作机制、安装与部署、开发环境搭建、计算模型、Benchmark、BDAS等内容;应用角度讲解了一些简单的、有代表性的案例;还有商业智能方法与应用:介绍商
务智能的基本概念、主要功能、系统架构,以及数据分析和数据管理的主要方法和技术,包括数据仓库、在线分析处理以及数据挖掘的建模、分析和评价方法,涵盖多维数据模型的建模、多维分析方法以及各种知识发现方法等及大数据管理与创新,介绍大数据管理的基本理念、方法、流程以及如何建立相关的数据团队,并对创新的数据管理提供一些思考方向;与此同时,我们需要学习大数据治理与政策,介绍大数据的发展对社会治理的作用、影响以及相关的政策法规、从业者的相关道德要求等;模式识别/计算机视觉:介绍非结构化数据在模式识别、图像识别等方面的处理技术和原理等。
有关就业问题,大数据专业的毕业生可以更多的考虑政府机构,企业,互联网公司。当然也可以选择考研或者出国深造。随着移动互联网和智能终端的普及,信息技术与经济社会的交汇融合,引发了数据迅猛增长。根据领英发布《2016年中国最热职位人才报告》显示,有六类热门职位的人才当前都处于供不应求状态,稀缺程度各有不同,其中,数据分析人才的供给指数最低,仅为0.05,属于高度稀缺。大家可以选择大数据系统架构师,大数据系统分析师,hadoop开发工程师等作为自己的未来职业,都是不错的选择。
为了更好的进行数据分析我们需要掌握更多的编程工具python,java,R,Hadoop,c语言等,
python大数据就业前景同时具有良好的科学素养,即对于科学知识达到基本的了解程度;对科学的研究过程和方法达到基本的了解程度;对于科学技术对社会和个人所产生的影响达到基本的了解程度。教育是影响中国公民科学素养的主要因素,经济是公民提高自身科学素养的驱动因素,政治因素对中国公民科学素养的提高起指导性作用,文化也深刻影响中国公民科学素养,有促进作用也有制约作用。
最后,就个人而言对于数据科学与大数据技术是满怀喜爱与敬重,渴望在此领域内更加的优秀,不断地学习专业知识,培养自己的科学素养,成为社会发展路上的主力军。目前此专业的人才缺口依然很大,我们更应该努力的学习大数据领域的相关知识。同时在学习本专业的同时可以学习更多有关联的知识,学习并不是单一孤立的,“博学而慎思”,在学习的途中,秉持谦卑与耐心,永远坚守自我,不言放弃,用自己的努力来为数据处理给社会来的有利方面做出自己的一份贡献!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论