作者
YokiZhang
题图
站酷海洛
有人说“数据科学家”被誉为21世纪最性感的职业,尤其在互联网大数据日渐兴盛的当下更是如此。数据侠YokiZhang分析了Kaggle上发布的全球从事机器学习、数据科学领域人员的年深度调研数据,揭开了数据科学家的神秘面纱。
本文转自RS实验所(ID:rs_lab)
KaggleMLDataScienceSurvey此次调研共收到涵盖52个国家的16,+份问卷回复,问卷内容包含该领域有关从业者人群基本信息、该行业现状及业界最新动态等个维度信息。
本篇选取了包括港澳台在内的份国内数据,着重从数据科学从业者人物画像、流行的编程语言及算法、薪酬行业现状及推荐的优质开源平台等方面分析得出相应结论。
▍什么是数据科学家?
“数据科学家”迷人的一方面在于其工作职能的广泛性并要求一定的熟练度,与其他大多数传统职业不同,在大数据时代下数据科学家似乎是一种复合型人才,集成了统计分析、编程技术、商业敏感度、数学建模和可视化设计思维等能力并运用服务于企业工作的各个环节中。
尽管我们把数据科学家定义得较为宽泛,似乎无所不能。国内相关领域涵盖的工作非常多,此次调查中较普遍的头衔有软件开发工程师、数据分析师、机器学习工程师等。其中有80%掌握至少一种编程语言,且不同工作属性对技能要求略有不同,但不言而喻数据科学家对掌握技能的数量要求最为严苛。
(图片说明:SKILLSETSSUMMARYTABLE)
数据科学家做项目时完整的生命周期包括前期准备、产品搭建到后期商业优化的全过程。一个最为简单的基本工作流程包括数据的前期准备,模型的搭建,案例分析建模,可视化呈现,结果解释性分析,商业后期优化六个步骤。
目前所花的时间36%是在前期数据的计划筹备阶段,人们常说的“大”数据不仅指体量(Volumes)上的大,还有数据类别(Variety)之大,此次调查中数据科学领域从业者接触更多的是非结构化的数据(如文本、影视、图像等信息),数据工程师更多是处理一些关系型数据。
另外调查中关于从业者工作中遇到最具有挑战性的问题中,对脏数据的预处理遥遥领先地排在了第一位。
(图片说明:TIMESPENTONWORKFLOW)
▍数据科学家的基本画像
接着我们从人口统计学入手描绘数据领域人员的基本画像,本次调查对象的平均年龄大约28岁,如图可见主要集中在20-30岁区间内,近九成从事最新的这份数据领域工作不到两年,可见更换不同工作频率较快,另外该产业在国内发展逐渐兴盛,期待更广阔的前景。
(图片说明:AGEEXPERIENCEDISTRIBUTION)
通常来讲,女性依然是数据科学领域稀有的存在,数据科学从业者中最普遍的学历是硕士,但在女性数据相关领域群体中,拥有学士学位的从事者略高于硕士学位。
▍流行的分析工具及算法
近些年来,Python是数据科学领域人员最推荐也是发展较快的工具,推荐人数占75%,还有很多仍然保持着对R语言的忠诚,C/C++/C#则是程序员的有力武器。可见R、Python是两个最热门的开源数据分析工具,因此核心掌握这两门语言会让数据分析师具备更有力的竞争优势。
另外值得