数据科学家成长指南:从入门到被逼疯

原创 2019-02-23 15:50  阅读 175 views 次

文|新智元

编辑|元子

你可能已经从媒体铺天盖地的报道中,了解到数据科学家这个抬头非常火。

根据UiPath数据显示,2018年12113个岗位争夺AI人才,数据科学家需求量排名第二。

于是很多人萌生了入行、或者转行做数据科学家的念头。那么接着就带来一个问题:如何成为一名数据科学家呢?

接下来,由《Getting Started with SQL》(O’Reilly)和《Learning RxJava》(Packt) 二书的作者、美国西南航空的企业顾问Thomas Nield,献上这份《2019年数据科学家成长指南》。

废话不多说,马上进入战斗。

Round 1:不考证完全没问题。当然考了也可以

不要把工作后宝贵的时间,浪费在考证上。「数据科学」不过是「商业分析」的一个分支,而且通常学校的知识总是和当前的科技前沿脱节。如果真的想学建议去Coursera或者可汗学院自学。

当然,证书多了终归是好事嘛。如果你非要去学校考证,建议考物理或者运筹学的研究生。我了解到很多一流的数据科学家,基本都是这俩专业毕业的。

花个几年时间研究生毕业后,明天就会更好?反正有个数据科学初创公司的创始人说:

博士学历不重要;硕士学历无可无不可;学士毕业必须有,因为用人单位最低要求就是大学毕业。

https://towardsdatascience.com/do-you-need-a-graduate-degree-for-data-science-8e3d0ef39253

Round 2:成为一个数据科学家真的需要了解这么多领域吗?

这是一张6年前的图,里面甚至连TensorFlow都没有。

而且我觉得,数据科学发展到现在,已经非常碎片化和细分化了。根本没必要搞的这么复杂。

Round 3:我应该学哪门语言呢?需要从Linux入手吗?

数据科学家是一个跨平台物种,操作系统不重要。

语言的话,Scala早就过气了,R解决数学问题非常爽,Python才是万能的。一条Python在手,数据科学跟我走。

不过需要了解一些库,类似Pandas用来处理数据帧,matplotlib用来创建图表。

Round 4:学会Python很关键!学不会也没关系

Python学起来超简单。不过,你可能也不用非得学会Python。

作为人类,要善用工具。数据科学不止眼前的脚本和机器学习,还有远方的数据可视化。这个时候显然Tableau更好用,也更美观。

Tableau

不过涉及到数据清洗、管理、转换、加载等,就需要用到Alteryx了,鼠标拖拽就能搞定。

新智元点评:所以买个Tableau就可以称为数据科学家了?

从淘宝买个激活码岂不是要变成二手科学家?

Round 5:明明靠Excel和PPT就能搞定,为什么非要学Python呢?

首先,能为你的简历增加光环。

其次,之前也说过,Python简直万能。通过Jupyter notebook逐步完成每个数据分析阶段,让每一步都可视化,就像你正在创建一个可以与他人分享的故事。

划重点:毕竟,沟通和讲故事才是数据科学的重要组成部分。

数据科学和软件工程很大程度可以划等号。不同之处在于,数据科学必须有数据,软件工程就不一定了。

Wiki网页是一个非常好的数据来源,抓取网页并使用Beautiful Soup解析他们,就得到了大量非结构化文本数据。

Round 6:懂NoSQL行,不懂也没事

非机构化数据才能激发我们的想象力,结构化数据只能固化我们的逻辑能力。

如今像谷歌Facebook这样的大厂,拥有大量的非机构化数据,他们就像裁判一样,「数据科学」的定义权掌握在他们手里。剩下我们这些运动员,只好用无聊的SQL咯。

利用非结构化数据,大厂可以通过挖掘用户内容、邮件、故事,用于广告或者其他途径。

而我们也可以利用非结构化数据,对社交媒体上的帖子进行,做一些NLP应用比如聊天机器人。

NoSQL更擅长存储这类数据。但是对于数据科学家来说,NoSQL也不是必须要掌握的,除非做数据工程师。而且现在Apache Kafka比NoSQL更火,所以你也知道该学什么了。

有的人可能不知道,数据科学家分为两种角色。数据工程师使用生产系统并帮助使数据和模型可用;而数据科学家则负责机器学习以及数学建模。

这个时候,利用朴素贝叶斯算法,就可以去预测文本的分类。我打算建议从具有均值和标准差的正态分布开始。也许用z分数和线性回归计算一些概率或两个。

Round 7:学会线性代数很重要。不会的话……也行吧

传统智慧认为线性代数是许多数据科学的基石,因此掌握线性代数很重要。将矩阵相乘和相加(称为点积),将一直伴随着你。

听起来很无聊对吧,但这就是机器学习在做的事情。当你进行线性回归或构建自己的神经网络时,你将使用随机权重值进行大量矩阵乘法和缩放。

不过实际上,你可能也不需要学习线性代数,因为有像TensorFlow和 scikit-learn这样的框架和库,帮你解决掉最枯燥乏味的线代部分。

呃,实际上,也别用TensorFlow,用Keras。

Round 8:棒。总之都能用Excel实现,所以会用Excel就可以被称为数据科学家了?

机器学习通常在做两个任务:回归,或者分类。但技术上来说,分类就是回归。

决策树、神经网络、支持向量机、逻辑回归、线性回归都执行某种形式的曲线拟合。

所以,我们也可以不负责任的说:机器学习只是回归。神经网络实际上只是具有一些非线性函数的多层回归。图像识别也是回归。

Round 9:为什么大家现在不怎么谈论算法了?

因为这些优化问题已经在很长一段时间内得到了令人满意的解决,而且这些方法在很早以前也没太多人讨论。

运筹学已经提供了许多机器学习使用的优化算法。同时也为常见“AI”问题提供了许多解决方案。

AI炒作重新点燃了机器学习及其解决的问题类型:图像识别,自然语言处理,图像生成等。

机器学习,深度学习…今天被炒作的任何东西,通常都不能解决离散优化问题,人们尝试过,但效果非常不理想。

所以有人说深度学习是否已经达到了极限,AI寒冬又双来了。

Round 10:AI玩游戏已经超神,接下来会取代人类工作吗?

首先我们要明确一点。人们已经找到了一些巧妙的回归应用,例如计算围棋和象棋最优移动(离散优化也可以做),或自动驾驶的汽车计算转向的方向。

但是,回归只能将这么多的应用组合起来,完成单一任务。

现在我们好好思考一下,你会担心职业星际争霸选手威胁到你的工作吗?你觉得打星际,和你打Excel之间,有多少重叠的交集呢?

如果你连人类星际选手都不怕,你为什么还怕一个回归呢?AI玩星际再强,它也只会玩星际。

Round 11:一句话解释什么是数据科学家,让你爷爷也能听懂

数据科学的界限正在模糊。它可以是任何东西,也可以什么都不是。成为数据科学家你需要掌握很多东西,但就算没掌握也不会致命。

天哪!

不过幸好,这个世界上还是有人能说明白到底什么是数据科学和数据科学家的。一句话解释数据科学家:

数据科学家是比软件工程师更懂统计、比统计学家更懂软件工程的一个人。

Round 12:已疯

所以,2019年,你还想做数据科学家吗?

来源:Medium

本文地址:http://www.chenyafei.cn/?p=641
关注我们:请关注一下我们的微信公众号:扫描二维码娅言菲语の博客的公众号,公众号:aiboke112
版权声明:本文为原创文章,版权归 cj13888 所有,欢迎分享本文,转载请保留出处!

发表评论


表情