当前在线人数6371
首页 - 分类讨论区 - 海外生活 - 待字闺中版 -阅读文章
未名交友
[更多]
[更多]
文章阅读:聊一下data science
[同主题阅读] [版面: 待字闺中] [作者:boter] , 2021年02月01日00:55:20
boter
进入未名形象秀
我的博客
[上篇] [下篇] [同主题上篇] [同主题下篇]

发信人: boter (阿哈呦), 信区: JobHunting
标  题: 聊一下data science
发信站: BBS 未名空间站 (Mon Feb 1 00:55:20 2021, 美东)

1. 对于data science一些general看法
现在因为各个大厂或者startup都在推applied scientist和research scientist,大家
现在似乎觉得data scientist低端,觉得做research更高大上,因为mle代码写的多,
所以现在大家似乎觉得data scientist只会python,还只能用ipython notebook,不
reproducible不工程化。还有就是从供给需求来说,data scientist是一个辅助性岗位
,需求量并没有很大,之前网上说data science开始出现“内卷”趋势。我来聊一下我
的看法。

(1)DS做啥?

首先来描述一下在一个well structured machine learning的组,data engineer, mle
和ds的分工是如何的。举个例子,一个visual search的组想做一个新的deep learning
ranking model,一般是data engineer来collect data+build data pipeline,mle来
build model并且ship into production,然后data scientist来分析这个model对
customer的一些影响,设计metrics,建dashboard,以及做一些experimental design
,和A/B测试的东西。

(2)DS适合谁?

我觉得data science比较适合analytics or 统计方向本科+硕士,统计 or 生物统计
or 运筹 phd,或者其他方向转专业的理工科phd。

像是建立dashboard或者做一些分析,现在已经有很多python package了,主要在于你
如何去讲好一个故事,这个就需要一些类似于consulting的技能,能讲好故事,能做好
presentation。analytics or 统计方向本科+硕士就比较适合这个方向。

还有一些有关于实验设计,A /B测试等等比较in depth的统计topic就比较适合统计 or
生物统计的phd,然后一些运筹方向(比如optimization方向)就比较适合operation
research的phd。

然后对于转专业的理工科phd,在coding技能不强,没有有深度的ml project的时候,
DS是tech行业最匹配的职位。

(3)DS内卷?

有人说现在DS内卷非常严重,面试者有很多啥NLP/ CV的project,就是没有offer。然
而实际上是什么呢?可能虽然写了很fancy的model,但是主要是github上面的repo改一
改(基于huggingface transformers或者torch vision)pull个pretrained model在自
己的data上finetune一下。这不是一个有深度的项目,不能说明你懂ds基础,更不能说
明你懂NLP或者CV。同时,如果一些基础的东西不明白,比如不会写SQL,不能熟练使用
pandas/ sklearn,那就只能说是眼高手低,一瓶子不满半瓶子晃荡了。这并不是内卷。

(4)转DS需要啥project?

我觉得最基本的是你的简历里面需要有一个project:1)show你会用基本的数据处理工
具,比如sql或者pyspark,2)展示你会用常见的数据分析包;3)展示你可以做好一个
分析,得到有insight的conclusion。

如果你有一定的数学基础,可以自己去实现一些ML算法,像是HMM,Gaussian Mixture
Model之类的。这是来突出自己的数学优势的,像面试官说明即使你不懂,你能学并且
你会学(数学工具你都会了)。

如果你能在现有模型的基础上,有一定创新性改进,那能证明你在熟练掌握基础的基础
上还能创新,如果能有一篇ML DL方向的论文,那就简直是在ML求职领域可以简历秒杀
了。

(5)DS想转MLE?

如果ds想转mle,那么有两个track。

1)转modeling方向的mle,我强烈建议有个domain expertise,而且这个domain需要是
一个有门槛并且应用广的domain,比如NLP/ CV/ IR/ Optimization/ Recommendation
Systems/ causal inference之类的,像是汽车能源医疗这种,基本数据都是可以抽象
成为time series data之类的常见格式,一个从来没在这个行业做过但有统计基础的人
也是可以快速进入的,但是NLP/ CV/ IR/ Optimization/ Recommendation Systems/
causal inference,进入就是有一定门槛的。

2)转ml infra方向,我一般不建议ds转这个方向,我建议sde,尤其是infra的sde转这
个方向,这个方向对于ml的要求不是很高,但是对于software infra的要求比较高。

聊聊ML Ops

我们平时在讲ML Ops的时候可能会讲一些工具,比如AWS, sagemaker, GCP, Spark,
Docker之类的。

下面我来聊聊我平时涉及到的一些ML engineering的工作吧,即使没有任何工具,只是
去完成一个DL project的话也应该去做好,当然如果有工具用工具会更省时间

(1)训练的更快,充分利用所有计算资源:大家可以去研究下torch distributed
training,即使只有一个服务器但是有多个gpu,distributed data parallel也比data
parallel快很多。还有比如mixed precision fp16 training啊,add sparsity啊都是
可以研究研究的。

(2)experiment tracking:像是tensorboard(PyTorch就是用tensorboardX)以及像
是一些工具(比如wandb weight & bias)就是帮助我们整理对照试验的,我的建议是
哪怕你不用这些,最基本也得打出来log,记录training loss和dev set上的metrics。
或者至少应该把每个实验的configuration存下来,而不是记在本子上或者excel上什么
的,因为参数很容易搞错...

(3)hyperparameter tuning:像是一些工具比如ray [tune]就是去解决这些事情的

(4)deep learning model serving:当然是可以用flask建一个最简单的online
serving,但是这个没有任何优化的online serving service latency肯定是很大的,
一些优化的online serving(比如torch serve,tf serving以及nvidia的一些serving
)就是做了优化,效果肯定会更好。

似乎现在只能想到这些,就先写这么多了~
--

※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM:162.]

[上篇] [下篇] [同主题上篇] [同主题下篇]
[转寄] [转贴] [回信给作者] [修改文章] [删除文章] [同主题阅读] [从此处展开] [返回版面] [快速返回] [收藏] [举报]
 
回复文章
标题:
内 容:


未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996