数据科学 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Mon, 21 Nov 2022 15:54:32 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 Simplilearn:2022年技能提升报告 //www.otias-ub.com/archives/1523106.html Mon, 21 Nov 2022 21:39:54 +0000 //www.otias-ub.com/?p=1523106 Simplilearn在2022年年中调查了过去12个月学习者的职业发展经历以及他们对未来一年的期望。从他们的回答中提取了他们的观点以及他们的见解如何根据经验、行业和其他因素而改变。

虽然1/4的受访者预计增长将放缓,但是64%的受访者预计经济增长将继续,大流行将消退。

69%的受访者计划花更多时间提高技能,尤其是在员工人数少于50人或超过10000人的公司工作的员工。

51%的受访者在过去一年中获得了技能认证,59%的受访者参加了自学技能课程。

72%的受访者计划更换雇主或转向新职业。

67%的受访者预计至少有一部分时间会回到办公室。

主要发现:

1、尽管低于2021年,但乐观情绪仍然很高。

尽管经济持续复苏和新冠肺炎疫情的进程存在一些不确定性,但受访者总体上仍持乐观态度。在美国,就业总人数已达到大流行前的水平,由于劳动力参与率仍然很低,工人的供应仍然紧张。招聘的前景依然光明。

2、缺乏关键技能是受访者面临的最大挑战。

3、希望改善职业状况的人寻找数据科学和项目管理方面的技能

虽然受访者对广泛的技能感兴趣,但有两个领域最感兴趣:数据科学和项目管理/敏捷。

4、大企业和小公司都强调持续学习

调查发现,与其他规模的公司相比,大型公司的员工更有可能提高技能,但小型公司的员工除外在未来一年也很可能提高技能。与中型或非常大的公司相比,这些人不太可能感到自己的职业生涯陷入困境。这一发现的一个推论是,小公司的员工觉得有必要提高新兴技术的技能,并希望拥有全面的技能。另一个推论是,大型企业重视持续学习,并鼓励员工更新技能。

5、企业高层和底层对提高技能最感兴趣


]]>
通往数据科学之路 //www.otias-ub.com/archives/1066186.html Mon, 15 Jun 2020 16:46:16 +0000 //www.otias-ub.com/?p=1066186
Jane | 撰文

数智君 | 翻译

想成为一名数据科学家吗?你一定听过太多关于数据科学的新闻,想知道这铺天盖地的宣传到底在说什么吗?那你来对地方了!数据科学领域在过去的十年间有了长足的发展。如今,有很多方法可以让你投身到数据科学领域并成为一名数据科学家,并不一定要求您拥有一个理想的学位。好,让我们开始吧。 
 

数据科学家是什么?先想想你希望做什么

不同的公司对数据科学和数据科学家的理解并不相同。以我的经验,公司希望雇到的人和他们实际雇到的人,总是无法完全吻合的。数据科学是一个非常广阔的领域,成为一名数据科学家并不意味着你需要通晓并掌握该领域内所有的知识。
所以我的第一个建议是好好研究一下数据科学的不同方向,找到你最感兴趣的那一个,然后再去调查一下这些方向相关的职位和行业需求。根据这些事实再做选择。一旦决定后,你就要加强这个特定方向的知识积累。 
 
学历是成为数据科学家的必要条件吗?
这个问题经常被问起,却很难有令人满意的答案。接受更高的教育当然是更好的选择,但并非人人都能实现。事实上,学历甚至不是硬性要求。诚然,学历在第一次找工作时可能会让你握有一些优势(请注意,我说的是“可能”)。但是,也有许多人并没有专门的大学学位,却一样拥有成功的数据科学家和数据分析师职业生涯。你最好寻找一些可以帮助你学习的在线课程。选择课程时,你应该看看曾经的学员的总结和成功故事,甚至可以试着直接联系他们。
 

网络非常重要

一旦你立志投身数据科学领域,甚至已经确定了梦想的职位,你就需要开始与人交流。给你梦想加入的公司的职员和你希望投身的领域的专业人士发邮件,征求他们的建议。可能仅有少数人回复你,但这些建议非常有价值。无论你决定上大学还是在线学习,你都需要不断更新你的简历和社交媒体资料。LinkedIn是职场社交网络,就用它! 
 
选择一门编程语言
Python和R语言是数据科学领域最流行的编程语言。一方面,R在过去20年中一直是统计和数据分析的领先语言。另一方面,Python是过去5年成长最快的语言,这也让它迅速成为最流行的编程语言之一。 
 
和数学交朋友
数据科学领域每天都要用到统计学、回归模型、基础的平面几何和立体几何、矩阵和分布式模型等等。复习基础知识并尽可能地多学一些吧,没有良好的数学处理能力,你根本无法在数据科学家之路上走远。我建议你阅读一些数据科学以及和你选择领域相关的文章,以便确切了解你需要学习什么。收听相关的播客也会有帮助,当然还有很多免费的在线课程。 
 
动手做项目(这一点最重要)
没有什么比做项目更能展示你的技能和知识。别等你有了足够多的知识才去做项目,就用你目前掌握的知识立刻动手。这能够检验你当前的知识,提升你对概念的理解,并给你坚持的信心和动力。
坚持做适合你当前水平的项目,利用基本概念同样能够展示你的技能,和利用高级概念没什么区别。而且这还能显示你的进步过程。不要直接使用别人的代码,因为你在做自己的项目。你可能会从别人的项目那儿得到灵感,但你的项目应该反映你自己和方法和技能。 
 
贡献开源项目
有许多开源项目正不断寻找优秀的贡献者。你可以先找一些适合初学者的项目,然后随着经验的积累不断进阶。
这不但可以展示你的能力,更重要的是可以帮助你建立交流和联系。其他贡献者,甚至是项目负责人或项目所有者,都可能在你寻求第一份工作时帮到你。 
 
信心的质变
至此,你拥有了不少项目经验,也拥有了大学学历或在线课程证书这样的资质,还拥有了可以帮助你进入这个行业的联系方式。
这时你可以再次联系我们开头所说的那些业内人士。向他们展示这段时间你是如何提升的,感谢他们给予你的宝贵建议。然后你可以将简历发送给尽可能多的公司,这也许就会给你带来一份工作。当然,直接登门求职是最好的方式。 
 
总结
全情投入和努力工作总能得到回报,而聪明地工作能得到更多回报。我确信这份指南能帮助你成为一名成功的数据科学家并找到一份理想的工作。但即便你已经得到工作并踏入行业,也千万不要停止为开源社区做贡献,更不要停止学习。这是我送给所有有志在数据科学领域取得一番成就的人的礼物。你永远不会知道,一个更好的机会是不是就在前面拐角处等着你。

原文链接:
https://hackernoon.com/a-roadmap-for-becoming-a-data-scientist-yg6l321r
* 本文为中兴数据智能翻译文章
]]>
数据科学技能中,哪些是核心技能,哪些是热门/新兴技能? //www.otias-ub.com/archives/949343.html Sun, 13 Oct 2019 03:57:45 +0000 //www.otias-ub.com/?p=949343 我们确定了两类主要的数据科学技能:一类是大多数受访者所拥有的稳定技能,这一类有 13 项核心技能;另一类是大多数受访者尚未拥有但想掌握的热门 / 新兴技能。请参阅我们详细的分析。

最新的 KDnuggets 投票调查问了如下两个问题:

  1. 你目前拥有哪些技能 / 知识领域(在工作或研究中可以使用的水平)?
  2. 你想增加或提高哪些技能?

我们根据 KDnuggets 之前的一些文章和投票调查,选出了 30 项技能。

这次投票调查总共收到了超过 1500 张投票,这是一个足够大的样本,可以做出有意义的推论。平均每个投票者报告声称其拥有 10 项技能,并希望增加或者提高 6~7 项技能。 下面的图 1 显示了关键的调查结果,x 轴表示 % 已拥有技能,显示的是第一个投票问题的答案;y 轴表示的是 % 想拥有的技能,显示的是第二个投票问题的答案。每个圆形的大小与已拥有该技能的投票者的百分比成正比,而颜色取决于“想拥有 / 已有用”的比率(>1,比率越高颜色越红;<1,比率越低颜色越蓝)。

图 1. 与数据科学相关的技能,已拥有技能 vs 想增加 / 提高技能

在这种图表中,我们注意到有两个主要的集合。

图表右侧蓝色虚线矩形为第一个集合,该集合包含超过 40% 投票者所拥有的技能,以及“想要拥有 / 已经拥有”的比率小于 1。我们称之为 核心数据科学技能。它们将在表 1 中列出。

表 1:核心数据科学技能,按 % 已拥有技能降序排列。

其中,最希望添加或提升的技能是机器学习(41%)和 Python(37%)。增长最少的是 Excel——只有 7% 的人想增加或提高他们的 Excel 技能。

图 1 左侧用红色边框标记的第二个集合,包括目前不太流行(% 已拥有技能 <30%)但正在增长的技能,“想拥有 / 已有用”的比率大于 1,请见表 2。我们将其称为热门 / 新兴数据科学技能。

表 2:热门 / 新兴数据科学技能,按“想拥有 / 已拥有”降序排列。

有趣的是,尽管有人认为 Hadoop 正在走下坡路,但在这次投票调查中,想学习 Hadoop 的人比已经知道它的人还多,所以 Hadoop 有可能仍然会越来越受欢迎。尽管 Julia 的“想拥有 / 已拥有”的比率为 3.4,但我们仍然没有将它包括在热门 / 新兴技能中,因为只有 2% 的投票者选择了它,因此它并不具备足够的支持。

其余的技能,如 XGBoost、软件工程、Java、MATLAB、SAS 只被 10%~30% 的投票者拥有,但没有增长:“想拥有 / 已拥有”的比率小于 1。

表 3:其他数据科学技能,按 % 已拥有的百分比递减

小假面是关于投票调查的更多细节。图 2 按 % 已拥有进行降序排列。

图 2:KDnuggets 读者拥有的数据科学技能

图 3 显示了读者想要增加或提高的技能,以及他们所拥有的技能:

图 3:KDnuggets 读者想要增加或提高的数据科学技能(红色)和已拥有的数据科学技能(蓝色)

我们看到,现有的和有意向的数据科学家想要添加的顶级技能是深度学习、TensorFlow、机器学习和 Python。

投票调查还询问了就业类型:

  • 行业 / 自雇:64.4%
  • 政府 / 非营利组织:7.2%
  • 学术界 / 大学:7.0%
  • 学者:14.3%
  • 其他 /NA:7.1%

区域分布为:

  • 美国 / 加拿大:37.9%
  • 欧洲:28.3%
  • 亚洲:19.3%
  • 拉丁美洲:6.1%
  • 非洲 / 中东:4.8%
  • 其他:3.5%
 作者介绍

Gregory Piatetsky-Shapiro 博士是 KDnuggets 的总裁,也是大数据、数据挖掘和数据科学领域的领军人物。他是数据挖掘和数据科学领先研究会议 KDD 的共同创始人,也是 ACM SIGKDD 的共同创始人和前任主席。他还是两家初创公司的首席科学家。

原文链接:   https://www.kdnuggets.com/2019/09/core-hot-data-science-skills.html

来自: InfoQ 中文站
]]>
数据科学新人需要知道的13个雷区 //www.otias-ub.com/archives/834348.html Tue, 19 Feb 2019 13:37:36 +0000 //www.otias-ub.com/?p=834348
引言
看来你已经决定要进入数据科学这个领域了。数据正在驱动越来越多的业务,世界的联系正在变得越来越紧密,似乎每个业务都需要数据科学实践。因此,对数据科学家的需求是巨大的。更好的是,所有人都承认这个行业的人才短缺。

然而成为一名数据科学家并不容易。需要拥有解决问题的能力、结构化思维、编码和各种技术技能才能真正获得成功。如果您并非技术或数学背景,那么通过书籍和视频课程来学习是很好的方式。但是大多数这类资源不会教你行业内需要什么样的数据科学家。

这就是胸怀抱负的数据科学家努力缩小自我教育与实际工作之间差距的原因之一。

本文将讨论数据科学爱好者常犯的一些错误(包括我自己都曾经犯过),我也会提供一些资源帮助你避开数据科学之旅上的陷阱。

01
只学习理论概念,但不应用

图片来源:cognitive class-YouTube

就像我之前提到过的一样,掌握机器学习技术背后的理论是非常好的,但是如果你不去应用它们,它们就仅仅是理论概念。当我开始学习数据科学的时候犯了同样的错误,我学习书本知识和在线课程,但却没有应用它们去解决问题。

所以当我有机会应用我所学的知识去解决挑战或问题时,几乎一大半我都不记得了!要学的东西太多了,算法、推导、研究论文等等等等。你有很高的几率失去动力然后半途放弃。我本人见证过许许多多想进入这个领域的人都是这样。

如何避免?

学习过程中保持理论和实践之间健康的平衡是非常必要的。只要学习了一个概念,请立即Google一下找到可以应用它的数据集或问题。你会发现你比以前更好地吸收了这种概念。

你必须承认所有东西是不可能一次性学完的。一边练习一边填补空白,将会学到更多东西!

02
不了解原理或概念直接进行机器学习

图片来源:伦敦帝国理工学院 – YouTube

大部分想成为数据科学家的人是看到了机器学习的相关视频,或一个超级棒的预测模型,抑或是高薪的吸引,然而,想要成为你看到的样子,还需要走很长的路。

在将技术应用到问题之前,你应该先了解它的工作原理。这将有助于了解算法的工作原理,以及做些什么可以对其进行微调,还可以帮助你构建现有技术。数学在这里发挥着重要作用,因此了解某些概念总是有帮助的。在日常的企业数据科学家角色中,您可能不需要了解高级微积分,但有高级的整体认识肯定是有帮助的。

如果您有一个好奇的想法,或想要进入研究角色,在开始进行核心机器学习之前,您需要了解的四个关键概念是:

  • 线性代数
  • 微积分
  • 统计
  • 概率
如何避免?

正如房子是一砖一瓦建造的,数据科学家也是所有单个部件的总和。有大量的资源可以帮助学习这些主题。下面列出一些资源,可以帮助您入门:

  • 数据科学家线性代数综合入门指南
  • 可汗学院的微积分课程

https://www.khanacademy.org/math/calculus-home

  • 通过实例解释数据科学概率的基础知识
03
仅依赖认证和学位

图片来源:CIO.com

这也是招聘人员的烦恼。自从数据科学变得非常受欢迎以来,到处都有认证和学位。我在LinkedIn上看了一下,至少展示了5张认证的图片。虽然获得认证并不容易,但只依赖认证是一种灾难。

许许多多的胸怀抱负的数据科学家被大多数在线课程倾倒并且完成学习。如果他们为你的数据科学简历添加了一个独特的价值,那就没问题了。但是招聘人员并不关心这些考试 – 他们更看重你的知识,以及你如何在实际工作中应用。

这是因为与客户打交道,处理截止日期,了解数据科学项目生命周期如何工作,如何设计模型以适应现有业务框架等等,这些都是作为数据科学家所需要了解的事项。只是认证或学位无法认证你这方面的能力。

如何避免?

不要误解我的意思。认证是很有价值的,但只有当你将这些知识应用到课堂之外并将其公之于众的时候才有价值。使用真实世界的数据集和做任何分析,都把它们写下来。比如创建自己的博客,在LinkedIn上发布,并征求社区的反馈意见。这表明您愿意学习并且足够灵活,可以征求建议并将其用于您的项目。

应该对实习的想法持开放态度。实习中你将了解数据科学团队如何工作,这将使您在参加另一次面试时受益。

如果您正在寻找项目,我们有一个很棒的,按照难度划分的项目列表

04
以为机器学习竞赛和实际工作相同

这是有胸怀抱负的数据科学家进来最大的误解之一。比赛和黑客松为我们提供了干净规整的数据集。你下载它们并处理这些问题。即使那些具有缺失值列的数据集也不需要花费脑细胞 – 只需要查找补充缺失值即可。

不幸的是,现实世界的项目并不是这样的。会有一个端到端的数据管道,涉及与一群人合作。你几乎总是要处理混乱的脏数据。关于花费70-80%的时间来整理和清洗数据的传说是真的。这是一个令人精疲力竭的工作,你很大可能不喜欢,但它最终会成为例行公事。

此外,我们将在下一点更详细地介绍,更简单的模型将优先于任何复杂的堆叠集合模型。准确性并不总是最终目标,这是您在工作中将学到的最具对比性的事情之一。

如何避免?

讽刺的是,消除误解的关键因素之一是经验。你获得的经验越多(实习在这种情况下有很多帮助),你就能越好地区分两者。这就是社交媒体派上用场的地方 – 与数据科学家联系并询问他们的经验。

另外,我建议这个Quora问题(链接在下方),来自世界各地的数据科学家就这个确切的问题提供他们的意见。在竞赛排行榜上取得好成绩非常适合衡量你的学习过程,但是面试官想知道的是你如何优化算法达到效果,而不是提高准确性。了解数据科学项目的工作原理,团队所拥有的不同类型的角色都是什么(从数据工程师到数据架构师),以及在这种意义下的答案。

Quora

https://www.quora.com/How-similar-are-Kaggle-competitions-to-what-data-scientists-do

LinkedIn文章,解释了分析模型的标准方法

https://www.linkedin.com/pulse/standard-methodology-analytical-models-olav-laudy/?trk=prof-post

05
在领域中对模型准确性的关注超过了适用性和可解释性

图片来源:Design Shack

如上所述,准确性并非总是业务的目标。当然,一个能够以95%的准确度预测贷款违约的模型是非常好的,但是如果你无法解释模型是如何实现的,哪些特征实现了它,以及你在构建模型时的思路,你的客户会拒绝这个模型。

你很少会发现在商业应用中使用的深度神经网络。向客户解释清楚神经网络(更不用说深层)如何与隐藏层,卷积层等一起工作是不可能的。首要偏好,并且通常情况下,是永远确保我们能够理解模型背后正在发生的事情。如果您无法判断年龄,家庭成员数量或之前的信用记录是否涉及拒绝贷款申请,该业务将如何运作?

另一个关键是你的模型是否适合企业现有框架。如果生产环境无法支持,使用10种不同类型的工具和库都会失败。您将不得不采用更简单的方法从头开始重新设计和重新训练模型。

如何避免?

避免自己犯这个错误的最佳方法是与业内人士交流。没有比经验更好的老师。选择一个领域(财务,人力资源,营销,销售,运营等),与人沟通了解他们的项目如何运作。

除此之外,练习制作更简单的模型,然后向非技术人员解释。接着增加模型的复杂性并继续想非技术人员解释,直到你不知道接下来发生了什么为止。这将指点你何时该停止,以及为什么在实际应用中,简单的模型总是被优先考虑。

06
在简历中使用了太多的数据科学术语

如果你曾经这样做过,你会知道我在说什么。如果你的简历现在有这个问题,快去修正!您可能知道很多技术和工具,但只是简单地列出它们会让潜在的招聘经理远离你。

你的简历是介绍你已经完成的事情以及你是如何做到的 – 而不是简单罗列的事项清单。当招聘人员查看您的简历时,他/她希望以简洁和总括的方式了解您的背景以及您所取得的成就。如果页面的一半充满了了模糊的数据科学术语,如线性回归,XGBoost,LightGBM,没有任何解释,您的简历可能无法通过筛选。

如何避免?

消除简历混乱最简单的方法是使用项目符号。仅列出你会用到去完成某些事情的技术(可能是项目或竞赛)。写一篇关于你如何使用它的文章会更有助于招聘人员理解你的想法。

当您申请入门级的工作时,你的简历需要反映你潜在可以为业务增加的影响。简历将被应用于不同领域中的角色,因此准备一个模板会有所帮助 – 只需更改您对该特定行业的兴趣即可

Kunal Jain撰写的这篇文章是为数据科学角色准备优秀简历的绝佳资源。

07
给予工具和库比业务问题更高的优先级

图片来源:数据科学实验室

让我们举个例子来理解为什么这是一个错误。想象一下,你拿到了一个房价数据集,你需要预测房地产的价值。有包括建筑物数量,房间数量,租户数量,家庭规模,庭院大小,是否有水龙头等等200多个变量。您很可能不知道某个变量的含义。但您还是构建具有良好准确性的模型,但您不知道的是为什么剔除了这个变量。

事实证明,该变量是现实场景中的一个关键因素。这是一个灾难性的错误。

拥有扎实的工具和库知识是非常好的,但它只能到此为止。将这些知识与领域内的业务问题相结合,才是数据科学家真正介入的地方。您应该至少了解您感兴趣(或正在申请)的行业中的基本挑战。

如何避免?

这里有很多选择:

  • 如果您正在申请特定行业的数据科学家,尝试了解该领域的公司如何使用数据科学
  • 如果可能,搜索特定行业中的数据集并尝试对其进行处理。这将是你简历中一个非常出色的要点
  • 阅读下方纽约时报的这篇优秀文章,了解为什么领域知识是数据科学的主要推动力

    https://www.forbes.com/sites/kalevleetaru/2016/06/12/why-we-need-more-domain-experts-in-the-data-sciences/#fa319143b508

08
在探索和可视化数据上花的时间不够

数据可视化是数据科学的一个很美妙的方面,但许多有胸怀抱负的数据科学家更喜欢略过它直接进入模型构建阶段。这种方法可能会在比赛中有用,但在实际工作中必然会失败。了解你拥有的数据是最重要的事情,你的模型结果会反映出这一点。

通过花时间了解数据集并尝试用不同的图表展示,您将更深入的了解您要解决的挑战或问题,你会惊讶地发现你可以获得这么多洞察!可以看到模式和趋势,以及隐藏的规律。可视化是向客户展示洞察的最佳方式。

作为一名数据科学家,你需要天生好奇。这是数据科学最棒的事情之一 – 你越是好奇,你会问的问题就越多。这样可以更好地理解你的数据,并有助于解决您一开始不知道的问题!

如何避免?

实践!下次处理数据集时,请花更多时间在此步骤上。您会惊讶于它为您产生的洞察。提问!询问您的经理,询问领域专家,在互联网上搜索解决方案,如果您没有找到,请在社交媒体上询问。你有如此多的选择!

为了帮助您入门,我在下面提到了一些可供参考的资源:

R中数据可视化综合指南

数据探索综合指南(强烈推荐)

18个免费的探索性数据分析工具适用于编码不好的人

09
不能用结构化的方法来解决问题

图片来源:MindMatters.co.in

结构化思维在许多方面都可以帮助到数据科学家:

  • 它可以帮助拆解问题的逻辑结构
  • 它可以帮助您可视化问题的持续方式以及如何设计
  • 它帮助最终用户或客户以逻辑和易懂的方式理解框架的顺序

拥有结构化思维的好处还有很多。可以想象一下,不使用结构化思维的话会不直观。你的工作和解决问题的方法都是随意杂乱的,当遇到复杂的问题时你会忘记自己的步骤等等。

当您参加数据科学面试时,您将不可避免地需要分析案例,测算、估计等。由于面试时充满压力的气氛和时间限制,面试官会考察你的思维结构如何,以达到最终评估。大多数情况下,对是否获得这份工作来说,这可能是一锤定音的因素。

如何避免?

您可以通过简单的训练和规范的方法获得结构化的思维方式。我在下面列出了一些文章,它们将对你有所帮助:

  • 结构性思维与分析的艺术
  • 改善结构化思维的工具
  • 必须为数据科学家和分析师:分析思维的大脑训练
010
一次性尝试学习多个工具

我见过太多次这个问题了。由于每个工具提供的独特功能和局限性不同,人们倾向于一次性的学习所有工具。这是个坏主意 – 你最终无法掌握它们中任何一个。工具是执行数据科学的一种手段,但是它们不是最终目标。

如何避免?

选择一个工具并坚持学习直到你掌握它为止。如果你已经开始学习R,那么不要被Python所诱惑。坚持端到端的学习R的使用,然后再尝试将另一种工具融入您的技能组合中。您将通过这种方法了解更多信息。

每个工具都有一个很好的用户社区,在遇到困难时可以在社区提问。使用我们的论坛(下方链接)来提问和在线搜索,不要放弃。目的是通过该工具学习数据科学,而不是通过数据科学学习工具。

如果您仍未确定应该使用哪种工具,请查看这篇精彩的文章,其中列出了每个工具的优点和缺点(如果您对此感兴趣,还包括SAS)。

  • 论坛

https://discuss.analyticsvidhya.com/

  • 工具对比
011
无法保持学习习惯

资料来源:布鲁克斯集团

这适用于所有数据科学家,而不仅仅是新人。我们容易分心。在研究了一段时间(比如一个月)之后,然后我们在接下来的两个月休息。在那之后试图回到事物的正规上简直是一场噩梦。大多数早期的概念都被遗忘了,笔记丢失了,感觉就像我们最近几个月都浪费了一样。

我也经历过这一点。由于我们在处理各种各样的事情,我们找借口和理由不再学习。但这最终是我们的损失 – 如果数据科学就像打开教科书并且塞满一切一样容易,那么每个人都是数据科学家。它需要一致的努力和学习,人们直到为时已晚才会意识到这一点

如何避免?

为自己设定目标。绘制出时间表贴在墙上。计划你的学习方式和内容,并设定截止日期。例如,当我想学习神经网络时,我给了自己几个星期,然后通过黑客松比赛测试我学到的东西。

既然你已经决定成为一名数据科学家,所以你应该准备好投入时间。如果你不断寻找不去学习的借口,这可能不适合你。

012
逃避讨论和竞赛

图片来源:面试技巧咨询

这是前面一些问题的组合。有胸怀抱负的数据科学家会害羞在线发布他们的分析,因为他们害怕受到批评。但是,如果你从没有收到过社区的反馈意见,那你将不会成长为数据科学家。

数据科学是一个重视讨论,思想和头脑风暴的领域。你不能坐在孤岛中工作 – 你需要合作并理解其他数据科学家的观点。同样,人们不参加比赛是因为他们觉得自己不会获胜。这是一种错误的心态!你参加这些比赛是为了学习而不是赢。获胜是奖励,学习是目标。

如何避免?

相当简单 – 开始参与讨论和比赛!不进入前5%也无所谓。如果你从整个事物中学到一种新技术,对你来说也是一种胜利。

013
不在沟通技巧上下功夫

图片来源:吉姆哈维

沟通技巧是数据科学家绝对必须拥有的技能之一,但是关于它的评价和谈论都最少。我至今还没有遇到一个强调沟通技巧的课程。您可以学习所有最新技术,掌握多种工具并制作优秀的图表,但如果您无法向客户解释你的成功,您将会是失败的数据科学家。

不仅仅是客户,您有可能与不熟悉数据科学的团队成员合作 – IT,人力资源,财务,运营等。可以肯定的是面试官也会特别注意这一点。

假设您使用逻辑回归构建了信用风险模型。作为一个思考练习,花一点时间思考如何向非技术人员解释你是如何得出最终结论的。如果你使用过任何术语,你需要尽快开展这项工作!

如何避免?

如今大多数数据科学家都来自计算机科学背景,所以我理解这可能是一项令人生畏的技能。但要成为一名成功的数据科学家并爬上阶梯,你别无选择,只能磨练自己个性的这一部分。

我觉得最有用的一件事就是向非技术人员解释数据科学术语。它可以帮助我衡量我认识问题的清晰度。如果您在中小型公司工作,请在营销或销售部门找一个人并与他们一起做这个练习。从长远来看,它将极大地帮助你提升。

互联网上有大量的免费资源可以帮助您入门,但请记住,练习是提升技能的关键。从今天就开始吧!

尾声

这绝对不是一个详尽的清单 – 胸怀抱负的数据科学家还可能犯许多其他错误。但以上这些是最常见的,如前所述,我的目标是帮助大家尽可能的避免这些问题。

原文作者:Pranav Dar

翻译:TDU

本文转自: TalkingData数据学堂

]]>
数据科学中各职业都在做什么?有什么区别? //www.otias-ub.com/archives/807781.html Thu, 13 Dec 2018 08:34:43 +0000 //www.otias-ub.com/?p=807781

本文是 TalkingData University 翻译自 George Liu 发表在 hackernoon 的一篇文章,介绍了数据科学中不同角色的定义及相互之间的关系。并且给出了能力画像,为从业人员的求职及发展提供了清晰的参考。

如果你在考虑从事数据科学的工作,可能会觉得这个领域有点令人困惑!什么是数据科学家?数据分析师和数据科学家之间有什么区别?机器学习工程师做什么?那么数据工程师、商业智能( BI )工程师和机器学习( ML )研究员呢?

在这篇文章中,我们将描述数据科学中的不同角色,解释他们的定义以及差异。我们还将为每个角色建立一个“理想能力画像”。这对于职业满意度和求职成功非常重要——如果你申请了一个适合你的角色,你将有更大的机会获得这份工作;如果你做了自己喜欢的事情,那么你会享受,而不是每天都想逃避!

下面一起看看数据科学中的不同角色。我们会做一些扩展,以涵盖对具有数据技能的候选人来说,所有可考虑的数据科学职业角色。

从广义上讲,我们可以将数据角色分为两类:业务导向或工程导向。不同之处在于,业务向角色需要兼备技术和业务技能,例如沟通和演示;而工程向的角色着重在建模和软件工程技能上。

另一方面,一些传统角色已经存在了很长时间,而其他角色仅仅出现了几年或者刚刚兴起。让我们更详细地看一下每个角色。

数据分析师/数据科学家

从本质来说数据分析师和数据科学家是相同的,因为他们做同样的事情——从数据中获取价值。价值可以有不同的形式:对于数据分析师来说,价值意味着洞察,而对于数据科学家来说,是在洞察之上的产品发展智能

数据分析师分析数据以获得洞察,并帮助形成业务决策。例如是什么导致网站流量增加,或者用户离开网站的主要原因是什么?而数据科学家更关心的是使用机器学习和 A / B 测试来驱动和改进产品。他们可能会对诸如“更大尺寸的按钮会增加点击率吗?”以及“哪些客户可能取消订阅?”等问题感兴趣。

数据科学家专注于前瞻,即做出预测,而数据分析师则更多地聚焦在回顾,如分析历史数据。

数据科学家应该更有经验,能够用科学的方法解决业务问题,包括构建业务问题、提出假设,然后设计和进行实验来检验假设,最后得出结论(主要是研究技能,这就是为什么硬科学博士有时候是数据科学家角色的首选候选人)。而数据分析师应该使用报告或数据可视化技术收集,清理,分析数据并传达结果。

以上是这两个角色之间的一般差异,但情况并非总是如此,因为数据科学仍然是新的方向,并且远未实现标准化。有时数据科学家可以进行基本分析工作,数据分析师可以执行机器学习建模。对于数据科学中分析类的角色而言,无论头衔如何,这两类绝对是最受雇主追捧的重要角色。因此在求职时应考虑与画像的最佳契合,并成为我们的目标(以下角色同理)。

需要指出的是,这里我们指的是通常意义的数据科学家,主要处理统计建模,A / B 测试,机器学习,数据清洗和数据可视化。而专注机器学习的数据科学家,我们实际上将其归类为机器学习研究员/科学家,下文会有介绍。

数据工程师

我们已经讨论了很多关于数据科学家的事情,但实际上,如果没有数据工程师的帮助,数据科学家就无法做出贡献。为什么?由于数据工程师构建了引入数据的数据管道!如同炼油厂闲置,是由于没有原油进入,最终原因是石油管道还没有建成。

我们举一家广告技术公司为例,我们有来自多种内外部数据源的实时数据;有来自服务器的广告投放数据,来自我们内部数据库的投放和客户数据,还有来自第三方提供商的投放效果数据和我们的内部日志……为了构建实时广告效果分析看板并进一步做分析和建模,我们需要将所有数据整合成合适的级别。在此之上,我们需要构建一个数据仓库,以便我们的查询不会影响生产服务器的性能。

这就是数据工程师为我们提供的帮助。如你所见,这基本上是数据的软件工程。

ML / DL / AI研究员/科学家/工程师

ML 研究员实际上与专注于 ML 的数据科学家相同。但与通常意义上处理所有数据科学问题的“全栈”数据科学家不同,ML 数据科学家将专注于 ML 建模,以及(或者)新机器学习算法的研究和开发。另一方面,ML工程师更关心机器学习模型的生产

想象一下使用公共数据集构建的推荐模型。在对模型进行微调之后,我们已经取得了很好的性能结果,但该模型仍然没有用,因为它只是我们计算机中的一个软件。为了让它有用,我们需要将模型部署到生产环境中,比如我们的电子商务网站,以便它可以实时为用户提供推荐,从而帮助我们增加收入。

将机器学习模型部署到生产中是一项工程问题,与构建模型不同,它涉及不同类型的工程工作,例如将 ML 模型集成到软件系统中,优化模型以提高性能和可扩展性,监控 ML 系统,以及用新数据重新训练它。当然,还有建模部分,使用各种 ML 库实验和构建机器学习模型,以及实现 ML 算法以满足业务需求。

研究人员/科学家和工程师之间的区别在于“部署”部分,即是否负责将 ML 模型投入生产。如果是,那么我们讨论的是上述的工程问题,而角色是工程师,否则,它是一个研究角色。

业务分析师(各种职能)

我们这里谈到的业务分析师不是传统的IT业务分析师( BA )。传统的 BA 引导,记录业务需求并充当业务和技术之间的联络人。相反,我们使用业务分析师的头衔作为总括头衔来涵盖所有具有业务性质(非技术性)且需要重要数据技能的分析师角色。

由于数据的普及,几乎所有分析师角色都需要某些数据技能集。因此,业务分析师角色是对于具有领域专业知识,并且精于数据的候选人来说,业务分析师是非常不错的职位目标。

找出这些角色的最佳方法是在求职搜索引擎上使用关键字。例如,在Indeed.com上,如果输入“ analyst sql ”作为关键字,您将找到许多不同的职位,如 Performance Analyst,Healthcare Data Analyst 和 Demand Planning Analyst。这些是精通数据的候选人可以考虑的,不同类型的业务分析师。

BI分析师/工程师/开发人员

我们还拥有传统的商业智能( BI )分析师和商业智能工程师角色。一般来说,当我们谈论 BI 时,我们指的是使用“定义良好的BI基础设施”在“大公司”环境中进行数据分析和报告,

基础设施指的是各种企业软件系统( ERP,CRM 等)以及在他们之上进行连接和报告 BI 工具;

“大公司” – 因为传统大型企业拥有财务实力来搭建和维护这些BI系统。

BI 分析师与数据分析师非常相似,因为他们都需要对数据进行分析和报告。一般来说,他们不做预测建模。不同之处在于 BI 分析师在结构化环境(使用 BI 系统)中与大型公司合作,而数据分析师可以在任何地方,而且不需要使用现有的BI基础架构。

而BI工程师/开发人员和 BI 分析师的关系,正如数据工程师与数据科学家的关系一样,因为BI工程师构建了 BI 分析师可依赖的报告工具来进行业务所需的分析。因此,数据工程师可以被视为 BI 工程师/开发人员角色的最新版本,后者可以很好地适应前者,这要归功于类似的技能集。

数据/ ML产品经理

如上所述,数据现在无处不在。难怪现在的产品还依赖于数据科学,特别是机器学习。对于以机器学习为中心或严重依赖于数据科学的产品,精通数据的产品经理最适合支持它们。具有 ML 专业知识和产品管理经验的候选人将在这种类型的角色中占上风。

理想的能力画像

我们现在清楚地了解数据科学中的主要角色,但每位理想候选人的技能集是什么样的?为了以直观的方式进行说明,我使用 Matplotlib 创建了蜘蛛图将这些画像可视化。由于这很大程度上是我的直观看法,我们将在未来的迭代中抓取并分析来自 Indeed 的职位发布数据,以验证画像。

现在你拥有了数据科学角色和相应的能力画像!基于对不同角色的责任和差异的充分理解,您将能够确定您热衷的职业道路;理想的画像不仅可以用于确定最适合的目标角色,还可以作为简历定制和个人品牌的路线图,以使您的个人资料与之相关。

来自:Talkingdata

]]>
开启数据科学职业生涯的8个基本技巧 //www.otias-ub.com/archives/719118.html Tue, 01 May 2018 15:03:37 +0000 //www.otias-ub.com/?p=719118 Nick Bostrom(译者注:Nick Bostrom是牛津大学哲学系的教授,是人类未来研究院的创始人和主任。他的新书《 Superintelligence》(超级智能) 在出版后,包括伊隆·马斯克、史蒂芬·霍金以及比尔·盖茨等杰出的科技人士纷纷对其表示了支持,另外Google也成立伦理委员会来监督AI技术的发展)曾经说过:机器学习是人类最后的发明。我是一名刚刚进入数据科学这个“未来科技”行业的新手,我有一大堆的问题。我应该学习哪些工具和语言?我应该关注哪些新技术?在你从事这个行业的过程中,你通常会遇到这些问题,甚至更多相关的问题。

Faizan Shaikh写的这篇文章为所有的数据科学家开创数据科学事业铺平了道路。只要按照这八个小贴士来做,你就能让自己的职业生涯有一个良好的开端。

1. 选择正确的角色

在数据科学行业中有很多不同的角色,包括数据可视化专家、机器学习专家、数据科学家和数据工程师等等。根据自己的背景和相关工作经验,你可以在这些数据科学行业中的重要职位中选择与你相关的职位。

但是,如果你不清楚这些职位之间的区别或者你不确定自己应该怎么做?那么我建议:

  • 与业内人士交流,弄清楚每个角色的工作职责。
    • 接受他人的指导,占用他们少量时间向他们提出相关的问题。我相信没有人会拒绝帮助有需要的人!
  • 弄清楚你自己想要什么、擅长什么,并选择适合于你自己的角色。

对于数据科学家、数据工程师和统计学家这些角色的详细描述, 在Analytics Vidhya博客上有一个详细的介绍,我相信这会帮助你做出相关的决定。

2. 选择一个课程,并学完它

现在你已经定下了一个角色,下一步就是专注于理解这个角色。行业中对数据科学家的需求非常庞大,所以有非常多的课程和研究在那里等着你,你可以学到任何你想学的东西! 找到要学习的资料并不难,但如果不努力,很难学会。

你可以选择免费的MOOC(译者注:massive open online courses,大型开放式网络课程),或加入认证计划。

当你学习一门课程的时候,要积极主动地去学习。顺着课程、作业和课程中的讨论一步一步进行。

这里有一些不错的网络课程:

  • edX上的Analytics Edge
  • Andrew Ng的机器学习课程

3. 选择一个工具和语言,并坚持下去

正如我之前提到过的,理解你所追求的方向非常重要。此时,你要面对的一个难题是:我应该选择哪种语言和工具?

哪一个是最好的选择?在互联网上有很多有关这个问题的教程和讨论。本人的想法是,你应该从最简单的语言或最熟悉的语言开始。如果你不熟悉编码,那么应该使用基于GUI的工具。在你掌握了这些概念之后,你就可以开始动手编码了。

4. 加入兴趣组

现在你已经知道自己想要选择哪个角色,并且已经准备好了,下一件重要的事情就是加入一个兴趣组。为什么这很重要?因为一个兴趣组能激发你的动力,让你与时俱进。

一个好的兴趣组有着一群能与你互动的人,与你分享共同目标的人,与你分享鼓舞人心的故事的人。

这里有一些不错的兴趣组:

  1. Analytics Vidhya
  2. StackExchange
  3. Reddit

5. 关注实际的应用,而不仅仅是理论

在参加课程学习和培训的同时,你应该关注一下与你当前正在学习的知识相关的实际应用。这不仅可以帮助你理解相关的概念,还可以让你更深入地了解它是如何在现实中得到应用的。

在参加课程时,你应该做到以下这几点:

  • 完成所有的练习和作业来理解相关的应用。加入讨论组,提问和回答问题。
  • 研究一些开放的数据集并应用到你的学习中。
  • 了解业内人士的解决方案,以及行业的发展趋势。

6. 寻找合适的资源

永远不要停止学习,你必须掌握你能找到的每一个知识点。最有用的信息常常来源于知名数据科学家的博客。这些数据科学家在社区中非常活跃,并会随着行业的发展不断更新他们的追随者。

请每天阅读数据科学方面的文章,使之养成一个习惯,以了解最近发生的事情以及如何解决现实问题。

这里是一个数据科学家的名单,你可以看一下。这里还有几个时事通讯:

  1. WildML
  2. 纽约大学
  3. KDnuggets新闻

7. 沟通技巧很重要

人们通常认为,只要自己在技术上很优秀,就一定能通过面试。这实际上并不一定。面试官在听完你的介绍后说了声“谢谢”,也许就是拒绝了你。

请试着提高你在数据科学方面的沟通技巧,并提前准备好面试问题。与朋友沟通时,也请注意相关的技巧。

当你从事这个行业工作时,沟通技巧甚至更为重要。为了有效地与同事分享你的想法,或者在会议中证明你的观点,你应该知道如何高效地进行交流。

8. 构建关系网,但不要在这上面花太多的时间!

一开始,你应该把自己的重点放在学习上。如果在最开始的时候就做太多的事情,那么最终可能会让你放弃这一切。

渐渐地,一旦对这个领域有了一定的理解,你就可以去参加一些行业活动和会议,甚至是黑客马拉松。你永远不知道谁会帮助到你!

关系网可能会:

  • 向你提供你所感兴趣领域正在发生的事情和内部信息。
  • 提供指导和支持。
  • 帮助你寻找工作。

作者: Faizan Shaikh,译者:夏天

]]>
数据科学在各行各业中的差异 //www.otias-ub.com/archives/588829.html Tue, 02 May 2017 11:31:31 +0000 //www.otias-ub.com/?p=588829 一份名为《AnalyticsWeek和BusinessOver Broadway数据科学调查》的报告揭示了数据科学所扮演的角色、数据科学技能的熟练度以及项目结果满意度在各行各业的差异。信息技术行业拥有最多的数据科学家。在雇佣数据科学家最多的十大行业中,有六个行业的研究型数据科学家数量超过了其他类型的数据科学家。与其他行业的数据科学家相比,专业服务行业的数据科学家在数据科学的三大技能——商业、技术和数学/统计方面,都拥有非常高的熟练度。

在我们对数据科学家的调查中,我们询问了1000多位数据科学家的个人和工作情况、他们对三项数据科学技能(商业、技术及数学/统计)的熟练程度、他们所扮演的角色(企业管理、开发人员、创意人士和研究人员)以及他们对所从事项目结果的满意度。

调查显示(图1),雇佣数据科学家最多的行业依次是信息技术(26%)、教育/科学(14%)、咨询(13%)、金融服务(11%)和医疗保健(9%)。

接下来,我们看看数据科学家在其公司里扮演的不同角色。由于样本容量的限制,我们只列出了十个行业的调查结果(另外14个行业的样本容量低于20)。

图2显示,以研究人员为主的行业包括教育/科学(83%)、广告/媒体/娱乐(69%)、金融服务(65%)、医疗保健(61%)、咨询(61%)和政府(59%)。不出所料,开发人员是信息技术行业(57%)里最常见的数据科学家类型。企业管理人员则是零售/消费产品行业(69%)里最常见的数据科学家类型。此外,创意人士是专业服务(58%)和通信(57%)行业里最常见的数据科学家类型。

下面,看看各行业的数据科学技能熟练度(图3)。总体来看,各行业的技能熟练度特点趋于一致。在十个行业中,有九个行业的数据科学家在商业和数学/统计技能方面的熟练度超过了技术方面(教育/科学行业除外)。

另外,三项数据科学技能的熟练度在不同行业中存在显著的统计学差异。与其他行业相比,专业服务行业的数据科学家在所有三项数据科学技能方面,都拥有最高的熟练度。

教育/科学行业的数据科学家拥有最高的数学/统计技能熟练度(64),但商业技能的熟练度最低(44)。

教育/科学和医疗保健行业的数据科学家拥有最低的技术技能熟练度。

各行业的数据分析项目结果满意度

对数据分析项目结果的满意度存在显著的统计学差异(图4)。教育/科学、咨询和金融服务行业的数据科学家对项目结果的满意度最高,而政府、广告/媒体/娱乐和通信行业的数据科学家则对项目结果的满意度最低。

总结

调查结果显示,行业之间在以下三个方面存在差异:1. 数据科学家的工作角色;2.数据科学家对数据科学技能的熟练度;3. 对项目结果的满意度。

调查显示,近75%的数据科学家来自五个行业:信息技术(26%),教育/科学(14%)、咨询(13%)、金融服务(11%)和医疗保健(9%)。此外,不同行业在数据科学家类型、技能熟练度以及项目结果满意度方面,也存在差异。

数据科学在各行业所扮演的角色大为不同。在十个行业中,有六个行业的数据科学家以研究人员为主。在其余行业中,则以另外三个角色为主。这种差异反映了各个行业所需要数据科学家完成的工作量和工作类型的不同。例如,只有信息技术行业的数据科学家才以开发人员为主,但更注重数据分析而不是技术创新的行业(比如教育/科学和医疗保健)则以研究人员为主,而强调通过创新思维解决问题的行业(比如专业服务和通信)则以创意人士为主。

各行业在数据科学家的技能熟练度方面也存在差异。只有教育/科学和专业服务两个行业的数据科学家掌握足够的数学/统计技能熟练度(熟练度不低于60)。而另一方面,只有通信行业的数据科学家拥有足够的商业技能熟练度。

最后,各行业在数据分析项目结果的满意度方面同样存在差异。为了弄清造成这种差异的原因,我们分析了每个行业的数据科学家类型及其教育水平。先前的调查发现,这两个因素与项目结果的满意度有关:研究人员对项目结果的满意度明显高于开发人员和企业管理人员。目前这次调查显示,满意度最高的四个行业是那些至少半数受访者为研究人员的行业。然而,在满意度最低的三个行业中,有两个行业也是研究人员占比较高的行业。

接下来看看教育水平。我们之前发现,与学历较低(高中、专科和本科)的数据科学家相比,获得高级学位(硕士和博士)的数据科学家在很多技能方面都拥有更高的熟练度。然而,我们在分析各行业数据科学家的教育水平时,没有明确的迹象表明,满意度高的行业(教育/科学:77%的人拥有高级学位)比满意度低的行业(广告/媒体/娱乐:71%的人拥有高级学位)拥有更多的高学历数据科学家。我们需要进一步的研究才能更好地理解,究竟是什么导致各行业在项目结果的满意度方面存在上述差异。

虽然数据科学家从事于各行各业,但他们中的很多人都来自少数几个行业。行业不同,其数据科学家的类型也不同。虽然每个行业都涵盖了数据科学家的所有四个类型,但侧重点各有不同。调查结果表明,无论身处哪一行业,数据科学家的职责在于优化数据科学的价值。更好地理解数据科学方法、实践和结果的行业性差异,有助于企业针对各自行业特点选择最合适的数据科学家,也有助于招聘人员找到最合适的数据科学家。


本次转自:品觉 微信公众号(pinjueche.com)

]]>
数据科学的基本内容 //www.otias-ub.com/archives/578502.html Sat, 01 Apr 2017 07:02:49 +0000 //www.otias-ub.com/?p=578502

作者|鄂维南

什么是数据科学?它和已有的信息科学、统计学、机器学习等学科有什么不一样?

作为一门新兴的学科,数据科学所依赖的两个因素是:一是数据的广泛性和多样性;二是数据研究的共性。现代社会的各行各业都充满了数据。这些数据的类型多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。正如我们后面将要讨论到的,数据分析本质上都是在解反问题,而且常常是随机模型的反问题。所以对它们的研究有着很多的共性。例如自然语言处理和生物大分子模型都用到隐马尔科夫过程和动态规划方法,其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种手段。

数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、天体信息学、数字地球等领域;后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是数据科学的重要组成部分, 但只有把它们有机地整合在一起,才能形成整个数据科学的全貌。

用数据的方法来研究科学,最典型的例子是开普勒关于行星运动的三大定律,如图1。开普勒的三大定律是根据他的前任,一位叫第谷的天文学家留给他的观察数据总结出来的。表1是一个典型的例子。这里列出的数据是行星绕太阳一周所需要的时间(以年为单位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。从这组数据可以看出,行星绕太阳运行的周期的平方和行星离太阳的平均距离的立方成正比,这就是开普勒的第三定律。

图1:用数据的方法研究科学的典型例子:开普勒三大定律

开普勒虽然总结出他的三大定律,但他并不理解其内涵。牛顿则不然,牛顿用他的第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。如果忽略行星之间的相互作用,那么各行星和太阳之间就构成了一个两体问题。我们很容易求出相应的解,并由此推出开普勒的三大定律。

牛顿运用的是寻求基本原理的方法,它远比开普勒的方法深刻。牛顿不仅知其然,而且知其所以然。所以牛顿开创的寻求基本原理的方法成了科学研究的首选模式。这种方法在上个世纪初期达到了顶峰:在它的指导下,物理学家们提出了量子力学。原则上来讲,我们日常生活中所碰到的自然现象都可以从量子力学出发得到解决。量子力学提供了研究化学、材料科学、工程科学、生命科学等几乎所有自然和工程学科的基本原理。这应该说是很成功的。但事情远非这么简单。狄拉克指出,如果以量子力学的基本原理为出发点去解决这些问题,那么其中的数学问题太困难了。所以如果要想有进展,还是必须做妥协,也就是说要对基本原理作近似。

尽管牛顿模式很深刻,但对复杂的问题,开普勒模式往往更有效。举一个例子,表2中形象地描述了一组人类基因组的SNP数据(Single Nucleotide Polymorphism data)。一组研究人员在全世界挑选出1064个志愿者,并把他们的SNP数据数字化,也就是把每个位置上可能出现的10种碱基对用数字来代表,对这组数据作主成分分析,就可以得到图2中的结果。其中横轴和纵轴代表的是第一和第二奇异值所对应的特征向量。这些向量一共有1064个分量,对应1064个志愿者。值得注意的是这组点的颜色所代表的意义。可以看出,人类进化的过程可以从这组数据中通过最常见的统计分析的方法主成分分析展示出来。主成分分析是一种简单的数据分析方法。其原理是对数据的协方差矩阵作特征值分解。

图2:对SNP数据作主成分分析的结果告诉我们人类进化的过程

这样的问题,如果采用从基本原理出发的牛顿模式,则基本上是没法解决的。而基于数据的开普勒模式则是行之有效。开普勒模式最成功的例子是生物信息学和人类基因组工程。正是因为它们的成功,材料基因组工程等类似的项目也被提上了议事日程。同样,天体信息学、计算社会学等等也成了热门学科。这些都是用数据的方法来研究科学问题的例子。图像处理是另外一个典型的例子。图像处理是否成功是由人的视觉系统决定的。所以要从根本上解决图像处理的问题,就需要从理解人的视觉系统着手,并了解不同质量的图像,对人的视觉系统产生什么样的影响。这样的理解当然很深刻,而且也许是我们最终所需要的。但从目前来看,它过于困难也过于复杂。解决很多实际问题时并不会真正使用它,而是使用一些更为简单的数学模型。

用数据的方法来研究科学问题,并不意味着就不需要模型。只是模型的出发点不一样,不是从基本原理的角度去找模型。就拿图像处理的例子来说,基于基本原理的模型需要描述人的视觉系统以及它与图像之间的关系。而通常的方法则可以是基于更为简单的数学模型,如函数逼近的模型。

怎样用科学的方法来研究数据?这包括以下几个方面的内容:数据采集、数据存储和数据分析。下面我们将主要讨论数据分析。

数据分析的中心问题

在讨论数据分析之前,我们先来看看数据的类型。比较常见的数据有以下几种类型:

1. 表格:这是最为经典的数据类型。在表格数据中,通常行代表样本,列代表特征。

2.点集(point cloud):很多数据都可以看成是某空间中的点的集合。

3. 时间序列:文本、通话和DNA序列等都可以看成是时间序列。它们也是一个变量(通常可以看成是时间)的函数。

4. 图像:可以看成是两个变量的函数。

5. 视频:时间和空间坐标的函数。

6. 网页和报纸:虽然网页或报纸上的每篇文章都可以看成是时间序列,但整个网页或报纸又具有空间结构。

7. 网络数据:网络本质上是图,由节点和联系节点的边构成。

除了上述基本数据类型外,还可以考虑更高层次的数据,如图像集,时间序列集,表格序列等。数据分析的基本假设就是观察到的数据都是由背后的一个模型产生的。数据分析的基本问题就是找出这个模型。由于数据采集过程中不可避免地会引入噪声,通常这些模型都是随机模型。

当然,在大部分情况下,我们并不感兴趣整个模型,而只是希望找到模型的一部分内容。例如我们利用相关性来判断两组数据是不是相关的,利用排序来对数据的重要性进行排名,使用分类和聚类将数据进行分组等。

很多情况下,我们还需要对随机模型作近似。最常见的是把随机模型近似为确定型模型。所有的回归模型都采用了这样的近似。基于变分原理的图像处理模型也采用了同样的近似。另一类方法是对其分布作近似,例如假设概率分布是正态分布,或假设时间序列是马尔科夫链等。

数据的数学结构

要对数据作分析,就必须先在数据集上引入数学结构。基本的数学结构包括度量结构、网络结构和代数结构。

1. 度量结构。在数据集上引进度量(距离),使之成为一个度量空间。文本处理中的余弦距离函数就是一个典型的例子。

2. 网络结构。有些数据本身就具有网络结构,如社交网络。有些数据本身没有网络结构,但可以附加上一个网络结构。例如度量空间的点集,我们可以根据点与点之间的距离来决定是否把两个点连接起来,这样就得到一个网络结构。PageRank算法是利用网络结构的一个典型例子。

3. 代数结构。我们可以把数据看成是向量、矩阵,或更高阶的张量。有些数据集具有隐含的对称性也可以用代数的方法表达出来。

在上述数学结构的基础上,我们可以问更进一步的问题,例如拓扑结构和函数结构。

1. 拓扑结构。从不同的尺度去看数据集,得到的拓扑结构可能是不一样的。最著名的例子是3×3的自然图像数据集里面隐含着一个2维的克莱因瓶。

2. 函数结构。对点集而言,寻找其中的函数结构是统计学的基本问题。这里的函数结构包括:线性函数,用于线性回归;分片常数,用于聚类或分类;分片多项式,如样条函数;其他函数如小波展开等。

数据分析的主要困难

我们碰到的数据通常有这样几个特点。一是数据量大。大家只要想一想,万维网上有多少网页,这些网页上有多少数据,就可以对现在碰到的数据量之大有点感觉了。数据量大带来的挑战是计算方面的,因此一些随机方法就显得重要,另外一种思路是分布式计算。第二是数据维数高。例如前面提到的SNP数据是64万维的。第三是数据类型复杂。数据可以是网页或报纸,也可以是图像,视频,多种类型的数据给数据融合带来困难。第四是噪音大。数据在生成、采集、传输和处理等流程中,均可能引入噪音。这些噪音的存在给数据清洗和分析带来挑战。需要有一定的修正功能的模型,例如图像中的正则化和机器学习中的去燥自编码器。

这里面最核心的困难是维数高。维数高给我们带来的是维数灾难(curse ofdimensionality)。即模型的复杂度和计算量随着维数的增加而指数增长。

那么怎样克服维数高带来的困难?通常有两类方法。一类方法就是将数学模型限制在一个极小的特殊类里面,如线性模型。另一类方法是利用数据可能有的特殊结构,例如稀疏性、低维或低秩和光滑性等。这些特性可以通过对模型作适当的正则化而实现,也可以通过降维方法来实现。

总而言之,数据分析本质上是一个反问题。因此,处理反问题的许多想法,如正则化,在数据分析中扮演了很重要的角色。这也正是统计学与统计力学的不同之处。统计力学处理的是正问题,统计学处理的是反问题。

算法的重要性

跟模型相辅相成的是算法以及这些算法在计算机上的实现。特别是在数据量很大的情况下,算法的重要性就显得尤为突出。从算法的角度来看,处理大数据主要有两条思路。

第一条思路是降低算法的复杂度,即计算量。通常我们要求算法的计算量是线性标度的,也就是说计算量跟数据量成线性关系。但很多关键的算法,尤其是优化方法,还达不到这个要求。对特别大的数据集,例如说万维网上的数据或社交网络数据,我们希望能有次线性标度的算法,也就是说计算量远小于数据量。这就要求我们采用抽样的方法。最典型的例子是随机梯度下降法(Stochastic Gradient Descent,SGD)。第二条思路是分布式计算,它的基本想法是把一个大问题分解成很多小问题,然后分而治之。著名的MapReduce框架就是一个这样的例子。

就现阶段而言,对算法的研究被分散在两个基本不相往来的领域里:计算数学和计算机科学。计算数学研究的算法基本上是针对像函数这样的连续结构。其主要的应用对象是微分方程等。计算机科学处理的主要是离散结构,如网络。而现实数据的特点介于两者之间:数据本身是离散的,而往往数据的背后有一个连续的模型。所以要发展针对数据的算法,就必须把计算数学和计算机科学研究的算法有效地结合起来。

]]>
Gartner:2017数据科学魔力象限 //www.otias-ub.com/archives/574240.html Tue, 21 Mar 2017 16:48:19 +0000 //www.otias-ub.com/?p=574240 2017年Gartner数据科学平台(在2016年被称作“高级分析平台”)的魔力象限报告于近期出炉了。今年的报告对16个数据分析公司进行了15个标准的评估,并基于前瞻性(Completeness of Vision)和执行能力(Ability of Execute),将他们按评分放置在四个象限中(魔力象限的横坐标表示的是前瞻性,纵坐标表示的则是执行能力)。

尽管像Python和R这种开源的平台在数据科学市场发挥着重要的作用,但是Gartner研究方法论不涉及它们,因此本报告只评估了商业化的厂商。

图一:2017年Gartner数据科学平台魔力象限

据了解,这16个公司分别是:

  • 领导者(四名):IBM, SAS, RapidMiner, KNIME
  • 挑战者(四名):MathWorks (新入围), Quest (前身是Dell), Alteryx, Angoss
  • 有远见者(五名):Microsoft, H2O.ai (新入围), Dataiku (新入围), Domino Data Lab (新入围), Alpine Data
  • 特定领域者(三名):FICO, SAP, Teradata (新入围)

Gartner指出,即使是MQ得分最低的厂商也依然是目前热门的数据科学市场前100的供应商中排名TOP16的。

本次新入围的五个厂商分别是MathWorks, H2O.ai, Dataiku, Domino Data Lab, and Teradata,而对应的从2016年报告中消失的厂商则是Lavastorm, Megaputer, Prognoz, Accenture, Predixion Software。

今年,KDnuggets的Gregory Piatetsky将2016年和2017年的魔力象限报告进行对比,就今年的变化、赢家和输家逐个进行分析,我们做了详细编译:

图二将2016年的MQ(灰色背景图层)和2017年的MQ(前景图层)表现在一张图片上,并用箭头将同一个公司在2016年与2017年的位置进行连接。当该公司今年的位置相对于去年大幅提高,则箭头标记为绿色;当该公司位置发生了削弱,则标记为红色;绿色的○形表示新入围的公司,而红色的×则表示今年落榜。

领导者

今年的领导者依然是四大供应商:IBM, SAS, RapidMiner, 和KNIME,他们自2014起就一直保持象限中的领导者地位。Dell software在2016年11月被收购了,并重新命名为Quest。今年它的产品Statistica Analytics则从领导者行列中掉队成为了挑战者。

2017年的MQ显示了IBM今年在前瞻性上的获胜一筹,而SAS则在执行能力上丢了一些分数。RapidMiner在执行力上表现强劲,而KNIME和RapidMiner同在前瞻性上表现式微。

IBM:基于SPSS Modeler和SPSS Statistics产品的优质表现,IBM今年又是领导者。尽管Gartner今年并没有对其新的数据科学体验平台(DSx)进行评估,但DSx对IBM在横坐标前瞻性的提升上贡献显著。IBM的优势包括其庞大的客户基础和持续创新的数据科学和机器学习能力。但其产品的广度(包括SPSS, IBM Watson, DSx, Cognos )则造成了市场的困惑,并且SPSS的产品线还具有互操作性的问题。

SAS:SAS为数据科学提供了多种产品。Gartner的评估涵盖了产品SAS Enterprise Miner(EM)和SAS Visual Analytics Suite(VAS)。SAS更专注于VAS的交互建模,同时继续支持其传统的基础SAS。今年SAS在领导者里面依旧处于强势地位,但市场在选择其多个产品时的困惑和对其高额成本的担忧则导致了SAS今年在执行能力上的下滑。

KNIME:KNIME提供了开源的KNIME分析平台,平台为高级数据分析师提供了强大功能。在部分行业,特别是生产和生命科学领域功能强劲。但相对于其他领导者,由于KNIME在营销和创新能力的减弱,它在前瞻性上输掉了一些。

RapidMiner:RapidMiner提供了数据科学平台的图形可视化界面,这对于初学者和数据分析专家都十分适宜。它还提供了源代码的访问权限。同时,RapidMiner有两个版本,免费版和企业版(带有为大数据设计的额外功能并可连接多数据源)。由于其市场占有额和成熟的产品,RapidMiner今年继续保持领导者地位。

挑战者

Mathworks:因其MATLAB产品今年新入围Gartner魔力象限。Matlab的产品在工程师中很受欢迎,并为使用者提供了丰富的工具箱。

Quest:Dell Software在2016年被出让的产物,现在销售Statistica平台。今年Quest进入了挑战者象限(去年Dell在领导者象限),掉队的原因归结于未来3年中Statistica产品拥有权的第二次变化和Quest缺乏与云相关的产品改进(尽管这点在其发展路标上)。

Alteryx:提供了便于使用的数据科学平台,带有自主数据准备和高级分析的功能。除此之外,还具备了数据模拟和优化的能力。由于其稳定的客户增长,它从去年的有远见者象限跳跃上升至今年的挑战者象限。

Angoss:提供了可视化数据挖掘和预测分析工具,包括归一化的数据分析和优化工具。今年它继续保持了去年在象限中的位置。

有远见者

Microsoft:微软的评估是基于Azure的数据学习平台(微软Cortana智能套件的一部分),它提供了一个基于数据科学平台的强大的云。Gartner将微软继续放在有远见者象限的原因则归结于其缺乏可比的现场解决方案。

H2O.ai:新入围,提供了开源的数据科学平台,并在深度学习和其他高级机器学习方法上执行力强。

Dataiku:新入围,它的产品Data Science Studio(DSS)具备创新性、开放性和协作功能,适合不同技能水平的使用者。因此,Gartner将其评为有远见者。

Domino Data Lab:新入围,其产品Domino数据科学平台专注协作,主持多种开源技术。

Alpine Data:它的产品“城市数据科学”平台,Chorus,给业务分析师和一线用户在构建和运行工作流时的协作提供了方便。相较于2016年,Alpine依然处在有远见者象限,但是因其扩张市场份额的困顿,在执行能力表现上评分下滑。

特定领域者

SAP:SAP将其数据科学平台更名为SAP BusinessObjects Predictive Analytics。SAP执行能力的下降导致了它从挑战者象限降级,并导致了它在产品活力、开源支持和云布局的落后。

FICO:其产品决策管理套件(DMS)提供了多个分析工具。它和去年一样,保持在特定领域者象限,但是今年评估其在前瞻性和执行能力上都有一些失分。

Teradata:提供了Aster分析平台,其具有三个层:解析引擎,预置的解析函数和Aster应用中心,其应用可进行数据分析并可连接外部BI工具。因其低使用率,今年Gartner继续将其评为特定领域者。

来自:雷锋网

]]>
大规模机器学习:将数据科学引入生产系统架构的典型模式 //www.otias-ub.com/archives/558958.html Wed, 18 Jan 2017 12:57:46 +0000 //www.otias-ub.com/?p=558958 文作者 Mikio Braun 是 Zalando 的推荐和搜索系统的交付带头人,Mikio拥有机器学习的博士学位。本文概述了一个能把数据科学引入生产系统的架构的典型模式。想了解更多的大规模复杂数据分析的内容,可以查看Mikio Braun的培训视频《大规模机器学习》。

在过去的几年间,数据科学这个概念已经被非常多的行业所接受。数据科学(源自于一个科学研究课题)最早是来自于一些试图去理解人类的智能并创造人工智能的科学家,但现在它已经被证明是完全可以带来真正的商业价值。

例如,我所在的公司:Zalando(欧洲最大的时尚品零售店)。在这里,数据科学和其他工具一起被用来提供数据驱动的推荐。推荐本身作为后端服务,被提供给很多地方,包括产品页面、分类目录页面、通讯电邮以及重新定位目标客户等。

图1:图片来自Mikio Braun的演讲页

数据驱动产生推荐

实际上,有非常多的方法可以由数据驱动产生推荐。例如,在所谓的“协同过滤”里,所有用户的行为(比如浏览商品、对想买商品列表的操作、以及购买行为)都可以被收集起来作为推荐的基础,然后分析发现哪些商品有相似的用户行为模式。这种方法的优美之处在于计算机根本不用知道这些商品是什么。而它的缺点则是商品必须要有足够多的用户行为信息数据才能保证这个方法起作用。

另外一类产生推荐的方法是只看商品的属性。例如,推荐具有相同品牌的或者相同颜色的商品。当然,对这些方法还有非常多的扩展或者组合。

图2:图片由Antonio Freno友情提供并授权使用。引用自发表在KDD 2015会议的《One-Pass Ranking Models for Low-Latency Product Recommendations》论文

更简单一些的方法就是只通过计数来做推荐。但这种方法在实践里会有非常多的复杂的变形。例如,对个性化推荐,我们曾使用过“学习排序”的方法,即对商品集做个性化的排序。上图里所显示的就是这个方法需要最小化的损失函数。

不过,这里画出这个图的主要目的,还是来展示数据科学可能会引入的复杂度。这个函数自身使用了成对的加权指标,并带有正则化条件。这个函数的数学展现是很简化的,当然也就很抽象。这个方法不仅对于电商的推荐场景有用,还对当物品有足够特征的时候的所有类型的排序问题也有用。

将数据科学方法引入工业界

为了把类似上图的非常复杂的数学算法引入到生产系统中,我们需要做什么?数据科学和软件工程之间的界面应该是什么样?什么样的组织架构和队伍结构才最适合使用这些数据科学的方法?这些都是非常相关和合理的问题。因为这些问题的答案将会决定对于一个数据科学家或者是整个数据科学团队的投资是否能最终得到回报。

在下文里,我会根据我作为一个机器学习的研究人员以及在Zalando带领一个数据科学家和工程师团队的经验,来对这些问题做一些探讨。

理解数据科学(系统)与生产系统的关系

让我首先从了解数据科学系统与后端生产系统的关系开始,看看如果将两者进行集成。

图3:图片来自Mikio Braun的演讲页

典型的数据科学工作流程(管道)如上图里所示:第一步总是从发现问题和收集一些数据(来自于数据库或者生产系统的日志)开始。取决于机构的数据准备好的程度,这一步有可能就是很困难的。首先,你有可能需要搞清楚谁能让你接触到所需的数据,并搞清楚谁能给你权限去使用这个数据。当数据可用后,它们就可能需要被再次处理,以便提取特征值。你希望这些特征可以为解决问题提供有用的信息。接着,这些特征值被导入学习的算法,并用测试数据对产生的结果模型做评估,以决定这个模型是否能较好地对新数据做预测。

上述的这个分析管道通常都是短期一次性的工作。一般是由数据科学家手工完成所有的步骤。数据科学家可能会用到如Python这样的编程语言,并包括很多的数据分析和可视化的库。取决于数据数量,有时候数据科学家也使用类似Spark和Hadoop这样的计算框架。但一般他们在一开始都只会使用整个数据集的一小部分来做分析。

为什么开始只用一小部分数据

开始只用一小部分数据的主要原因是:整个分析管道过程并不是一锤子买卖,而是非常多次反复迭代的过程。数据科学项目从本质上讲是探索性的,甚至在某种程度上是开放式的命题。虽然项目目标很清楚,但什么数据可用,或可用的数据是否适合分析,这些在项目一开始都不是很清楚。毕竟,选择机器学习作为方法就已经意味着不能仅仅只是通过写代码来解决问题。而是要诉诸于数据驱动的方法。

这些特点都意味着上述的分析管道是迭代的,并需要有多次改进,尝试不同的特征、不同的预处理模式、不同的学习方法,甚至是重回起点并寻找和实验更多的数据来源。

这整个过程本质上就是反复的,而且经常是高度探索性的。当做出的模型的整体的表现不错后,数据科学家就会对真实的数据运用开发的分析管道。到这时,我们就会面临与生成系统的集成问题。

图4:图片来自Mikio Braun的演讲页

区分生产系统和数据科学系统

生产系统和一个数据科学系统的最主要区别就是生产系统是一个实时地、在持续运行的系统。数据一定要被处理而模型必须是经常更新的。产生的事件也通常会被用来计算关键业务性能指标,比如点击率等。而模型则通常会每隔几个小时就被用新数据再进行训练,然后再导入生产系统中去服务于新来的(例如通过REST接口送入的)数据。

这些生产系统一般都是用如Java这样的编程语言写的,可以支持高性能和高可靠性。

图5:图片来自Mikio Braun的演讲页

如果你把生产系统和数据科学系统并排放置,那么就会得到一个类似上图的情况。在右上角,是数据科学的部分。其典型特征是使用类似Python的语音或者是Spark的系统,但一般是一次性的手工触发的计算任务,并经过迭代来优化整个系统。它的产出就是一个模型,本质上就是一堆学习到的数字。这个模型随后被导入进生成系统。而生产系统则是一个典型的企业应用系统,用诸如Java语言写成的,并持续运行。

当然,上面的这个图有一些简化了。现实中,模型都是需要被重新训练的,所以一些版本的数据处理管道会和生成系统集成在一起,以便不时地更新生产系统里的模型。

请注意那个在生成系统里运行的A/B测试。它对应于数据科学一侧的评估部分。但这两部分经常并不完全具有可比性。例如不把离线的推荐结果展示给客户,就很难去模拟一个推荐的效果,但有这样做可能会带来性能的提升。

最后,必须要意识到,这个系统并不是在安装部署完成后就“万事大吉了”。就如数据科学侧的人需要迭代多次来优化数据分析管道,整个实时系统也必须随着数据分布漂移来做迭代演进。由此新的数据分析任务就成为可能。对我而言,能正确做好这个“外部迭代”是对生产系统的最大的挑战,同时也是最重要的一步。因为这将决定你能否持续地改善生产系统,并确保你在数据科学上的初期投资取得回报。

数据科学家和程序员:合作的模式

到目前为止,我们主要关注的是生产环境里的系统是什么样。当然对于如何保证生产系统稳定和高效则有很多种方法。有时候,直接部署Python写的模型就足够了,但生产系统和探索分析部分的分离是肯定存在的。

你将会面对的艰巨挑战之一,就是如何协调数据科学家与程序员的合作。“数据科学家”依然是一个新的角色,但他们所做的工作与典型的程序员有着明显差异。由此导致的误解和沟通障碍就不可避免了。

数据科学家的工作通常是探索性的。数据科学项目一般始于一个模糊的目标、哪些数据可用的一些想法、以及可能的算法。但非常常见的情况是,数据科学家必须尝试多种想法,并从数据里获取洞察。数据科学家会写很多的代码,但是大部分都是用于测试想法,并不会被用于最终的解决方案。

图6:图片来自Mikio Braun的演讲页

与数据科学家相反,程序员通常非常关注于编程。他们的目标是开发一个系统,实现所要求的功能。程序员有时会做一些探索性的工作,比如构建原型、验证概念或是测试性能基准。但他们的工作的主要目标还是写代码。

他们间的不同还明显地体现在代码的变化上。程序员通常会坚持一个非常明确定义的代码开发流程。一般包括创建自己工作流的分支,在开发完成后做评测检查,然后把自己的分支合并进主分支。大家可以并行开发,但必须在协商后才能把他们的分支合并进主分支。然后这个过程再重复进行。这整个过程都是确保主分支会以一个有序的方式演进。

图7:图片来自Mikio Braun的演讲页

数据科学家也会写很多的代码。但正如我之前所说的,这些代码通常是为了验证想法。所以数据科学家可能是会写出一个版本1,但它并没有实现需求。然后又针对一个新的想法写了版本2,随后是2.1和2.2,直到发现还是不能实现需求而停止。再对更新的想法去写版本3和3.1。也许在这个时候,数据科学家意识到,如果采用2.1版里的某些方法并结合3.1版里的某些方法,就能获得一个更好的解决方案。这就带来了版本3.3和3.4,并可能由此形成了最终解决方案。

图8:图片来自Mikio Braun的演讲页

一个有意思的事情是,数据科学家实际上可能希望保留所有这些没成功的版本。因为之后的某个时间,也许它们又会被拿来测试新的想法。也许有些部分可以被放入一个“工具箱”里,逐步形成数据科学家自己的私人机器学习库。程序员更希望去删除“无用的代码”(因为他们知道如何快速地找回这些代码),而数据科学家则喜欢保留代码以防万一。

上述的两大不同意味着,在现实中,直接让程序员和数据科学家共同工作可能会出问题。标准的软件工程流程对数据科学家的探索性工作模式并不合适,因为他们的目标是不同的。引入代码评测检查和有序的分支管理、评测、合并分支的工作流对数据科学家而言并不合适,还会减慢他们的工作。同样的,把探索性的模式引入生产系统开发也不会成功。

为此,如何才能构建一个合作模式来保证两边都能高产出的工作?可能第一直觉就是让他们相互分离地工作。例如,完全分开代码库,并让数据科学家独立工作,产出需求文档,再由程序员团队实现。这种方法也行得通,但流程通常会非常得慢,且容易出错。因为重新开发实现一遍就可能会引入错误,尤其是在程序员并不熟悉数据分析算法的情况下。同时能否进行外部迭代来改进系统的表现也依赖于程序员是否有足够的能力来实现数据科学家的需求。

图9:图片来自Mikio Braun的演讲页

幸运的是,很多数据科学家实际上是希望能成为好的程序员,或是反过来。所以我们已经开始试验一些更直接和更能帮助加快流程的合作模式。

例如,数据科学家和程序员的代码库依然是分离的,但部分生产系统会提供清晰定义的接口来方便数据科学家把他们的方法嵌入进系统。与这些生产系统的接口进行沟通的代码必须严格地依据软件开发实践流程,但这是数据科学家的工作。用这种方式,数据科学团队可以在自己的代码快速地迭代,同时也就是完成了对生产系统的迭代。

图10:图片来自Mikio Braun的演讲页

这种架构模式的一个具体实现是采用“微服务”方法。即让生产系统去调用数据科学家团队开发的微服务来获取推荐。用这个方式,整个数据科学家使用的离线分析管道还可以被调整用来做A/B测试,甚至是加入生产系统而不用程序员团队重新开发实现。这种模式会要求数据科学家具有更多的软件工程技能,但我们看到越来越多的数据科学家已经具有这样的技能集。事实上,后来我们修改了Zalando的数据科学家的职衔为“研究工程师(数据科学)”来反应这种实际情况。

采用类似这样的方法,数据科学家可以快速实践,对离线数据做迭代研究,并在生产系统环境里迭代开发。整个团队可以持续地把稳定的数据分析方法迁移进生产系统。

持续适应并改进

至此,我概述了一个能把数据科学引入生产系统的架构的典型模式。需要理解的一个关键概念就是这样的系统需要持续地适应并改进(这和几乎所有的针对实际数据的数据驱动项目类似)。能够快速迭代,实验新的方法,使用A/B测试验证结果,这一切都非常重要。

依据我的经验,保持数据科学家团队和程序员团队的分离是不可能达成这些目标的。与此同时,很重要的是,我们也要承认两个团队的工作方式确实是不同的,因为他们的目标不一样(数据科学家的工作更加具有探索性,而程序员更关注于开发软件和系统)。

通过允许各自团队能工作在更适合他们的目标的方式,并定义一些清晰的接口,是有可能集成两个团队,并保证新的方法可以被快速地试错的。这会要求数据科学家团队具有更多的软件工程技能,或是至少能有软件工程师来桥接起两个世界。

作者介绍

Mikio Braun是Zalando的推荐和搜索系统的交付带头人。Zalando是欧洲最大的时尚品平台之一。Mikio拥有机器学习的博士学位,并在投身把研究成果转化成行业应用前进行了多年的研究工作。

]]>
为何企业无法从数据科学中真正获得价值? //www.otias-ub.com/archives/553527.html Tue, 03 Jan 2017 15:11:27 +0000 //www.otias-ub.com/?p=553527
当今企业拥有越来越多的数据,但这些数据并没有完全被转化成可操作的信息。在过去的几年里,我和我的MIT调查小组一直在寻找一个基本问题的答案:如何让企业通过机器学习,将蕴藏于其数据储存内的潜能全部释放出来。

当我们与不同行业的合作伙伴一起设计基于机器学习的解决方案时,我们发现已有的解决方案通常情况下是不适合的,这是为什么呢?

首先,每当我们问到机器学习专家们(专长于预测模型训练和测试的数据科学家们),在工作中最困难的部分,被一次次提及的答案是——“数据杂乱无章”。一开始,从字面意思上理解,我们认为这是一个经典的数据问题——数据缺失或者数据库之间缺乏一致性。随着我们的进一步挖掘,我们意识到该问题和经典的数据问题略有不同,两者面临的数据形式有一定的区别。企业的原始数据(Raw data),甚至是干净数据(Cleandata:在Raw data的基础上,进一步处理后得到的数据)量多且复杂,即使是专家,第一眼也很难理解这些数据。因为这样的数据有太多的数据表和字段,同时数据的粒度又非常高(例如,在线点击流每一次点击都会生成新数据、传感器每秒会进行125次的数据收集)。而机器学习专家们通常习惯使用聚合过后的,有用的数据,例如一个用户访问过的网站数目,而不是用户在某个网站上的行为数据表。

与此同时,我们经常听到商业专家抱怨“我们有大量的数据,但没有通过这些数据做成任何事”。更深入的调查显示这种说法也不完全对。而这种挫败感主要来源于两个方面。

一方面是由于时间问题。由于机器学习中,理解、规划及处理数据等一系列过程所需要花费的时间,机器学习专家常常更加关注流程的后面部分——尝试不同的模型或者在问题制定完成后,调整模型参数,而不是针对不同的商业问题制定新的预测模型。因此,当商业专家想到某个新的问题时,机器学习专家无法做到总是及时跟上他们的步伐。

另一方面,经常来说,机器学习专家并没有围绕着“产生商业价值”,这一建模的最终目标,来展开工作。在大部分情况下,预测模型旨在提高效率、增加收益或者减少支出。但实际上,建立模型的工作者却很少问这样的问题“这个预测模型提供的价值是什么?我们又该如何去量化其价值?”。思考这一价值导向的问题常常会改变最初的问题规划(problem formulation),通常情况下比建模后期再进行过程调整更加有用。最近在一个机器学习爱好者小组中,我向约150名观众进行了调查,当问到“有多人建立过机器学习模型?”大约有三分之一的人举了手。紧接着,当我问到“有多少人真正应用自己建立的模型产生价值,并量化模型产出价值?”时,所有人的手都放下了。

换句话说,机器学习专家更倾向于将时间花在构建模型上,而不是处理海量数据集或者将商业问题转化为预测问题。无独有偶,当前的技术环境,无论是商业还是学术,关注点都在实现更加复杂的模型(LVM潜变量模型)、模型学习算法(分布式计算),或者微调(贝叶斯优化)。本质上,这些都属于数据科学项目后期的过程。然而,按照我们的经验,我们认为这些关注点并不是最恰当的。

如果公司想要从数据中获得价值,需要将重点放在加速对数据的人为理解,在短时间内调整可构建的模型问题数量以及预测这些模型所的成效。在与公司的合作中,我们得出结论,想要通过机器学习带来真正的改变,需要将重点放在以下四个方面:

坚持简单的模型

简单的模型,例如逻辑回归、基于随机森林或者决策树的模型。这些模型已经足够解决手头上的任务。关键是减少数据采集时间,尽早进行第一个简单预测模型的开发。

探索更多的问题

数据科学家需要有能够快速而简单的定义和探索多个预测模型的能力。公司应该探索更多的商业问题,为每一个商业问题建立一个简单的预测模型,并评估其价值,而不是用超级复杂的机器学习模型去探索仅仅一个商业问题。

从数据样本中而不是全部的数据中学习

不要过多的关注如何使用分布式计算让任何一个处理模型都能进行大数据处理,而是在能够从子样本数据中导出相似结论的技术上进行投资。规避大量计算资源的使用,将会给予我们更多的空间去探索更多的假设。

关注自动化

为减少第一个预测模型产生的时间和加快探索的速度,公司必须能够自动化处理在正常情况下需要人工完成的过程。通过在不同数据问题上的反复探索,我们发现很多时候都在使用相似的数据处理技术,无论是将数据转化为有用的聚合数据,还是为预测模型准备数据。是时候流水线化这些任务,开发算法和软件,使这些过程能够自动化完成。

 

专注于上述四个目标,准确理解数据科学家如何与数据交互,以及项目瓶颈之所在,帮助我们成功启动了MIT的“TheHuman-Data Interaction Project”项目。

 

我们的目标是快速探索预测模型,并将这些模型应用于解决真实企业中的实际问题。这些模型简单,同时自动化让非专业的用户也能够在几个小时内建立成百甚至上千个预测模型。而这在今天,通常需要花费专家们一整个月的时间才能做到。

注:本文来源纽约数据科学学院

]]>
13张图看6年来数据科学概念之争 //www.otias-ub.com/archives/525003.html Mon, 10 Oct 2016 16:01:44 +0000 //www.otias-ub.com/?p=525003 2010年起,Drew Conway开始用一张维恩图(即用不同的圆圈显示元素集合重叠区域的图示)表示数据科学,之后,不同的数据科学家也根据自己对数据科学的理解对这一维恩图进行了不同程度的删改和调整。

Drew Conway的第一张维恩图至今依然是很多数据科学家最认可的对数据科学的基本描述,这张图清楚的显示了,数据科学最相关知识来自三大基础领域:数学和统计知识、计算机科学、行业应用知识。

本文用13张经典维恩图展示了数据科学这个领域,你最喜欢哪一张?你觉得哪张图最能代表你对数据科学的理解?

数据科学是一个定义相当模糊的词语。我听到的一些定义有——

“这是一项需要比大多数统计学家更多的编程技巧,和比程序员更多的统计数据技能的工作。”

“是应用统计,但在旧金山却不是。”

“有人突然决定在自己的名片上印上‘数据科学家’这几字,然后靠着这个涨了工资。”

就我个人而言,我最近决定称呼自己为数据矿工来避免争议。(无论如何,数据矿工并不时髦。)

数据科学是一个寻找定义的行业,人们进行着很多不同的尝试来定义它也不足为奇。

作为一个充满着数据书呆子而且对可视化情有独钟的领域,很多人在尝试定义时使用维恩图也是不足为奇。

1. 2010年·Drew Conway版

1476115268-4148-94de80684e441964252712
 
 
他的个人博客在2013年因为发表了数据科学维恩图而火了起来。对于Conway,图的中心是数据科学。关于下面的那个圈“实质性专业(Substantive Expertise)”的含义(我接下来会进一步解释)有过一些争议:我只能说,如果是Conway的意思不是我所说的领域知识(例如物理学)而是其他的东西,那么他选择的这个名字确实不怎么样。

因此,假如领域知识是他的意思,至少这个想法的一部分是:比如一个物理学家,本来具有物理和数学/统计的专业知识,但缺乏黑客知识(我见过不少物理学家也有黑客知识,故而这个现象现在并不那么普遍了);机器学习专家有时会在缺乏对要进行分析的事情所在领域知识情况下,对他们要分析的事情应用算法(这和我第一次在一个全新的产业里起步建立模型时的情况一模一样,我不得不作了很多知识补充);还有的人可以编程,并且知道自己领域内的知识,但却没办法知道什么时候是偶然,什么时候是一个统计上显著的结果,这样的人是很危险的;他们给出的解决办法可能会是非常错误的,导致他们公司大量的经济损失。

2. 2012年 Brendan Tierne版

这个图……确实看起来有点乱。顺便说一句,KDD代表知识发现和数据挖掘(Knowledge Discovery and Data Mining)。尽管如此,数据挖掘也有自己的圈。我欣赏他在这里的所作所为,这里为了说明数据科学是个多学科的领域,数据科学的价值在于其所需技能的广度。显然,这些技能中有一个是神经计算(Neurocomputing) ,这似乎也有点太…..具体了。

1476115268-1025-94de80684e441964253d13
 
注:

KDD:Knowledge Discovery and Data Mining,知识发现和数据挖掘

AI:Artificial Intelligence,人工智能。

3. 2013·Ulrich Matter版

紧跟着Conway的脚步,Ulrich Matter也在2013年同一个月内在博客上发表了自己的版本。

他把Conway的版本沿对角线做了个翻转,把“实质性专业”指定为社会科学(他的领域),把“ 黑客能力(Hacking)” 改成“计算机科学” (你可以理解为什么有人会不想被定性为一个黑客,虽然我本人没意见),由于一些原因,他把“ 数学与统计” 改成了“ 定量方法(Quantitative Methods)” 。更重要的是,他把在Conway版本中本应该是“机器学习”的地方改成了“数据科学”——这是一个有趣的差别。有些数据科学家专注于一个领域,也有些人是通才(这些人通常在一个领域开始,但一发不可收拾,像我这样的:我一开始在化学行业而现在我在保险行业)的数据科学家。此外,他显然对“危险区”这个词感到不舒服,将其更改为…一个问号。但很显然,最重要的是图的中心:数据驱动计算[社会](Data-driven Computational [Social] Science)。

1476115268-4880-94de80684e441964256b14
 
我们可以说它有点…罗嗦?他还在“传统研究”的前面加上了“实验性”这个词。

4.Joel Grus版

爱德华·斯诺登消息传出后, Joel Grus提供了这个混乱的版本。现在我们进入这种四个圈的维恩图领域,第四个圈就是很讨厌的。

1476115268-1488-94de80684e441964257915
 
注:

NSA:National Security Agency,国家安全局。

5.2013年·Harlan Harris版

2013年9月,Harlan Harris用了这个图来处理数据产品,而不是数据科学。

每一个切片不再和Conway的版本相对应,因为我们已经完成从科学到产品的变化,但是类别仍值得关注(他们也跟着真正的维恩的方法,不是独立的切片本身)。“领域知识”仍然存在,“计算机科学/黑客”仍然作为“ 软件工程”存在。此外,关键的是Harris在统计圈上增加了预测分析和可视。统计圈和软件工程圈的交集是实际应用的工具。

1476115268-4338-94de80684e441964258f16
 
6.2014年·Steven Geringer版

2014年1月,Steven Geringer提供了一个调整,不再像Conway那样把数据科学放在中间三路交叉口,而是称整个事情为“数据科学”, 三个圈的交界处为独角兽(意思是像一个神兽一样,传言存在,但从来没有人在野外亲眼看到。)

这是…有点怪异,如果按维恩图解来说。我想我知道他想要干吗。当我第一次听到有人被称为数据科学家,我经常听到还击,“难道不是所有的科学家,顾名思义,都是数据科学家?”诚然,任何科学都不能没有数据处理,不过,数据科学,而相当模糊的,不能是一个总称。

另外,我很抱歉,但你可以看到他的鼠标箭头还在截屏图上呢。

1476115268-3668-94de80684e44196425a217
 
7.2014年·Michael Malak版

在2014年2月,Michael Malak增加了第四个圈,声称Conway在说“实质性专业”时,意思不是领域知识。

根据Malak的说法,当涉及到“实质性专业识:“你继续用这个词。我不认为它是你认为的意思。” Malak把它分成领域专业知识,和……呃,和某一个领域的知识比如社会科学。也许是我想太多,但我不明白他们的区别。我也不知道他想用“整体的传统研究”表达什么。科学数据,再次回到了独角兽的位置,有三个危险区域(其中一个还是双重危)。看起来每个人都讨厌“黑客”这个词。

1476115269-6927-94de80684e44196425b518
 
8.Vincent Granville

我的下一个例子来自Vincent Granville,他于2014年4月转发了Gartner的作品,但我不知道其原作的具体日期。

这是数据科学解决方案,而不是数据科学本身的维恩图; 因此,数据科学是其中一个圈,与其他的能力(通常不属于同一个人,但希望在同一个团队里)是IT技能和业务技能。有点困扰我的是,文字标签指着每个圈里非常具体的位置,但实际位置却是任意的。

1476115269-3247-94de80684e44196425ce19
 
9.Shelly Palmer

Shelly Palmer在赫芬顿邮报上客串博客中发表了他自己书里的这个图:

1476115269-7811-94de80684e44196425de1a
 
10.2015年·Stephan Kolassa版本

在2015年11月,StackExchange数据科学用户Stephan Kolassa想出了我个人的最爱的图,其在Conway的版本上加了“交流”,并把“实质性专业”改成了“业务”。

关于他的这个成果,在这个测试版发布论坛上得到了21个“赞”(我就是其中之一)。他的分类都还不错。我想我可以被归入“好的顾问”这一类。或可能是“平庸顾问”。或者是个“用力过猛”的顾问?

是的,这才是一个四圈维恩图该有的样子,不是之前Malak那种不能包含交叉点的所有组合的四个同心圆。

1476115269-6742-94de80684e44196425f01b
 
11.2016年·Matthew Mayo与Gregory Piatetsky-Shapiro版

2016年,Matthew Mayo的博客发表了由Gregory Piatetsky-Shapiro制作的一张图。

好吧,虽然它声称是数据科学的维恩图:第一,它不是一个维恩图;第二,数据科学是其中的一个圈。大数据被承认令人欣喜,不过…这个字体是啥情况?

1476115269-1126-94de80684e441964260b1c
 
12.2016年·Gartner版

最后(我敢肯定,我没有收集到所有的。如果你知道有哪张维恩图我错过了,请让我知道),后来在2016年,Gartner在他的博客上重做了他那样有点繁忙的数据解决方案图,并使其更漂亮和更加基于数据科学。

我们兜了一圈,又回到Conway,除了“危险区”又一次所取代,这一次被改了“数据工程师”。我喜欢这次文字都指向圈的边缘,比他们以前的乱标注好多了。

1476115269-5211-94de80684e441964261d1d
 
13.未来的数据科学维恩图:

维基百科上关于科学的页面有以下这个不完全是维恩图的图:

1476115270-8454-94de80684e441964262d1e
 
说真的,在我看来,这是看待数据科学的方式。也许不是这些具体的技能,但它确实是不同学科的协同作用。不幸的是,在一门学科的技能有时可以掩盖自己也许在另外一门学科知识的严重缺陷,从而破坏数据科学的名声。(在我虚度年华的青春岁月,我也许也是促成了这一现象的一分子。)

当然,那么你则需要一个非常复杂的维恩图。

它们确实存在——

这里有一个七维级别的:

1476115270-7258-94de80684e441964263a1f
 
原作者 | David Taylor

选文 | Aileen

翻译 | Aileen

校对 | 黄念

来自大数据文摘

]]>
数据科学从业者,你要怎样才能赚更多钱? //www.otias-ub.com/archives/517966.html Fri, 16 Sep 2016 12:34:40 +0000 //www.otias-ub.com/?p=517966
1474029147-3727-3417eb9bbd901942fe0130
作为数据控的你内心肯定特别关注数据行业未来的赚钱能力,而知名计算机图书出版商O’Reilly近日发布的《2016数据科学从业者薪酬报告》就提供了答案。

▍报告要点

O’Reilly根据来自45个国家983位数据科学领域从业者填写的调查问卷,完成了《2016数据科学从业者薪酬报告》(2016 Data Science Salary Survey)。报告内容主要回答了这些问题:

•哪个国家或地区的数据科学家可以获得最高的薪酬?

•被调查者最常用的工具是什么?哪种工具对薪酬的贡献更大?

•性别差异以及讨价还价的能力多大程度上会影响数据科学家的薪酬?

▍数据科学从业者薪酬水平差别大

报告显示,接受调查的数据科学领域从业者薪酬中位数是87,000美元,相比去年的91,000美元有些微下降。

先不要急。其实出现这一现象的原因主要是,在参与调查的从业者中,来自美国以外的,还有30岁以下的占比相对往年的更高了。

1474029147-2262-3417eb9bbd901942fe5032
报告还调查了从业者们过去三年来的薪酬涨跌情况,超过八成的从业者们薪酬上涨。

不过从业者之间薪酬涨幅差别还是很大的,有11%的人三年来仅上涨了不到一成,但前6%人的薪酬却直接翻了三倍。真是同人不同命。

那么出现这种差别的原因是啥?

根据接受调查从业者的情况来看,影响薪酬水平高低的主要是下面这些要素。

▍以下这些都会影响到你的薪酬

首先,从业者所处的国家对数据科学从业者的薪酬有巨大的影响。报告表示,除了少数例外,从业者所在地的GDP水平差不多就能代表其薪酬水平。

1474029147-2560-3417eb9bbd901942fe5e33
美国的薪酬水平最高,六成接受调查的从业者来自美国,他们的薪酬中位数是106,000美元,比样本整体中位数高出1/5。

而亚洲与非洲的薪酬水平则最低。

第二个影响从业者薪酬水平的要素是性别。在工作角色与技能等其余变量都一样的情况下,女性从业者赚得比男性要少。从接受调查的从业者情况来看,女性薪酬的中位数比男性要少10,000美元。

报告显示,其余影响到薪酬的要素还有从业者的工作经验、年龄以及所处行业:

•每增加一年工作经验,薪酬平均会增长2000-2500美元。

•在60岁之前,年龄越大,薪酬就会越高。

•从所处行业来看,提供云服务的薪酬最高,而教育行业的薪酬最低。

▍开更多会,能写代码,薪酬会更高

报告显示,开会时间越长的人赚得越多。但这并不能保证开会时长与收入之间必然的因果关系:如果你安排了一堆会议,却不改变工作期间的其他方面,那么你将很难提高你的收入。

1474029147-2490-3417eb9bbd901942fe9f35
从写代码的时长来看,收入中位数最高的是每周写代码4-8小时的小组,收入最低的是完全不写代码的。值得注意的是,今年只有8%的人表示他们从不写代码,而去年有20%。可见写代码已经是数据科学家不可或缺的一部分工作。

▍学习不同语言收入差别很大,选择要谨慎

SQL、Excel、R以及Python是使用最为普遍的几个工具;而Python跟Spark是对从业者薪酬贡献最大的两个工具。

1474029147-8793-3417eb9bbd901942feb036
根据调查结果形成的这张图能够很好地估算拥有不同计算机语言能力组合的人挣钱能力的差距,但报告也提示:最好不要依据它来决定你接下去需要学习哪种语言。

你需要关注的问题是:哪种语言能帮你完成你的工作?

比如,如果你所需要分析的数据量都不足以填满你的本地内存,那么学习操作分布式计算的语言就不能够帮助你涨薪。

报告给你提供了下面几个序列的学习套路:

1474029147-8554-3417eb9bbd901942febd37
你还需要知道:

1.学习了一个序列的前几种语言后,学习者通常会继续学习这一个序列后面的语言;

2.学习者按照序列进阶到下一种语言,涨薪幅度将高于他进阶到其他种类的语言。

来源:DT财经

附:2016数据科学从业者薪酬报告

]]>
数据科学中的非数学特征工程技术 //www.otias-ub.com/archives/517144.html Tue, 13 Sep 2016 15:32:35 +0000 //www.otias-ub.com/?p=517144 “应用机器学习像是把你当一个伟大的工程师,而非伟大的机器学习专家。”

这是我在一份谷歌内部文件中读到的如何应用机器学习的第一句话。的确如此。以我作为服务器工程师/数据分析师的有限经验,数据(以及如何存储/处理)一直都是所有问题的核心,在整体中举足轻重。去问问任何一位Kaggle的获胜者,他们都会说,最大的收获总是来源于聪明地表示数据,而不是使用某些复杂的算法。即使CRISP数据挖掘处理也使用了不是一个,而是两个阶段,专门用来理解和准备数据。

◆ ◆ ◆

特征工程

那么,什么是特征工程?

简而言之,就是用最好的方法来表示数据的艺术/科学。

为什么说是艺术/科学?因为好的特征工程是专业知识,直觉和基础的数学能力的优雅组合。呃,最有效的数据表示法基本不包含任何数学计算(下文我会解释)。“最好的”是什么意思?大体上,提供给算法的数据的方式,应该以最有效的方式表示潜在信息的相关结构/属性。当你进行特征工程时,你是在把你的数据属性转化为数据特征。

属性基本上是数据的所有维度,但是所有这些以原始形态存在的属性是否以最佳的表示方式表示了你想学习的潜在趋势?也许不是。所以特征工程是对数据进行预处理,在此基础上进行建模/建立学习算法,从而可以花最小的力气处理噪声数据。在此“噪音”的含义是,任何与学习/预测你的最终目标无关的信息。实际上,由于你已经自己完成了一部分“思考”的工作,使用好的特征甚至可以让你使用简单得多的模型。

但是就像任何机器学习中的技术一样,一定要通过验证确保你引入的新特征确实能够改进预测,而不是增加不必要的复杂性。如果机器学习是发型:模型—华丽的,装饰的,不易打理的,特征工程—接地气的,即兴的,直接的。

如同之前提到的,好的特征工程包含直觉,专业知识(个人经验)和基本的数学技巧。以下是几个非常简单的技巧,你可以应用在你的下一个数据科学解决方案中。

1.表示时间戳

时间戳属性经常是用EPOCH时间来定义,或者分离到多个维度里,比如(年,月,日,时,分,秒)。但是在很多场合下,很多信息是不必要的。比如,在一个监督学习系统里,预测一个城市关于地点+时间的交通流量,如果以秒来发现其趋势,很有可能得到错误的结论。以年为单位对这个模型来说没有太多价值;小时,天和月可能是你需要用到的维度。所以,当表示时间时,试着去确认一下你的模型是否需要你所提供的所有数字。

别忘了时区。如果你的数据源自不同的地域,务必记得在需要的时候用时区做标准化。

2.分解分类型属性

有的属性是种类而非数字。一个简单的例子是“颜色”属性,比如{红,绿,蓝}之一。最常见的表示方法是将种类转化为二元属性,从{0,1}中二取一。于是你得到了一系列增加的属性,数目与种类的个数相等,而且在每个数据点的这一系列属性中,只有一个的值是1(其余的都是0)。这是一种独热编码形式。

如果你第一次接触到这个概念,你可能会认为分解属性是平添了不必要的麻烦(本质上我们扩大了数据集的维度)。相反,你可能更愿意将种类属性转变为一个标量值,比如,颜色特征可能用{1,2,3}代表{红,绿,蓝}。这会带来两个问题。第一,对于一个数学模型,这个可能表示“红色”比“蓝色”更接近“绿色”(因为|1-3|>|1-2|)。除非你的种类的确包含自然顺序(natural ordering)(比如一条火车线路上的车站),否则的话这种表示法可能会误导你的模型。第二,它可能导致统计学参数(比如平均值)失去意义。甚者,造成误导。再次考虑颜色的例子,如果你的数据集包含同样多的红色和蓝色值,而没有绿色值,取平均值仍会得到“2”——代表着绿色!

将种类属性转化为标量值最安全的情况是当你只有两个种类时。这样你就有了{0,1}对应{种类1,种类2}。这种情况下,“次序”不是必要的,并且你可以将属性值解读为属于种类2抑或种类1的概率值。

3.数字分组

有时候,将数字属性表示成分类属性也是一种有效的分析方法。这种方法通过将数字分段划组,来减少噪声对机器学习算法的干扰。比如说,如果我们要预测一个人是否拥有某一件特定的衣服。显然年龄是一个影响因素。实际上年龄组可能更加恰当一些。所以我们可以给年龄分段,比如1-10岁,11-18岁,19-25岁,26-40岁等。对于这样的分类,我们便没有必要像第2点所说的那样再去做类别内的分解,直接用标量值划分组别就可以了,因为相近的年龄组确实是有相似之处的。

属性域能被清楚归类的数据,其同一区间的数字能够代表相同的特征,分组这种方法就比较适用于这样的数据。如果你不想让你的模型区分太相近的数值,这种方法可以减少一些应用中的过拟合问题。比如说,如果你的关注点是一整个城市,你就可以把该城市所有的纬度归到一起。分组这个方法通过将数值”化整”到离它最近的典型数值,来减少微小错误带来的影响。不过,如果分组数量与你的可能值数量相当,或者你要求很高的精度,那么数据分组就没有什么意义了。

4.特征交叉

特征交叉也许是这些方法中最为重要和有用的一种了。这种独特的方法可以将两个或两个以上的类别属性组合成一种。这个方法非常有用,尤其如果相对于单个属性本身,与其他属性的结合能更好地表示某些特性。从数学上讲,是把所有这些属性的可能值做了叉乘。

若某特征A的值域为{A1,A2},特征B的值域为{B1, B2}。A和B之间的交叉特征(我们称之为AB)则是以下这些值中的一个:{(A1, B1),(A1, B2), (A2, B1), (A2, B2)}。你可以自由命名这些“组合”,任何一个组合都代表了A或B特征中的某些信息的合成。

比如以下图表:

1473780742-6002-94de80684e4419408cb408
 
所有蓝点属于一类,而红点属于另一类。我们暂且不用知道这个模型的真实意义。首先,你需要把X的值域划分为{x < 0, x >= 0},把Y的值域划分为{y < 0, y >= 0},并把它们分别表示为{Xn, Xp} 和 {Yn, Yp}。显然,第一和第三象限属于红色,而第二和第四象限属于蓝色。如果我们把X和Y做特征交叉,并把结果归类为”象限”这个统一的特征,我们就有了{I, II, III, IV}四个值,分别等同于之前提到的{(Xp, Yp), (Xn, Yp), (Xn, Yn), (Xp, Yn)}。

另一个更加具体也更加相关的好例子是经纬度。一个常见的纬度值与世界上很多地方都有关联,经度也是这样。但是如果你将经纬度相结合,并划分到不同的“区块”,它们就可以代表地理上的“地区”,各个地区内部有着相似的特性。

有时候,多个数据属性可以通过简单的数学计算被“组合”成一个新的特征。在上一个例子中,假设你把特征重定义为和

1473780742-9941-94de80684e4419408d5e0b
 
那么现在你可以定义一个全新的特征

1473780743-2944-94de80684e4419408dd00e
 
就这么简单1473780743-6161-94de80684e4419408de20f,如果,则是红色,反之则是蓝色。

作为补充,我接下来将简单介绍几个数学上比较复杂的特征工程技巧,并附带了链接以便大家更好地理解。

5.特征选取

运用某些算法来自动选择原始数据特征中的一个子集,以建立最终模型。你不需要建立/修改现有的数据特征,而是对它们进行删减,来降低干扰,减少数据冗余。

6.特征缩放(数据标准化)

有时候,你可能会注意到有些属性的数量级比别的属性更大,比如一个人的收入,相对于他的年龄而言。在类似的情况下,有些模型(比如岭回归)就要求你把所有的属性都缩放到一个可比较的、同等的范围内。这可以防止某些属性被给予过多的权重。

7.特征提取

特征提取包含了许多算法,它们能够从原始数据属性中自动生成新的特征集合。数据降维是这类方法里的一种。

来自:大数据文摘

]]>
林漳希:新兴中的数据科学与工程(附PPT) //www.otias-ub.com/archives/499399.html Mon, 25 Jul 2016 10:19:31 +0000 //www.otias-ub.com/?p=499399 本文讲稿速记和PPT由来自德克萨斯理工大学商业智能研究中心的林漳希老师和首届大数据应用大会·经济大数据分论坛承办方塔塔经济大数据联合实验室授权获得,大数据文摘(bigdatadigest)和数据派(datapi)联合发布。速记内容有删改。

1469441887-8828-3417eb9bbd5918ffe6a33c

1469441887-4711-3417eb9bbd5918ffe64f20

1469441887-9540-3417eb9bbd5918ffe65021

1469441887-8755-3417eb9bbd5918ffe65022

1469441887-2136-3417eb9bbd5918ffe65023

  谈谈如何重新认识大数据,接着我要分别强调一下数据科学和数据工程,这是这个报告的要点,我想从一个具体的案例分析说起,最后一点谈谈如何重构大数据的价值。

1469441887-2116-3417eb9bbd5918ffe65124

1469441888-8755-3417eb9bbd5918ffe65125

  我们对大数据的认识,如同一个人在成长过程中对人生的认识,可以用德国文学家歌德的著名短篇小说“少年维特之烦恼”来比喻。在2010年起的短短几年中经历了觉察、憧憬、定义、实践等过程,在读过少年青春期的躁动之后,现在开始进入价值实现的时期。

1469441888-4436-3417eb9bbd5918ffe65126

1469441888-1628-3417eb9bbd5918ffe65227

 现在大数据的领域面临一个现实的大问题,我们开发了那么多技术,有那么多好算法,囤积了那么多数据,那么我们怎么获得数据价值?我们如果能继续获取更多价值,那么数据的不断存储和囤积是有用的。但是即使你有了一笔数据,不等于你有了一切,因为数据是在不断变化的,你如果不生成新数据,那么老数据价值会慢慢减低。所以在目前大家认可的数据是有价值这个基础上,还要补充一点,就是一个动态增长的数据体系是获得数据更高价值的保证。

如这张源于IBM的图所示,获取大数据价值核心是由中间五个公共应用部分来实现的:大数据探索、安全和风险预警、数据仓库能力增强、运维和运营分析和360度全方位客户分析,这些可分享的功能可以应用在外面这一圈不同的领域中。在这里面,数据科学和数据工程起到重要作用,只用通过数据科学家和数据工程师的努力,不断增长的数据才能转化为源源不断财富。

1469441888-4966-3417eb9bbd5918ffe65228

1469441889-3456-3417eb9bbd5918ffe65329

  今天,数据科学已经不再是新鲜的概念,我国一些大学已经有了数据科学研究院,如清华大学和天津大学,而在硅谷早已经有很多公司都成立了数据科学的部门。这是因为数据科学和已经广为应用的商务智能是一脉相承的,而商务智能已经发展了20年了。怎么把数据转化为信息,信息转化为知识,知识转化为见识,再把见识转化为决策是非常重要的。这个数据科学应用的流程实际上就是商务智能的流程。

1469441889-8069-3417eb9bbd5918ffe6532a

  我这里介绍一个例子-北京1039交通台样本数据,这数据非常小,是通过北京市给一万多个出租车司机一人发一个手机采集来的,手机上有GPS,这里作为例子所展示的信息是汽车所在地点和时间,变量很少,但是我们可以看看这样简单的信息能给我们提供什么样的分析结果。

1469441889-1996-3417eb9bbd5918ffe6532b

  这是在某一时刻汽车位置图,是根据浮动车辆在同一时刻的位置画出来的。根据这个位置图,如果在下一个时刻可以知道某辆汽车的新位置,就可以知道这部车移动多少,那么距离÷时间就是速度。由此可以得到所有车辆的车行速度,然后就是动态的汽车分布和密集度。通过对某个时间段数据的汇总,我们还可以看到车辆的活动范畴和活动规律。

1469441889-1059-3417eb9bbd5918ffe6542c

  在这个分析基础上可以获得导航的信息,优化公共交通,以及对车辆异常行为进行监控,从而对社会安全动态可以进行动态监测,还有电子商务,广告等等都可以跟进。如果落实到每一个车,可以根据车辆活动范围和行为特点提供车辆保险需要的信息,再细到谁在开车,细到车辆的运行状况,把这些放到一块,那么这里面的价值就非常大。难怪交通大数据一直是国内外关注的问题。除了现在百度地图,高德地图的各种应用之外,这些数据到底还能用在哪里呢?已经有很多商业方面的探索,例如清华同方在成都的分公司就是在做车联网和汽车保险的关联,上海通联数据从2013年起也在做这方面的工作,但是详细情况不得而知。以上这些应用项目其实都是大家已经比较了解的情况,在这里谈到这个例子,是为了强调数据科学和工程在数据的价值提取中的重要作用。

1469441889-8109-3417eb9bbd5918ffe6542d

  这里再举一个例子,IBM上海研究院几年前为肯尼亚的M-Pesa做了一个移动银行的信用评估项目,肯尼亚M—Pesa是世界上最大的移动银行系统,后来要推出移动信贷服务业务。肯尼亚手机用户在小额贷款上有很大需求,贷款额一般不超过一百美元,月息可以达到5%。IBM所做的这个项目是要用手机的移动信息做信用评估,但是要怎么评估这些用户的信用呢?其中一个诀窍就是把实际位置信息和地标信息做关联。但是IBM上海研究院拿到这个数据时遇到一个很大的问题,就是肯尼亚的用户用的大都是非智能手机,没有GPS的地理位置信息,只有移动中和哪一个基站相关联的信息。IBM花了近三年时间解决了这个问题,搞出一个不错的信用评估模型,这个项目的成功靠的是数据科学与工程。同样的,宜信在这方面做了大量工作,宜人贷去年上市和他们公司的大数据分析应用非常相关,其中一个应用分析模块是和手机地理位置信息分析相关联的。

1469441889-5963-3417eb9bbd5918ffe6542e

  数据科学可以做什么呢?归纳起来,数据科学在数据质量诊断和问题处理,数据资源整合和价值发现,数据建模和模型性能评估,数据降维,商业价值实现等方面扮演着重要角色。在图的右边是关于数据科学所需要的基本技能的一个调查结果,从网上刊登的一篇文章转债的,可以看到,统计方面技能占了十大技能的一半。

1469441890-3758-3417eb9bbd5918ffe6552f

  数据工程相对于数据科学还提得比较少,但是现在我们发现数据工程在大数据应用中的地位变得越来越重要。数据工程在数据科学和大数据之间扮演着十分重要的作用,没有采用数据工程的方法来采集、清理、处理、管理大数据,再好的数据科学方法也难以施展。

1469441890-6571-3417eb9bbd5918ffe65530

  这是美国积累多年的数据框架和方法论,上面分了很多细节的问题,底下的两层是和数据工程密切相关的。当我们通过集成统计、数学、计算机等知识系统地训练数据科学家时,我们却缺少同样的体系来培养优秀的数据工程师。对数据科学和工程的综合人才培养,目前我只查到有一个学校办了数据科学与工程硕士点,就是清华大学,其他学校的我暂时还没有看到。

1469441890-3207-3417eb9bbd5918ffe65531

  数据工程是和业界的实际应用紧密关联的,而我们的大学讲课的内容和实践比有很大滞后。比如数据湖这个概念,大学里有多少学校在介绍数据湖呢?这个概念刚刚提出两三年时间,现在业界已经广泛应用与大数据管理。通常的数据管理和应用,我们有面向生产的业务数据库,在ODS经过预处理以后加载到数据仓库,完了以后,各个部门通过导入这些数据到自己的数据集市,提供本地的数据分析应用。实际使用中,这些来自生产部门的数据是不够用的,很多部门还自己采集外部数据作为补充,比如银行的市场营销部除了银行的数据之外还会搜集其他的行业数据,这些数据不来自业务数据库,也不会包括在公司数据仓库里,所以形成了本部门很混杂的数据群,而一个公司里的这类数据加在一起就形成了一个很大但是没有很好地协调管理的数据集群,这就提出了公司内部数据治理的一个课题。在这个问题上我们面临的问题就是要解决大数据的管理问题,你必须要有一个全面的大数据存储和管理的架构,你要先把整个数据体系设计好,然后才有可能把各种渠道采集来的数据存储好,才有可能充分共享,并在在上面提炼到所需要的东西,这个任务就是数据工程的很重要的一个部分。数据湖技术在这里扮演着重要角色,相信很快就会再中国普及。

1469441890-7843-3417eb9bbd5918ffe65632

  数据工程涉及的内容挺多,其中要求数据工程人员对于业务工作了解足够深入,基本技能有数据逻辑思维,数据查错能力,计算机数据处理能力,统计分析和采样技术,等。其中在数据处理上,我们中很多过来的人会有共同的体验,比如国家发改委的经济信息中心系统从1980年代初第三次人口普查开始形成,在这个系统里的很多人在长年累月的数据处理中获得很多技能,而这些技能是大学里从来没有学过的,需要在实践中摸索体验,所以一般大学出来的都要一到两年才能逐步上手。到现在,大学的计算机课程教学还是没有数据处理这个内容。我们说游泳要有水性,做数据要有数据性,在这方面人才怎么培养是一个问题。

1469441890-9459-3417eb9bbd5918ffe65633

  在前面谈了数据科学与工程的定义和重要性的基础上,接下来就是大数据价值体系重构问题,我们已经认识到大数据非常有价值,但是如何实现大数据价值,最终还是需要合适的人来做,套用名人的说法“数据战略决定之后,人才就是决定的因数”。重构大数据价值体系的关键在于重构大数据人才培养体系。

1469441890-3280-3417eb9bbd5918ffe65634

1469441891-4299-3417eb9bbd5918ffe65736

  这是各个行业数据科学家的比例。

1469441891-8170-3417eb9bbd5918ffe65737

  对数据科学家的需求在不断的上升,未来五年需要50名有素质的数据科学家,缺口高达19万,还需要150万名了解数据的高管和人员。

1469441891-9813-3417eb9bbd5918ffec6e3f

  作为一个企业大数据的主管,可以查查你的企业是否能够应对这些挑战。就是说你的大数据团队能够胜任这些任务吗?你的科学家和工程师,还有你的系统技术人员能支撑你的关键技术吗?对于一家公司来讲是否有能力制定数据发展战略和制定企业的数据治理方案,是不是有能力把数据整合以后,而且能把整合后的资源转化为你的生产力,使你的业务能力大大提高,这是一个很重要的问题,我现在接触到很多公司高管,不管在北京、上海、成都、福建,都提到一个共同的问题 – 我们缺人。包括阿里巴巴也缺人,腾讯也缺人。大家缺的是数据科学与工程的高端人才。

1469441891-7697-3417eb9bbd5918ffe65838

  所以在缺人的情况下我们必须要有人做知本家,知识的资本家。要有知本,我们在教育方面一定要提升。大数据价值实现要解决的核心首先是人才培养,这些人才可以解决大数据价值获取的问题。因此我们需要数据战略家,需要数据科学家,还需要数据工程师。

1469441891-6730-3417eb9bbd5918ffe65839

  我设想的人才结构分四个梯次,战略型、研究型、研发型、和创业型。这四个梯次可以用类似智库、产业研究院和创新工厂的组合形式来实现,由高校提供基本人才,通过面向产业化的研究院,由创新实验室研发成功项目,再进入新创企业。在高地上的人才指的是智库的人才,在沙滩上的人就是愿意下海的人,他们对产业东西很了解,同时得到智库的指导,但是他们并没有下海,而涉水的则是那些直接给公司提供服务咨询,但是还没有开始创业,他们在条件成熟后就可以下水游泳,那些跳下去游泳的,也就是下海的,专职创业。现在很多创新和产业孵化机构已经在做这些事情,但是一般强调的是项目,我这里强调的是人才。

1469441892-9063-3417eb9bbd5918ffe6583a

  这个四阶段人才应该纳入一个体系中,针对大数据领域的特点,形成一个数据科学与工程的人才供应链,和大数据产业结合成一个有机的生态系统。在图中这么一个体系结构中,大数据产业联盟的地方应该是例如塔塔数据的位置,当然包括其它公司和研究机构,核心部分是数据科学与工程研究机构,它们不是纯粹的研究机构,是面向产业化的研究机构,就有点像清华数据科学研究院这类性质的,直接和企业挂钩,同时背靠大学,同时要和其他资源对接起来。

1469441892-2129-3417eb9bbd5918ffe6593b

]]>
企业组建数据科学团队指南 //www.otias-ub.com/archives/467345.html Wed, 27 Apr 2016 13:35:42 +0000 //www.otias-ub.com/?p=467345

Jeremy Stanley 是日用杂货当日送达初创企业 Instacart 主管数据科学的副总裁,Daniel Tunkelang 是前 LinkedIn 的数据主管。作为在数据科学领域身经百战的老将,他们在这篇文章中为那些想打造一支属于自己的数据科学团队的公司 CEO 们提供了一些建议,主要涵盖了这几个问题:数据科学为什么对很多创业公司如此重要?公司应该在什么时候在数据科学方面进行投入?应该将数据科学团队放在公司里的什么位置上?如何营造一个尊重数据科学的文化氛围?

 

你可能很难相信,“数据科学家” 在 2008年 才开始成为一个真正意义上的职业头衔。当时,为了迎合市场对数据分析、工程学和产品这种跨学科技能人才日益增长的需求,Facebook 的 Jeff Hammerbacher 和 LinkedIn 的 DJ Patil 率先提出了 “数据科学家” 这个概念。今天,市场上对数据科学家的需求极其旺盛,越来越多的公司都想更好地了解如何打造一支属于自己的数据科学家团队。

作为在数据科学领域身经百战的过来人,Jeremy Stanley 和 Daniel Tunkelang 已经见识了不同行业的不同公司在不同发展阶段在打造数据科学家团队方面的成功和失败案例。他们发现,这里面的挑战不仅在于如何招聘顶尖的数据科学家,还包括如何最大限度地发挥他们的价值,以及如何在日趋激烈的人才竞争中留住他们。

在这篇文章中,我们为那些想打造一支属于自己的数据科学团队的公司创始人提供了一些建议。数据科学为什么对很多创业公司如此重要?公司应该在什么时候在这方面进行投入?应该将数据科学团队放在公司什么位置上?如何营造一个尊重数据科学的文化氛围?

第一个问题:你想实现什么样的目的?

数据科学主要有两个方面的功能:一是改善用户所使用的产品;二是为公司决策提供支持,改善决策质量。

  • 数据驱动型产品利用数据科学和工程学来持续改进产品性能,例如,提供更好的搜索结果、更个性化的推荐等等。
  • 数据决策科学利用数据来分析业务指标,例如增长数据、用户黏性数据、盈利点和用户反馈数据等,从而为制定公司战略和关键性的业务决策服务。

两者的区别可能看起来非常显而易见,不过在打造和扩充自己的数据科学团队的过程中,记住这两者之间的区别非常重要。接下来我们就详细探讨这两点。

利用数据科学打造更好的产品

数据产品可以利用数据科学去提升产品的性能表现。他们依靠的是这样一个良性循环:产品搜集用户使用数据,这些数据成为算法素材后再反过来为用户提供更好的产品使用体验。

那么在搜集到数据之前是怎样的呢?你的产品的第一个版本必须解决数据科学称之为 “冷启动” 的问题,也就是说产品的初始版本必须提供足够好的体验才能够启动 “数据搜集—数据驱动产品提升” 这个良性循环。要想做到这一点,这就需要依靠产品经理和工程师制定足够好的解决方案。

例如,当用户打开 Instacart 应用的时候,这款应用会在 “再次购买” 栏向自动给用户展示他们最近购买过的日用杂货品。这是一个用户很喜欢的功能,不过它几乎用不到数据科学或是需要足够多的数据来支撑。只有当我们为用户推荐一些他们之前没有购买过的商品的时候,这时数据科学才能发挥它真正的作用。

例如,要向 A 用户推荐他之前从未购买过的商品,这就需要数据科学家对所有用户的购买行为进行分析,从而确定和 A 用户比较类似的 B 用户,然后再根据 B 用户过去的购买行为来为 A 用户推荐商品。这就是数据科学利用数据创造价值、从而使用户更容易地发现他们自己可能没发现的好产品的一个案例。

为了改善产品,数据科学家必须和工程师进行持续而紧密地合作。此外,你还需要决定是产品科学家自己去落实产品改进方案还是与工程师一起去落实。这两种方法都可以,不过最好能对其进行规定,让它成为公司员工人人皆知的一个流程与规范。

使用数据科学为做出更好的决策提供支持

数据决策科学利用数据分析与可视化来为公司业务和产品决策提供支持。公司里可能谁都有可能是决策者,例如产品经理对如何制定路线图的优先级进行决策,公司高管对公司层面的战略性问题进行决策。决策科学问题涉及的范围很广,不过它们有一些共同的特点。

第一,它们是公司之前尚不需要解决的一些新问题;

第二,它们通常是主观性的问题,需要数据科学家在有未知变量和缺少上下文的情况下处理的问题;

第三,它们通常是非常复杂的问题,问题的不同部分之间缺少明确的因果关系。与此同时,决策科学问题又是可以衡量且影响非常重大的,做出决策后能对业务产生具体而重大的影响。

上面说得听起来很像数据分析,事实上,数据分析和数据决策科学之间的差别并不是一直都非常清楚的。不管怎样,决策科学要做的事远不限于仅仅是制作报告和图表。数据科学家不应该做那些利用市场上现有的商业智能工具就能完成的工作。

在 LinkedIn,公司管理团队就曾利用数据决策科学做出一个非常关键的商业决策:有关在搜索结果中其他会员资料的可见性。在之前,只有付费用户才能查看自己三度人脉网络里成员的全部资料。这种可见性规则非常复杂,LinkedIn 想对其进行简化,但同时又不想影响自己的营收。其中的风险还是很大的。

最后提议的可见模型是对非付费用户每月的使用进行限制。LinkedIn 的决策科学家利用用户历史行为来预测这个改变对营收和用户黏性可能会造成的影响。这个分析必须在一个模型上推断过去的行为从而在另一个完全不同的模型上预测用户未来的行为。结果证明,新的可见性规则不仅对公司业务产生了积极影响,同时也让数百万用户更加满意我们的产品,它还帮我们卸下了之前产品开发中规则过于复杂的沉重负担。有些用户抱怨新的可见性规则方面对查看资料上做出的限制,然而这部分人正是 LinkedIn 认为应该付费使用自己产品的用户。在数据决策科学的帮助下,这个项目非常成功。

并不是所有的决策都需要依靠数据决策科学。有些决策太无关紧要,所以不值当在数据决策科学上进行大量投入。还有一些决策可能非常重要,但缺乏需要的数据对其进行有意义地分析。在这种情况下,就需要依靠直觉和实验。

数据决策科学和数据产品需要的技能有的是类似的,很少数据科学家能在这两个方面都非常擅长。数据决策科学依靠的是业务和产品感觉、系统思维能力和优秀的沟通能力。数据产品需要的是机器学习知识和产品级别的工程技能。如果你的数据科学团队规模还很小,你可能需要找一个在这两方面都比较擅长的超级英雄。当团队规模慢慢变大后,你最好能招在这两个方面分别比较擅长的人才。

1461764106-1672-iatSn0ltZaSKribGzqw1Ol5RGmSw

你是否应该在数据科学上进行投入?

数据科学并不适合所有公司。只有当它对公司成功与否至关重要时,你才需要在数据科学上进行投入。在你决定是否投入打造一支数据科学团队之前,建议先问自己下面这四个问题:

(1)你决心利用数据科学来为制定战略决策服务或是打造数据驱动型的产品吗?

如果你还不确定是否会利用数据科学为制定战略决策服务或是打造数据驱动型的产品的话,那么建议暂时不要招聘数据科学家。

只有当你决心打造一个数据驱动型的决策文化时,数据科学才能更好地为制定战略决策服务。你可能并不是一开始就需要它,不过要招到合适的数据科学家是需要一定的时间的,让数据科学家了解你的数据和业务同样是需要一定的时间的。在你打算利用数据科学驱动决策之前,这些工作都需要提前做。

数据驱动型产品可以通过利用数据持续改善和优化产品,从而创造更多的价值并取悦更多的用户。如果你这些在你的产品路线图上,那么你应该尽早招数据科学家进来。数据科学家可以在产品设计、数据搜集和系统架构等方面做出关键性决策,这对于打造一款真正优秀的产品非常重要。

(2)你能够搜集到你需要的数据并且让数据驱动行动吗?

公司的创始工程师可以依靠很少产品和设计指导的情况下就能开发一个最小可行性产品。数据科学则需要大量的数据。推荐系统依靠监测你的产品来追踪用户行为,优化业务决策则需要依靠对关键性的活动和输出进行精密测量。

光搜集数据是远远不够的,只有数据能够真正驱动行动的时候,数据科学的价值才能显现。数据应该去推动产品的迭代完善,同时能够驱动公司的关键绩效指标(KPI)。

为了真正落实这一理念,这就需要在全公司范围内明确每款产品需要搜集什么数据,同时制定清晰的搜集和维护数据的架构和流程。这需要数据科学家、工程师和产品经理的协同配合,而所有这些又都需要管理层的支持和承诺。同样的道理,数据驱动型决策也需要公司 CEO 自上而下的支持和决心,确保全公司都能决心依靠数据来做决策,而不是依靠依靠职位高的人的意见进行决策。

(3)你搜集的数据里有足够多有用的信号来帮你获取有意义的见解吗?

很多人将大量数据和数据科学等同起来,然而数量并不是一切。真正的数据科学是从噪音中的数据里提取有用的数据信号。

有用的信号不光取决于数据量的大小,还取决与信号和噪音的比例。举个例子,一个广告产可能会从数十亿的广告曝光中搜集数据,然而只有少数用户与广告互动的情况下才是真正有用的数据信号。因此,通常情况下大量的数据只能产生少量有用的信号。

(4)你是否需要让数据科学成为你的核心竞争力,或是否可以将数据科学工作外包出去?

要打造一支数据科学团队是非常困难而且是需要大量资金支持的。如果通过外包就能完全满足你在数据科学方面的需求的话,那么不妨将这项工作外包出去。有人建议可以明智地利用外部的顾问来做这项工作,不过还有一个更好的建议,那就是通过利用市场上现有的产品和解决方案来获取数据、创建模型、实现自动化操作并给出关键的分析报告。它可能不是专门为你的需求量身定制的完美解决方案,不过为了能快速推进业务、同时能够让核心团队成员专注在能创造最多价值的工作上,在这方面做一点点妥协也是值得的。

你什么时候需要将数据科学作为自己的核心竞争力呢?如果数据科学正在解决对你能否成功起着至关重要作用的问题的话,这时你就不能将这项工作外包出去了。市场上现有的解决方案很多时候也非常死板不灵活。如果你的公司正在尝试利用一种独特的方法解决一个新问题的话(例如搜集全新类型的数据或是以全新的方法使用数据),这时市场上现有的解决方案可能就无法满足你的需求了。

1461764106-6728-WPbKyNiaVVwQdiaC2PhY8agIzZcQ (Jeremy Stanley 在位于旧金山的 Instacart 总部)

那么你什么时候应该开始组建数据科学团队呢?

数据科学,首先需要足够多的数据才能开展下面的工作,而大部分公司一开始并没有足够多的数据的。

在招聘数据科学主管或组建数据科学团队之前,要确保你有工作可以让他们可做。同时,你需要尽早开始搜集一些关键数据,一旦你准备好之后,数据科学团队就可以立刻施展身手、发挥作用。

如果你还没有数据,这时谁负责决定该搜集什么样的数据、何时搜集数据呢?这个决策者并不一定需要是数据科学家,但最好是能了解不同数据集的潜力且能够做数据投资策略决策的人。如果你已经知道自己将会花很多的时间和金钱在数据的获取上,这时你或许就应该做一些少量的投入去招聘你的第一个数据科学家了。

可能你现在立刻就需要数据,因为你的业务就是提供数据产品。然而你的最小可行性产品可能并不是数据驱动型产品。这时你只能将赌注压在你的直觉上,看你的直觉是否能为市场所验证。在这种情况下,过早地在数据获取和数据科学上进行投入只会浪费你宝贵的资金和时间,这些时间和金钱应该用在将最小可行性产品推向市场上。一旦你有可供数据科学家处理使用的数据后,同时也决心投入大量的产品、工程和业务资源来支持你的数据科学工作的话,这时,你就应该快速组建一支数据科学团队了。

要在公司在灌输一种重视数据的文化,越早越好。从用户获取到产品发布再到收购,所有这些重要决策都应该基于数据而非大家的意见。将数据科学引入公司的另一个好处就是它能够让大家认识到数据是公司的一级资产。

一次成功的产品发布应该是能否帮你搜集足够多的数据供学习的。如果让我们给出一个最重要的建议的话,那就是:在你验证了你的最小可行化产品(MVP)之后,这时你就应该考虑在数据科学上进行投入了。

你应该将数据科学团队放在公司里的什么位置上?

你将数据科学团队放在公司里的什么位置上,这对团队以及整个公司的业务都会产生很大的营销。目前有三种方法:一个完全独立的数据科学团队,嵌入型团队,完全整合型的团队。每种方法其实都各有利弊。

(1)让数据科学团队完全独立

在数据科学团队完全独立情况下,这个团队和其它诸如工程团队是并列的。数据科学团队的负责人可能会想产品 / 工程副总裁、甚至是 CEO 直接汇报工作。

这种独立模式的优势的它有充分的自主权。这种数据科学团队可以自主决定解决它认为最有价值的那些问题。作为一个完全独立的团队存在还有另外一个象征性的优势,就是它彰显了公司是将数据视为一级资产的,这有助于公司吸引更多顶尖的数据科学人才加入。

这种独立的模式对于那些决策科学团队尤其有帮助。尽管基于数据决策的科学家是和产品团队紧密合作的,不过他们独立的身份可以帮助他们更好地做出艰难地决策,例如可以告诉产品经理他们的产品指标还不够好,所以暂时还不能发布。

这种作为一支独立团队存在的模式的弊端就是它可能会面临被边缘化的风险。随着公司里产品团队规模慢慢扩大,他们经常倾向于一切都能自给自足。虽然他们可以从与数据科学家的合作中受益,但产品团队还是不希望依靠他们自己无法彻底掌控的资源。他们想一切都能依靠自己,为此,产品团队甚至会以招聘 “研究工程师” 的名义招聘自己的数据科学家,这样他们什么就可以掌控了。如果产品团队拒绝和独立的数据科学团队合作的话,那么数据科学团队就面临被边缘化的风险,无法发挥应有作用。这时很多优秀的数据科学家也将离你而去。

LinkedIn 最初的数据科学团队也是一个独立的团队,自主性让这个团队在 LinkedIn 的很多产品上都做出过关键性的贡献,从提升 “你可能认识的人” 的推荐质量到有效监测虚假账号等等。然而随着 LinkedIn 规模日益壮大,作为独立团队的数据科学团队与产品团队的有效协作变得越来越难,尤其是当产品团队后来自己招聘了具有和数据科学团队类似技能的工程师后更是如此。最终根据实际需要,LinkedIn 决定不再将数据科学团队作为一个独立的团队。

(2)让数据科学团队作为一个嵌入型团队

在嵌入型模式下,数据科学团队将人招进来后,会将这些人派遣到公司不同部门和项目中去。这时虽然还有一个数据科学主管,但他 / 她充当的主要是招聘经理和指导员的角色。

作为一种嵌入型团队,为了确保团队成员效用,它放弃了自主权。最好的情形是,数据科学家分别加入最需要他们技能的产品团队中,帮助解决公司内存在的一系列问题。

这种嵌入型的团队模式当然也是有自己的弊端的。并不是所有数据科学家都愿意放弃自主权(事实上很多都不愿意放弃)。数据科学家的职位描述里非常看重创意和首创精神,然而作为一个嵌入角色,通常要求他们完全服从被嵌入团队的主管的领导。

还有就是,作为嵌入团队成员,这会让数据科学家感觉自己是个 “二流公民”,被嵌入团队的领导会认为自己不应该对这些安插到自己团队中的数据科学家的职业发展负责,而数据科学团队主管也会认为这些人不直接归自己管理。我们发现很多公司采用的都是这种方式,其实只有当你的数据科学团队规模比较大时才适合采用这种方法。

(3)完全整合型

在完全整合型的模式里,已经没有单独的数据科学团队了。事实上,这时是由产品团队自己去招聘和管理自己需要的数据科学家。

完全整合型有利于公司内部合作。让数据科学家成为产品团队里的 “一流人员” 解决了独立团队和嵌入型团队的一些弊端。这时,数据科学家、软件工程师、设计师和产品经理都围绕共同的产品目前通力协作,让大家更有团队意识,有效避免团队内部出现缝隙。

然而完全整合型模式的弊端是它稀释了数据科学家的身份。每一个数据科学家都只能与所在的产品团队相关联,而没有一个集中式的数据科学团队。此外,这种模式没有嵌入型团队模式灵活,因为在完全整合型团队模式下,你更难根据每个数据科学家的兴趣和技能对他们进行灵活调动。最后,完全整合型的团队模式也给数据科学家的职业发展带来了挑战,因为每个数据科学家所在的团队的领导可能并不能客观地评估他们的价值或是奖励他们取得的成绩。

在 Instacart,数据科学家就是完全被整合进产品团队的。每一个产品团队都有自己的工程师、数据科学家、设计师和产品经理,工程师和数据科学家都向技术主管汇报工作,而技术主管自己可能并不是工程师或数据科学家。这个组织结构保证了工程师和数据科学家能够紧密合作,他们可能做任何有助于实现所在团队目标的工作。而作为数据科学副总裁,Jeremy 主要为数据科学家和他们的团队领导提供指导。

上面介绍的三种模式各有利弊,你必须确定哪种方法适合自己的公司情况,并且做好根据实际需要实时调整的准备。有时候最好的方法不是一个单一的模式,而是混合模式。

1461764107-5912-csh3FZfFWJWrIicNCxpMQiajMZkg
(图中是 Daniel Tunkelang)

如何打造一个尊重和重视数据科学的公司文化

随时公司规模的不断壮大,你可能需要招聘越来越多的数据科学家。这里顺带推荐 Jeremy 的另一篇不错的文章:《怎样才能持续聘到优秀的数据人才?》。如果你能尽早在公司内部打造一个尊重和重视数据科学的文化,这将为公司后续发展带来诸多益处。

很多公司声称自己是数据驱动的公司,他们搜集很多数据,在数据工程上也投入了很多钱,但最后还是功亏一篑。

行动胜于雄辩,只有在一个真正基于数据做决策的公司里,数据科学才能真正发挥价值。

你需要在公司内部建立这样的原则和可信度:即使是有悖于常识或是可能会造成公司内部的权利剧变,你依然会基于数据进行决策。只有这样,才能真正在公司里形成尊重数据科学的文化并让数据科学发挥最大的价值。

和其他人一样,数据科学家也希望自己的工作被认可。只要做到尊重和重视数据科学,这就会形成一种良性的反馈循环,数据科学家将会更有动力攻克一些艰难的重大问题,同时确保他们的解决方案是可以衡量的。

承认和认可数据科学家的贡献有时是非常困难的,尤其当他们被整合到其他团队中时更是如此,这就需要你的数据科学主管非常优秀而且有影响力,同时公司高层管理人员应该定期去了解和认识到数据科学家对公司业务做出的贡献。

如果数据科学家不和产品经理、工程师和设计师紧密合作的话,他们是无法开发出卓越的产品的。如果主管领导不重视和欣赏他们的见解的话,数据科学家也将无法对产品产施展影响。

在 Jeremy 刚开始加入 Saithru 担任数据主管的时候,公司内的整个工程师团队对数据科学是持一个非常中立的看法的。为了让大家重视数据科学,在前两个月,他将自己 30%的时间都用在了给工程师团队设计和教授一门有关统计学习的课程。在这门课程上,他将的所有例子使用的都是 Sailthru 的数据,给大家讲述打造数据驱动产品的各种一处。这门课程很快改变了工程师团队对数据科学的看法。最后证明,Jeremy 为了让大家认识到数据科学的重要性而花的大量时间是非常值得的。

随着时间的推移,你打造的数据科学团队的成员将有不同的技能组合、不同的背景和世界观,这时他们也将发挥越来越大的影响。最后,为了让数据科学团队能更高效地工作,数据科学家必须要被团队成员、用户和公司决策者所信任。在组建团队的过程中,要招聘那些真正认同公司价值观的人,因为他们日后将给公司造成的影响是非常巨大的,或好或坏,他们做的决策可能会塑造公司的未来。

编译|达达

via:36氪

 

]]>
掌握8项技能让你拥有数据科学岗位 //www.otias-ub.com/archives/464872.html Thu, 21 Apr 2016 14:03:15 +0000 //www.otias-ub.com/?p=464872 1461247348-6587-29dda488bbe24bd1a7ed9f85b-th

你想找到一份数据科学家的工作吗?如果你有这样的想法的话,那么你就有伴儿了。最近由Thomas Davenport和D.J. Patil在《哈佛商业周刊》上面发表了一篇专栏,文章称“数据科学家”是21世纪最最性感的工作。

那么你怎样才能找到门路呢?很多实用性的资源可以帮助你成为一名数据科学家,只是需要你可以综合性地驾驭多个学科领域,比如软件开发、数据修改、数据库、统计学、机器学习以及数据可视化。

请不要担心,以我的经验来看,作为一名数据科学家,事实并非如此沉重。你真的没有必要用尽可能快地花费一生的时间学习和数据相关的信息和技能。你需要做的就是仔细地阅读数据科学岗位职责的描述。这样就可以让你根据自己已经有的经验和技能去申请和数据科学家岗位相关的工作,或者根据具体岗位的需要加强具体的数据技能,以便于可以和你想要的工作更好的匹配。

4种数据科学工作岗位

“数据科学家”是一种综合性的岗位头衔,通常用来表示该岗位与其他类别岗位有相当大的不同之处。下面是4种数据科学岗位:

一位数据科学家就是一位居住在旧金山的数据分析师

玩笑归玩笑,实际上很多公司里面的数据科学家就等同于一名数据分析师。你的日常工作内容可能由以下方面组成,比如从MySQL数据库中拉取数据,在Excel数据透视表方面你也是大拿,并且还得生成基本的数据可视化图表(比如条形或者柱状图)。你可能还会偶尔分析A/B测试的结果,或者掌管公司在Google Analytics注册的账户。对于渴望成为数据科学家并且想摸到窍门的你而言,这样的公司的确是理想之地。

请放养我们的数据!

看起来已经有很多企业的信息流量即将迎来高峰(而且还有不断增长的数据量),企业正在寻找合适的人选建立大量的数据架构,以便于让企业可以不断向前发展。他们也在寻找能够做数据分析的合适人选。你会发现这种类型岗位的公开招聘信息陈列在“数据科学家”和“数据工程师”的类目中。既然你想成为公司里面第一个数据方面的雇员,那么还是有个别唾手可得的岗位,这些岗位的重要性并没有数据科学家这般重要,比如统计师或者机器学习专家。拥有软件工程背景的数据科学家在公司里面的表现可能会更加突出,数据科学在公司里面的重要作用就是为产品代码做出和数据有关的贡献并提供基本的洞察和分析结果。但是在这种企业中,基层数据科学家岗位的员工不会太多的师徒制机会。因此,在这种环境当中,你可以在很多考验之后发光发热并大红大紫,但是这样的环境也会缺少相对的安全性,因为单凭你的一己之力,你会面临彻底失败或者停滞不前的风险。

我们就是数据,数据就是我们

对很多公司而言,他们的数据(或者说他们的数据分析平台)就是他们自己的产品。对于这种情况,公司所进行的数据分析或者机器学习环境非常激烈。这样的环境可能对于那些具有正规的数学、统计或者物理专业背景并希望继续在学术道路上深造的人而言再合适不过了。处于这种岗位配置环境中的数据科学家,与回答公司一些操作方面的问题相比,他们更倾向于集中精力生产更好的数据驱动的产品。这种类型的公司也许是一种具有大量数据的面向消费者的企业或者他们专门提供以数据为基础的专业性服务。

规模适度的并由数据驱动的非数据企业

在这种类型的企业当中,你的作用就是参与到由其他数据科学家组建的团队当中进行协作。你所应聘的公司很关系数据,但实际上他并非是一家数据公司。同样重要的是你仍然需要能够执行分析、触及产品代码、让数据可视化等。通常情况下,这种类型的公司要么是正在寻找综合型的多面手,要么他们正在为公司填补团队所缺少的专业人才,比如数据可视化或机器学习。当你参加这种类型公司的面试时,对你最终要的技能就是熟悉使用专门为大数据所设计的软件工具(比如Hive或者Pig)并且有处理现实生活中那些烂七八糟的数据库。

但愿以上这四方面的信息可以让你充分的了解为何一名“数据科学家”的头衔具有如此宽泛的含义。以上这四种具有不同个性的公司对于候选人在技能、经验以及经验水平方面的要求也各有千秋。机关如此,所有公开招聘的工作都会把自己公司的岗位称作是“数据科学家”,因此你一定要仔细地阅读岗位职责,了解你所将要加入的团队的情况并能够提升你哪些方面的技能。

掌握8项技能让你如鱼得水

以下就是8项你应该发展的数据科学岗位技能:

基本工具

无论是应聘的公司是哪种类型,你都应该具备了解如何使用交易工具的经验。比如类似R或者Python这样的统计编程语言,还有SQL这样的数据库查询语言。

基本统计学

作为数据科学家懂得至少一种基本的统计学非常重要。曾经有一位面试官告诉我说他所面试过的很多人都无法正确地提供p值的正确定义。因此你一定要对统计测试、分布、最大相似估计等了如指掌。试着回忆以下你的统计学课堂吧!对于机器学习方面的问题也有和这个情况一样的时候,但是你的统计学知识的最重要的一方面就是你得知道在什么时候不同的技术方有效(或者无效)。统计学对各种类型的企业而言都非常重要,但尤其是对那些以数据为驱动的企业而言,他们的产品不是以数据为专注点,而且产品的利益相关者会根据你提供的帮助制定决策并设计/评估试验结果。

机器学习

如果你供职的企业有大量的数据资源,或者你所在的企业的产品本身受数据所驱动,在这种情况下需要你必须熟知机器学习算法。这意味着像k值临近法、随机森林,集成方法等和机器学习有关的所有流行词汇都需要你有所了解。我们的确可以利用R或者Python库执行很多技术,因为如果你不是主导算法如何奏效的行业专家的话,那你没有必要成为一名血色交易使者。最重要的是你要懂得大致的框架,而且需要知道不同的时候采用相应合适的技术。

多变量微积分和线性代数

当你在接受面试的时候,很可能面试官会要求你导出一些机器学习或者统计学结果。即使你不问,那么面试官也会问你一些基本的多变量微积分或者线性代数问题,因为它们是很多技术的基础。也许你想知道为什么一位数据科学家需要懂得这些东西,如果我们有很多sklearn或者R方面的工具帮助我们来实现这些功能。因为就某一点而言,数据科学家团队值得为此内部开发一个执行工具。对于就职于生产由数据驱动的产品的公司的你而言,明白这些概念非常重要,并且对预算执行或者算法方面的优化改进会为企业带来更多胜利的果实。

数据修改

通常情况下你所分析的数据会变得无比凌乱,让你的工作变得异常艰难。因此很有必要弄清楚如何对待数据中出现的缺陷。常见的数据缺陷包括遗漏值、不一致的字符串格式(比如“New York”对“new york”对“ny”),还有日期格式(‘2014-01-01’ vs. ‘01/01/2014’等)。作为一名较早进入企业的数据技术人才,数据的修改工作是重中之重,无论你所在的这家公司规模很小,还是你所供职的企业所生产的产品和数据无关但是企业的发展需要依靠数据驱使,拥有这项数据修改技能非常重要。

数据可视化与信息交流

数据的可视化与通信化非常重要,尤其对与第一次制定数据驱动决策的年轻企业,或者是把数据科学家视为帮助别人做数据驱动决策的企业。我们所谓的数据交流性,指的是你向受众描述你的发现或者技术奏效的方式,无论是技术层面的还是非技术层面的。熟悉诸如ggplot 和d3.js这样的数据可视化工具对你有莫大的帮助。不仅对数据可视化所需的工具的了解至关重要,还得学会了解可视化的数据编码和交流信息隐含的原理

软件工程

如果你应聘的单位规模很小,而且你还是这家公司最早应聘来的数据科学家之一,你最好具有软件工程专业背景。因为一开始的时候你需要处理大量的数据日志文件和数据驱动的产品的开发。

像数据科学家一样思考

公司非常想看到在你被雇佣之后,你是一名(数据驱动的)问题的解决者。这就是说,在你面试过程中的某一时刻,你会被问到一些难度很高的问题。比如关于企业想运行测试的方法或者他们向开发的以数据为驱动的产品。对你而言你要深重的思考在这个问题当中那些是重要的,哪些不重要。作为一名数据科学家,你应该如何与相关的工程师以及产品经理进行有效的互动?你应该采用何种方法?近似值在什么时候会发挥功效?

译者:丑灿

]]>
这些数据科学技能,才是老板们最想要的 //www.otias-ub.com/archives/449496.html Wed, 16 Mar 2016 12:27:10 +0000 //www.otias-ub.com/?p=449496

1458131168-5107-Fsj6SDIIzSYPOl2OgkdBvplf0xTR

这是一个好消息,如果你希望在2016年找一份数据科学的工作—在该领域职位空缺的数量正在不断增加,企业希望利用大数据来获得竞争优势。但事实上,找一份梦寐以求的数据科学工作就意味着你要具备一些技能的组合,你可能会惊讶学习哪些技能是雇主所最需要的。

最近,人们在CrowdFlower上针对Linkedin的3490个数据科学职位做了分析,并对最常出现的21个技能进行了排序。有些结果并不那么令人惊讶—SQL排在最前,而其它的结果可能是数据科学领域不断发展的领先指标。

如上所述,SQL是最常见的技能,在Linkedin发布的所有数据科学工作中占比达到了57%。Hadoop排在第二,占比49%。这并不出乎CrowdFlower公司CEO和创始人Lukas Biewald的意料。CrowdFlower是美国硅谷一家从事众包数据处理的公司。

“SQL和Hadoop排在前两位并没什么惊讶的,因为它们本身就是存储数据的技术”Biewald告诉Datanami(本文转译自该网站)。“每个数据科学家必须知道如何获取数据。如果你不知如何获取数据,那你什么都做不了。”

在所有数据科学的招聘信息中,python是排在第三名的技能。在CrowdFlower去年关于数据科学家哪些技能是最重要的调查中,python排在R的后面。但在本次招聘信息的调查中(这无疑是更具有前瞻性的范围),python作为数据科学的一项关键性技能占比达到了39%。相比之下,R是32%。

相比R来说,为什么现在越来越多的雇主正在寻找具备python技能的数据科学家?Biewald提出了自己的看法:“python的工具集越来越好。已经有很多基于python的统计工具”。“还有一个认识是数据科学不仅仅是统计学”。

设想一下,数据科学家80%的时间花费在数据清理和数据准备上,而只有20%的时间是用来做分析。这或许可以解释python突然出现的原因。

1458131166-1531-FkLupy9I-WZc9qTy1XpVbilOP5hi

“我认为Python是做数据清理的语言,而R是做分析的”,Biewald说到。在创办CrowdFlower之前,他负责领导Yahoo的搜索相关团队。“由于数据科学更多的是做数据清洗和准备,python正变得越来越重要。它无疑是将数据整理成适合做分析的数据格式最好的语言”。

事实上,Java排在第四位让人有点摸不着头脑。因为Java本身不是数据科学所要求的掌握一门语言,当你在java中写Hadoop的时候,它的高配就显得有道理了。其它跟Hadoop相关的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。

对于这份CrowdFlower从Linkedin编辑过来的职位列表,多少有些遗漏。Apache Spark,在上面给出的数据科学技能要求中没有出现过。Scala也没有出现过,它是在Spark框架内处理数据的主要途径之一。

这可能是因为Spark还比较前沿,大家对它知之甚少。“现在周围对它有很多炒作,但可能还是太早了”Biewald说到。“在CrowdFlower,我们已经开始使用它了。我认为这门技术很棒,但在企业真正使用它的时候会有些滞后”。

Spark和Scala可能是数据科学的未来(它们在Alphabet[NASDAQ:GOOGL]公司中得到大力支持,硅谷的许多高科技公司也在广泛的使用它们)。但不是每个数据科学项目或团队都需要走在技术的最前沿才能实现他们的大数据成果。“令人惊讶的是现在很多人都在寻找数据科学家,但是我认为他们中的很多人是不想走在最前沿的”Biewald说到。

这份CrowdFlower列表中包含了许多知名的数据分析工具,包括SAS(占比16%),SPSS(10%),Matlab(10%)和Stata(占比3%)。Biewald认为这些工具仍是有价值的并且在未来一段时间内还会继续使用。但是他希望它们的市场份额逐渐被那些专门为大数据设计的新工具所夺走。

“数据科学的角色大于统计学家”他说。“在我们的脑海里,这些旧的语言更多的是建立在统计学家的基础上,它们只是对少量的数据进行分析。而排名在前的Hadoop,python和Java则可以运行TB级的数据。你可以用SAS,SPSS,Matlab来做大数据分析,但这不是它们设计的目的”。

不是每个人都同意“数据科学”或“数据科学家”应该做什么以及应该掌握什么样技能的定义。事实上,一些人反对使用术语“科学”,而宁愿用诸如“应用统计”的短语。(想起了哈佛商业评论称应用统计学家是21世纪最性感的职业)

但在Biewald和其他人眼中,处理数据的能力和统计分析的能力同等重要。这就是他对数据科学家进一步给出的定义。

“在过去,我们处理几千条记录的时候不是特别难。但是,当数据量达到数十亿条记录的时候我们就需要真本事来得到一个规范的格式,以便我们进一步做回归或机器学习”他说。“对于这种情况,我想要聘请的是一名掌握python或者是C、Perl、Ruby亦或是一门更多做数据处理而不是做数据分析的语言的数据科学家”。

]]>
基于技能的改善数据科学实践的方法 //www.otias-ub.com/archives/420794.html Wed, 23 Dec 2015 09:49:33 +0000 //www.otias-ub.com/?p=420794 在当今的大数据时代,利用数据科学理论进行数据分析起着越来越重要的作用。探讨不同数据技巧类型和熟练程度对相关项目有着怎样的影响也开始具有重要意义。近日,AnalyticsWeek的首席研究员、Bussiness Over Broadway的总裁Bob Hayes博士就公开了研究数据分析项目成功所必需技能的相关结果。Bob所提出的基于技能的数据科学驱动力矩阵方法,可以指出最能改善数据科学实践的若干技能。

数据技能的熟练程度

首先,Bob在AnalyticsWeek的研究包含了很多向数据专家提出的,有关技能、工作角色和教育水平等有关的问题调查。该调查过程针对5个技能领域(包括商业、技术、编程、数学和建模以及统计)的25个数据技能进行,将其熟练程度划分为了6个等级:完全不知道(0分)、略知(20分)、新手(40)、熟练(60分)、非常熟练(80分)和专家(100分)。这些不同的等级就代表了数据专家给予帮助或需要接受帮助的能力水平。其中,“熟练”表示刚好可以成功完成相关任务,为某个数据技能所能接受的最小等级。“熟练”以下的等级表示完成任务还需要帮助,等级越低需要的帮助越多;而“熟练”以上的等级则表示给予别人帮助的能力,等级越高给予的帮助可以更多。

1-1

Bob列出了4中不同工作角色对于25种不同数据技能的熟练程度。从上图可以看出,不同领域的专家对其领域内技能的掌握更加熟练。然而,即使是数据专家对于某些技能的掌握程度也达不到“熟练”的程度。例如,上图中浅黄色和浅红色区域都在60分以下。这些技能包括非结构化数据、NLP、机器学习、大数据和分布式数据、云管理、前端编程、优化、概率图模型以及算法和贝叶斯统计。而且,针对以下9种技能,只有一种类型的专家能够达到熟练程度——产品设计、商业开发、预算编制、数据库管理、后端编程、数据管理、数学、统计/统计建模以及科学/科学方法。

并非所有的数据技能都同等重要

接下来,Bob继续探讨了不同数据技能的重要性。为此,AnalyticsWeek的研究调查了不同数据专家对其分析项目结果的满意程度(也表示项目的成功程度):从0分到10分,其中0分表示极度不满意,10分表示极度满意。

对于每一种数据技能,Bob都将数据专家的熟练程度和项目的满意度进行了关联。下表就列出了4种工作角色的技能关联情况。表中关联度越高的技能就表示该技能对项目成功的重要性越高。而表中上半部分的技能相比于下半部分的技能对于项目结果更加重要。从表中可以看出,商业管理者和研究者的数据技能和项目结果的满意度关联度最高(平均r=0.30),而开发人员和创新人员的关联度只有0.18。此外,四种工作角色中不同数据技能之间的平均关联度只有0.01,表明对于一种数据专家是必须的数据技能对于其他数据专家未必是必须的。

2-1

数据科学驱动力矩阵:图形化结果

基于熟练程度和关联度的结果,Bob绘出了数据科学驱动力矩阵(Data Science Driver Matrix,DSDM)的示意图。其中,x轴代表所有数据技能的熟练程度,y轴代表技能与项目结果的关联度,而原点则分别对于熟练程度的60分和关联度的0.30。

3-1

结果解读:改善数据科学的实践

在DSDM中,每一种数据技能都会落在其中的一个象限中。由此,这种技能所代表的含义也就不同。

  1. 象限1(左上):该区域内的技能对于项目结果非常重要,但熟练程度却不高。那么,通过聘请掌握相关技能的数据专家或者加强相关技能的员工培训,项目就可以取得很好的改进。
  2. 象限2(右上):该区域内的技能对于项目结果非常重要,而掌握的熟练程度也不低。
  3. 象限3(右下):该区域内的技能对于项目结果而言为非必须,但掌握的熟练程度较高。因此,需要避免在这些技能上的过度投入。
  4. 象限4(左下):该区域内的技能对于项目结果而言为非必须,掌握的熟练程度也不高。但是,仍然没有必须要加强对这些技能的投入。

对于不同数据角色的DSDM

Bob针对商业管理者、研究者、开发人员和创新人员4中角色分别创建了DSDM,并主要关注落在第一象限的技能。

  1. 商业管理者对于商业管理者而言,第一象限中的技能包括统计学/统计建模、数据挖掘、科学/科学方法、大数据和分布式数据、机器学习、贝叶斯统计、优化、非结构化数据、结构化数据以及算法。而没有任何技能落在第二象限。

    4-1

  2. 开发人员对于开发人员,只有系统管理和数据挖掘两种技能落在第一象限。绝大部分技能都落在第四象限。

    5-1

  3. 创新人员对于创新人员,共有数学、数据挖掘、商业开发、概率图模型和优化等五种技能落在第一象限。而绝大部分技能都落在第四象限。

    6-1

  4. 研究者对于研究者,共有算法、大数据和分布式数据、数据管理、产品设计、机器学习和贝叶斯统计等五种技能落在第一象限。而落在第二象限的技能却很少。

    7-1

结论

从以上的研究中,Bob得到以下结论:

  1. 无论是对于哪个领域的专家,数据挖掘对于项目结果都十分重要。
  2. 商业管理者和研究者可以通过改善数据技能来增加数据分析项目的满意度。
  3. 某些特殊的数据技能对于一些分析项目的结果非常重要。

除此之外,Bob还提出团队合作对于项目成功也有着非凡的意义。


来自:InfoQ中文站

]]>
关于数据科学的误解与事实 //www.otias-ub.com/archives/406754.html Wed, 18 Nov 2015 15:52:43 +0000 //www.otias-ub.com/?p=406754 8a531dd6-d86b-443e-b94a-9336e1d46e76-2060x1236

在从学界(粒子物理学博士后研究员)进入业界(数据科学领域)时,Emily Thompson也曾有过犹疑。而现在,在担任Insight项目总监10个月之后,她对数据科学家有了自己独特的看法。近日,她在一篇文章中就当前人们对数据科学的误解谈了自己的看法,主要涉及数据科学家的职责、应用领域、工作环境、职业发展、技能集合等方面。。

误解一:“‘数据科学家’只是‘业务分析师’的一种花哨叫法,他们本质上是相同的”

在数据科学领域,业务分析师仍然占了很大一部分,而数据科学家也构建数据产品,创建软件平台,实现可视化和仪表板,开发前沿机器学习算法。“数据科学家”与“分析师”的最大差别可能是角色的独立性水平。传统的业务分析师需要别人给他们提供已经做过清理并打包好的数据供他们使用;而数据科学家必须是熟练的程序员,他们能够抽取、转换、加载数据,对其他团队的依赖较少。

误解二:“数据科学没什么用,我未必会进入广告行业,或成为一名股市分析员”

数据科学的应用领域同数据科学领域本身一样多样化。计量金融和广告是使用数据挖掘的两个相对传统的行业。医疗行业正在经历一场数据革命。可穿戴技术让收集、聚合、分析大量个人数据成为可能,从如何恰当地锻炼到睡眠如何影响情绪。多媒体是另一个数据科学的重大应用领域。比如,像News Corp.、The New York Times和Bloomberg等大型媒体公司都雇用数据科学家研究读者行为和读者保持;Netflix通过数据分析实现影片推荐;湾区创业公司 Samba TV借助机器学习技术实现内容推荐。

误解三:“我希望对世界产生积极的影响……为公司赚钱似乎与此存在利益冲突”

为营利公司工作与对人们的生活产生积极影响并不冲突。例如,Premise是一家实时经济数据跟踪平台。他们使用机器学习技术来发现一些不易发现的问题,比如,帮助发展银行将钱投资到有需要的邻国,Stitch Fix使用机器学习技术从库存商品中选择客户喜欢的衣服等等。

误解四:“在学术领域,我自己说的算,我喜欢这种自由。我不认自己适合公司结构的环境”

企业结构确实跟学术组织不同,但现如今,在以数据为中心的企业中,那种狂人风格也不是那么普遍。如果你是初创公司最初的成员之一,那么你还有机会影响公司的发展方向。而像Facebook和LinkedIn这样的大公司会分成若干较小的工作组,以保留初创公司的工作氛围。虽然可能会有团队负责人,但数据科学团队是高度协作的。而且,越来越多的公司实现了在家工作策略,数据科学家可以拥有“无限”假期。

误解五:“我觉得,如果不知道未来10年我的职业生涯是个什么样子,就贸然离开学术界,风险太大。要是我就职的公司跨了怎么办?”

不管在哪里,职业生涯都不是可以预测的。数据科学家在一家公司任职的时间平均为3到4年。数据科学家会留在有挑战的岗位上,但一段时间之后,会寻找新的挑战。好处是,数据科学领域有许多选择,而且正在不断发展,对数据科学家的需求很高。在任何一家公司任职,不管成功与否,都会获得宝贵的经验。在找第一份数据科学工作时,最看中的应该是一个可以从同事那里学得大量知识的协作环境。另一个需要关注的点是,在从学界进入业界时,要努力构建一个强大的关系网络(参加聚会、出席数据大会),它能为你提供建议和其他团队的内部信息。

误解六:“数据科学是泡沫”

有人认为,一旦数据分析实现自动化,数据科学家的角色就不存在了。但数据量正呈指数增长,没有任何迹象表明从数据中寻找答案的需求会慢下来。即使数据科学的某些部分可以自动化,但这个行业仍然需要数据科学家的技能。数据可能会很乱,无法应用恰当的工具或者无法了解所有相关的特性,这会产生有误导性的结果。而且,受过良好训练的数据科学家对数据有更好的理解,他们是大数据时代应对数据挑战的最佳人选。

误解七:“我担心自己不具备成为数据科学家的技能”

编码能力强很重要,但数据科学不全是软件工程。数据科学家集编码、统计分析和判断思维于一身。广受欢迎的硬技能、统计知识、编码能力是一名优秀数据科学家的基本工具。还有一项不容易明确定义的技能,就是博士研究员阶段所接受的良好训练。但是,要成为一名数据科学家,并一定要有物理、统计或计算机科学学位。June Andrews的研究显示,在LinkedIn从事数据科学工作的人所拥有的学位差别很大。数据科学本身就具有多学科的特点,而且一些公司开始使用领域专属的数据。因此,只要有量化思维,喜欢摆弄数据,对数据如何引导你提出和回答问题心存好奇,那么你就可以脱离学术界,进入数据科学领域。

via:infoq

]]>
数据科学的整合与细分 //www.otias-ub.com/archives/403512.html Tue, 10 Nov 2015 12:39:51 +0000 //www.otias-ub.com/?p=403512 自从大数据这个词出来以后,数据已经成为一个非常明确的科学领域。在这当中很少有人详细地探讨数据科学的结构和它面临的问题,包括我们行业面临的问题。

数据科学有三个非常重要的层次:数据的获取、数据的描述和数据的分析,这三件事是不同的,不要把它混淆了。

1.数据的获取

d63bc4145151b5fdfd1a7e0b97b5c578

以前数据的稀缺导致行业内出现非常大的非良性循环。

c4963ba44c4c31de31bd57c170fc8cbb6223fbf14e8c4f9dd162bb29a16976c5

在这个过程当中,又正好赶上了一个新的时代——机器化数据横空出世,突然之间,甚至一夜之间数据不再稀缺了。单靠获得数据,你能拿到高额利润的可能性微乎其微,这样就必然导致执行公司如果要继续作弊必死无疑,未来五年内我们可以清楚的看到,研究公司不好好做研究,也照样是必死无疑,无论你是国际的,还是国内的,因为时代变了。所以数据获取这一块,要有非常清醒的认识。

3d5b02ddd89ccf73b4f42379ff8c474d

在这个时候大数据,正常的讲叫机器化数据已经被神话,而市场研究公司被积压在这里,市场研究数据的结构化,它必须满足两个条件,一是真的,二是价格是低的,这两件事造成的后果是什么,我相信业内的所有公司都会有体会。

2f5ffade02f4e16c95ebed9b3f74be4b

2.数据的描述

再看数据的描述,由于整个社会大环境巨大的变化,在描述环节上出现了非常大的问题,这个问题中你会发现形成了新的、不同的非良性循环。为什么?数据不稀缺了。而在这个时候,机器化数据出来的东西做点频率表,做点交互表很简单。如果数据描述能够替代数据分析,这个世界一定会毁掉,因为数据想骗人太容易了。

e01aa02ca9964c4d545a84c0d9b96354

接下来的过程当中,机器化数据由于资料收集简单,整理数据的过程非常容易。所以直接面向销售,这个面向销售就出现了充满荆棘的历程。

a754dfcb48e392294d773dd2062cad69
再看研究公司的结构化数据,大型公司由于没有应对,我在行业这么多年,一直在这些时期,有机会就在呼吁洞察这个词。实际上我们的研究员正在日益变成填数工具,而不是洞察。数据不再稀缺,你在机器化数据面前,你填数的过程当中,数据的真假还在存疑,这时候你不败谁败,必然败。而且别忘了机器化数据的成本趋近于零,所以大中型研究公司的解体、兼并、重组在不远的将来一定会频现,这是没有办法的趋势。

3f4b2040b8a8fa633d44af4902d6217c

现在数据科学有七大危险趋势:

90d2c0804272d3566cb1c2d2a19a0246
e6f5481b9ff6439e46a5dd65777ae6c3
dc011468b7b7b7d3e35e2b8b00d1da12
1b49ad82be7a9988ee40a0431ebfb252
1ff69ae3490d9c96dc3db086e58b2a87
::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::13
d4a1917de036927e632304e5ddb5f9fe

3.数据的分析

以上七个危险趋势将直接导致数据分析中的危险,什么是数据分析?我先从最简单的案例说起。

案例一:简单表格的危险

7ac5b8955e8e7d026d8efb4cc3e349e1f147eacd6146ae9f2d4a34ae6bc27ad5

这个数据的结果,意味着什么?老年人比年轻人更喜欢这个东西。实际的结果呢?老年人和年轻人没有任何差异。高低文化之间有差别吗?所有的结果都显示高文化程度的比低文化程度的人更喜欢,总体上它就是相同的。

再看一个更加实际的案例。我们知道房价是怎么算的,房价是加权算术平均数。现在看一看房价,房子的均价跟房子的成交价格没有关系,跟销售结构有关系。所以在这个时候,房价的均价大约是这样的,我告诉大家房价在下一个季度全面上涨10%,但是销售结构略微有一点变化。房价下跌2.63%,大看清楚定价了吗?任何一个地方都上涨了10%,接下来销售结构一定会再变,房价又涨了10%,房价又下跌了,但是统计数字会告诉你下跌4%。

9545d266839b9e2b3343c4c76441b65c
6ec07c8e8224b0f09bfc645de0f5ed29
c569df4780be993a36903dc797fd3465

案例二:无关转相关系列

976c6e63e1e27ba8ff0e10f54afea84c
acb121baaa2341bf569a43eae4e2bc21
f8a7b21627c562d62e7834f8afeb48bc
这是我1998年获宝洁论文奖的时候得到的模型,表面上一大堆无差别、无差异的情况,导致了什么情况呢?看起来没有差异,一个是男的比女的喜欢,一个是女的比男的喜欢,整体上没有差异。但是差别大吗?规律性强吗?

案例三:建模预测

ff3f346ddeef2ae2bde588ce84901d97

我们在2011年用的词叫苹果熟透了,苹果在一个领域发展。2012年我在互联网大会上,在我们这个会场上我都说过华为将崛起。2013年我说过三星必然下滑,去年2014年也是一样的,这两个大会我都说过小米将面临问题,我不是神,但是模型能。2015年什么情况?我不想对任何一个品牌现在来说,大家关注我们要发布的手机人报告,那个时候我再开会,会详细地把这个结果告诉大家。

我让大家看一个结果,模型的基点预测点是这张图:

2ff67b81de8b7dff697c4ddba88f208b

这个模型你能不能做出来?我一直在说,中国调查业从来不缺数据,从来不缺所谓的描述,只缺分析。如果被这些互联网公司,被码农牵着走,那不是笑话吗?他们能代表中国的分析能力吗?中国的分析能力不是他们,而一定是我们。

4.小结

41ba64462aab5df82501948fda1dcac0a4f6a9e79afc09cf209351618be215b5
cc00a011ff4a50651102e4eb91a79236
69dd0c403639a9acf9dd7f643e2e3bb5

]]>
数据科学云服务商Plotly募集550万美元 //www.otias-ub.com/archives/353252.html Fri, 05 Jun 2015 09:34:50 +0000 //www.otias-ub.com/?p=353252 20150605121433226

今天,该公司宣布获得550万美元的A轮融资,领投方是MHS Capital和Siemens Venture Capital,其他参与投资的包括Rho Ventures,Real Ventures,以及硅谷银行。

Plotly公司位于蒙特利尔,他们认为自己开发的是一款“前所未有的数据科学平台”,对于那些需要处理数据驱动项目的企业,Plotly能帮助他们解决很多问题,利用在线或网络会议等工具,用户可以轻松分享数据,进行内容评论,并通过图表形象地了解数据趋势。

“我们的数据图表外观设计的很好,交互性也很强,而且支持线上分享,”Jack Parmer说道,他是Plotly公司联合创始人,“对于互联网用户来说,我们提供了世界级的图表分析和数据工具,这一切是具有颠覆性的。”

很快,Plotly将会推出2D和3D数据地图,自动更新用户数据库,同时进一步优化开发设计优美、易于使用的个性化“数据仪表盘”,它可以抓取数据、更新数据,为用户提供更出色的数据分析和数据可视化服务。

“在数据科学领域里,我们应该没什么竞争对手,”Parmar说道,“Plotly可以说是图表数据科学领域里的颠覆者。我们让图表界面变得标准化,无论你使用什么平台、什么工具,比如Python,R,MATLAB,Excel,或是Google Docs,我们可以提供丰富的交互体验和网页分享功能,这些服务之前没有一家公司做到。”

Plotly公司有一些竞争对手,比如旧金山的Domino Data Lab和Sense公司,但是他们的产品都没有社交协作功能, Plotly公司表示,他们将会利用这笔投资扩大公司销售和工程开发团队。

via VB, 快鲤鱼翻译

 

]]>