统计 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Mon, 19 Nov 2018 06:14:22 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 想从事数据行业?你必须掌握这个最核心的技能 //www.otias-ub.com/archives/797744.html Mon, 19 Nov 2018 06:14:05 +0000 //www.otias-ub.com/?p=797744
 大家对数据科学家的预期是应该懂很多——机器学习、计算机科学、统计、数学、数据可视化、沟通,以及深度学习。这些领域牵涉到很多的语言、框架以及技术的学习。数据科学家要想成为雇主想要的那种人才的话,应该把学习的精力放在哪些地方呢?

我到求职网站去寻找对数据科学家最迫切的技能需求是什么。我看了一般的数据科学技能,也分别看了对语言和工具的要求。2018年10月10日,我在LinkedIn、Indeed、SimplyHired、Monster以及AngelList上面搜索了求职列表。下面这张图列出了每个网站对数据科学家的需求数量。

我看了很多求职列表和调查以找出最常见的技能。像管理这类的术语就不进行比较了,因为可以用到的场合太多了。

所有的搜索都是针对美国,使用了“data scientist(数据科学家)”、“[keyword]”作为搜索关键字。采用精确匹配以减少搜索结果数。然而,这个方法确保了结果对数据科学家职位是相关的,并且对所有搜索术语都产生类似的作用。

AngelList提供的是列出数据科学家岗位的公司数而不是岗位数。我把AngelList从所有分析里面排除掉了,因为其搜索算法似乎按照OR型的逻辑搜索进行,没有办法改成AND。如果你寻找的是“数据科学家”“TensorFlow”的话,AngelList也没问题,因为这只能在数据科学家岗位里面找到,但如果你的关键字是“数据科学家”“react.js”的话,它返回的结果就太多了,其中会包括一大堆非数据科学家的岗位列表。

Glassdoor也被排除在我的分析之外。该网站声称在美国有26263个“数据科学家”职位,但是显示出来的却不超过900个。此外,它上面的数据科学家岗位数超过任何其他主流平台3倍以上似乎极不可能。

LinkedIn上超过400个岗位列表都提到的通用技能以及超过200个岗位列表都提到的特别技术被纳入到最终分析里面。当然,这两者之间会有一些交叉。结果已经被记录进这张Google Sheet 里面。

我下载了.csv文件并且导入到JupyterLab。然后我计算了出现比例并求出求职网站之间的平均数。

我还将软件结果跟GlassDoor的一项研究(2017年上半年,针对数据科学家岗位列表)进行了对比。再结合KDNuggets使用情况调查的信息,似乎一些技能正在变得越来月重要,而其他一些的相关性则在下降。后面我们会细谈。

互动式图表可以到我的Kaggle Kernel上面去看,额外分析可参见此处。可视化我用的是Plotly。为了本文结合使用Plotly和JupyterLab可费了一点功夫——相关指令可到我的Kaggle Kernel找,另外这里也有Plotly的脚本。

通用技能

下面这张图反映的是雇主寻找最频繁的数据科学家通用技能。

结果表明,分析和机器学习是数据科学家岗位的核心技能。从数据中发现洞察是数据科学的主要职能。机器学习则是要创建系统来预测表现,这是非常亟需的技能。

数据科学需要统计和计算机科学技能——这一点并不出奇。统计分析、计算机科学以及数学也是大学的专业,这大概对其出现频率有帮助。

有趣的是沟通在将近一半的岗位列表中被提到。数据科学家需要将洞察与工作与他人进行沟通。

AI和深度学习的出现频率没有其他一些属于那么频繁。然而,它们都属于机器学习的子集。机器学习过去由其他算法执行的任务正在被越来越多的深度学习算法替代。比方说,大多数自然语言处理问题最好的机器学习算法现在都是深度学习算法。我预计深度学习技能在未来的需求会更加迫切,而机器学习也将日益变成深度学习的同义词。

此外,哪些数据科学家的软件工具是雇主想要寻求的呢?下面我们就来看看这个问题的答案。

技术技能

以下是雇主希望数据科学家掌握的排名靠前的20种语言、库以及技术工具。

我们大概看一下其中最常见的技术技能。

Python

Python是需求最旺盛的语言。这门开源语言的流行度已经被很多人注意到。它对初学者很友好,有许多支持资源。绝大部分新的数据科学工具都兼容它。

Python是数据科学家的主要语言。

R

R语言并不比Python落后多少。它一度是数据科学的主要语言。我反而对它的需求依然如此旺盛感到吃惊。这门开源语言的根在统计,至今在统计学家那里仍非常流行。

Python或者R几乎是每一个数据科学家岗位的必须。

SQL

SQL的需求也很高。SQL即结构化查询语言(Structured Query Language),是与关系式数据库的主要交互方式。SQL有时候会被数据科学界忽视,但这是一门值得掌握的技能,如果你打算切入求职市场的话。

Hadoop、Spark

接下来是Hadoop和Spark,这两个都是出自Apache的大数据开源工具。

Apache Hadoop是一个利用商品化硬件搭建的计算机集群对超大规模数据集进行分布式存储和分布式处理的开源软件平台。

Apache Spark是一个有着优雅的、富有表现力的API,可让数据工作者高效执行需要对数据集进行快速迭代存取的流处理、机器学习或者SQL负载的快速内存数据处理引擎。

相对于其他,这些工具在Medium和教程中被提及的次数少了点。我猜具备这些技能的求职者要比具备Python、R和SQL技能的求职者少得多。如果你掌握了一定Hadoop和Spark经验的话,应该可以在竞争中获得优势。

Java、SAS

然后是Java和SAS。这两门语言地位这么高倒是出乎我的意料。其背后都有大公司的支持,支持至少都提供了一些免费的产品。不过Java和SAS在数据科学社区受到的关注都很少。

Tableau

对Tableau的需求次之。这个分析平台和可视化工具非常强大,易用,而且越来越流行。它有一个免费的公共版本,但是如果你想数据保持私有的话得花钱。

如果你对Tableau不熟悉的话,到Udemy上一门Tableau 10 A-Z快速了解一下绝对是值得的。声明一下啊,我这么建议可不是拿了佣金的——那是因为我上过这门课之后发现它的确有用。

下面这张表反映的是更大范围内的语言、框架等数据科学软件工具的需求情况。

历史对比

GlassDoor对2017年1月到7月间数据科学家10大最常见的软件技能进行了分析。以下是那些术语出现的频度相对2018年10月在LinkedIn、Indeed、SimplyHired及Monster上出现频度平均数的对比。

结果相当类似。我的分析和GlassDoor的分析都发现Python、R及SQL都是需求最旺盛的技能。两份分析发现的需求前9大技术技能都是一样的,尽管顺序方面略有不同。

结果表明,相对于2017年上半年,R、Hadoop、Java、SAS及MatLab现在的需求略微下降,而对Tableau的需求则在上升。加上KDnuggets开发者调查这类的辅助性结果,我想这就是我预期的结论。R、Hadoop、Java和SAS均呈现出多年的下降趋势,而对Tableau则显示出明显的上升势头。

建议

基于这些分析的结果,以下是对当前和想要成为数据科学家的人提供的提升自我价值的建议。

  • 证明你可以进行数据分析并且专注机器学习,要变得非常擅长。
  • 对你的沟通技能进行投资。我建议去读读《Made to Stick(让创意更有粘性)》这本书来让你的想法产生更大影响。此外还可以用Hemmingway Editor这款app改进写作的清晰性。
  • 掌握一种深度学习框架。精通一种深度学习框架在精通机器学习中占据了越来越大的部分。深度学习框架在使用情况、流行度等方面的对比情况可以看我的这篇文章。
  • 如果你要走学习Python和R语言之间做选择的话,选Python。如果你对Python不感冒,那就选择R。如果你也懂R的话在市场上一定会更加抢手。

当雇主寻找懂Python技能的数据科学家时,他们可能也会预期应征者了解常见的python数据库库:numpy、pandas、scikit-learn以及matplotlib等。如果你想学习这里提到的工具的话,我建议你看看以下这些资源:

  • DataCamp 及 DataQuest——均为定价合理的在线SaaS数据科学教育产品,可以一边编码一边学习。这两个都教若干的技术工具。
  • Data School上面有各种资源,其中就包括了一套很好的YouTube视频,里面解释了数据科学的概念。
  • McKinney的《Python for Data Analysis》。这本书是pandas库的主要作者写的,聚焦的是pandas,同时也讨论了python基础、numpy以及scikit-learn的数据科学功能。
  • Müller & Guido的《Introduction to Machine Leaning with Python》。Müller是scikit-learn的主要维护者之一。这本书非常优秀,是学习用scikit-learn做机器学习的好读物。
  • 如果你寻求去学习深度学习的话,我建议先从Keras 或者 FastAI 开始,然后再转到TensorFlow或者PyTorch。Chollet的《Deep Learning with Python》是学习Keras的好资源。

除了这些推荐以外,我还建议你学习自己感兴趣的东西,尽管在决定如何分配学习时间方面显然有很多考虑因素。

LinkedIn

如果你要通过在线门户找数据科学家岗位的话,我建议你从LinkedIn开始——这个地方总是有最多的结果。

如果你在求职网站上寻找工作或者职位的话,关键字很重要。每个网站搜“数据科学”返回的结果数几乎是“数据科学家”的3倍。但如果你要找的就是数据科学家的工作的话,最好还是搜索“数据科学家”。

无论你去哪里找,我建议你要制作一份在线作品集来证明你擅长许多亟需的技能。我也建议你在LinkedIn档案上展示你的技能。

原文来自:towardsdatascience.com  编译自:36Kr

]]>
统计:从计数到大数据 //www.otias-ub.com/archives/520176.html Fri, 23 Sep 2016 10:06:15 +0000 //www.otias-ub.com/?p=520176 作者:鲜祖德

统计无时不在,从结绳记事到今天的大数据,统计作为人们认识客观世界的工具,也在不断创新,统计学作为一门系统研究数据的学科,在不断丰富与完善。大数据时代来临,统计如何应对新的挑战与机遇?我们回顾历史,不忘初心,以开放的态度、创新的精神和不懈的努力,继续前进,让统计在大数据的舞台上,发挥更大的作用。

1474625107-8136-94de80684e44194edada0a
 
普遍的定义认为,统计学是关于数据的科学,研究如何收集数据,并科学地推断总体特征。普查作为最古老的数据收集方法,已经有数千年的历史,据记载,2200多年前的西汉时期,中国开展了第一次人口普查。17世纪中叶,统计学诞生,并在18、19世纪不断发展,特别是与研究不确定性的概率论的结合,产生了现代意义上的统计学:数理统计学。1895年提出抽样调查方法并在后来30多年完善后,作为一种更及时、更经济的数据收集方法,被广泛应用于经济、社会、科学等各个领域。可以说,20世纪期间,传统的普查与新产生的抽样调查,作为两大数据收集方法体系,共同应用于对社会经济发展的测量,发挥了重要作用。

21世纪大数据的出现,各种来源、各种形式的电子化数据的大爆发,静态的、定时的传统数据收集方法,面临新的、动态的、组合的大数据的挑战和机遇,统计思维和数据收集方法也将不断创新。从统计学诞生的300多年的历程看,统计学发展的历史就是统计思维和统计方法不断创新的历史,这种创新是围绕着关于数据的两大核心问题展开的:如何收集数据和如何分析数据。本文通过回顾重要阶段性的几个片断,思考统计创新是如何发生的,重点谈大数据与统计的关系,以及会带来的新变化。

计数:统计的萌芽

在世界著名的科普著作《从一到无穷大》一书开头,讲述了一个发生在原始部落里的故事:两个匈牙利贵族决定做一次关于数的游戏——谁说出了最大的数谁就赢,第一个贵族说出了他能想到的最大的数“3”,第二个贵族苦思冥想后,表示认输了,他想象不出比3更大的数。这个故事的真假无从考证,但可以说明在人们公认的以“结绳记事”为计数开始之前,数的大小概念已经产生。但由于还不能“计数”,甚至还不能将数的概念与10个指头相对应(这在今天相当于2岁孩子的水平),否则,第二个贵族会毫不犹豫地伸出双手说出10。

计数是从结绳记事开始的,当然也可以用其他如石头、木棍、贝壳等,或者在地上、壁上划痕线等方式。这些是在文字发明之前,人们使用的记事和计数的方法。人类最早的统计实际上是一种计数活动,这在《易系辞下》中有所记载,古代印加人也存有记载;从上古时代,就已经开始使用结绳的方法,“事大,大结其绳,事小,小结其绳,之多少,随物众寡”,也即根据事件的性质、规模或其数量的不同系不同的绳结,这种方法古老原始,却有效,对于古代人来说,这些大大小小的绳结、多多少少的划痕是他们回忆过去的唯一线索。随着生产活动、战争等的规模越来越大,结绳记事已经不能记事了,要么没有那么多绳,要么是对那些绳结的意义的解释(也就是今天的元数据的概念)需要更多的想象和更复杂的绳结,原始部落的首领们可以看到养了多少牛羊,甚至可以平均分配给每一个人,却无法记录下来。

有了文字后,计数才真正成为一种工具,反映客观经济活动及其数量关系。实际上,计数作为一种工具被人们接受后,原始的“普查”就诞生了,有多少人口,有多少土地,有多少俘虏,通过计数与汇总就可以心中有数。据考古发现,公元前3000年前,两汉流域就已经有了这样的数据和汇总计算的符号。当然,这与其说是“普查”,更应该说是“计数”,但其产生的意义是非常重大的,就像恩格斯说的,“为了计数,不仅要有可以计数的对象,还要有一种在考察对象时,撇开对象的其他一切特性而仅仅考虑到数字的能力”,这也就是抽象的数字的概念,实物的多少与数的对应关系的确立,并建立了运算规则,为统计学的诞生与发展奠定了基础,这也是统计的萌芽,充分表明了客观世界就是一个“数及数的关系的和谐系统”。

数的游戏:概率计算

关于数的游戏自古就有,而这些游戏主要就是赌博:不确定性带来的收益。不管是抽签、还是投掷钱币、掷骰子、斗纸牌,各种不同形式的以“不确定性”为基础的赌博,实际上都是“数”的游戏,这当然也开始引起了学者们的注意和研究。到了15世纪的欧洲,赌博游戏非常流行。最早研究赌博问题的是1477年出版的意大利诗人但丁的《神曲》一书的注释本,描述了投掷三颗骰子可能出现的各种点数问题。

从16世纪中叶开始,学者们开始研究赌博中的概率问题。意大利人加尔达偌(1501-1576)是一位数学家,也是一个精明的赌徒,他写的《机会游戏》一书,是在他去世近100年后才出版的。他计算了投掷2颗或者3颗骰子时,究竟有多少种可能性得出投掷的骰子面朝上的数字之和为某一数(比如10),这在当时对排列组合所知甚微的情况下,是非常难得的。意大利天文学家伽利略(1564-1642)研究了同样的问题,并写了一篇论文给出了圆满的解答,算出了所有点数的可能性,如在投掷三颗骰子时,出现的数字之和为9和10,各有6种不同的组合法。这个问题在今天是一个很简单的排列组合问题,但在当时,谁掌握了这一秘密,谁就可能成为更精明的赌徒。

到了17世纪中叶,两位法国大数学家帕斯卡(1923-1662)、费马(1601-1665)开始研究丢骰子赌博中的规律性问题。他们利用通信,几经研究,解决了著名的“得点问题”(也称“分赌术”问题),通过对这个问题的研究,早期概率的计算从简单计数进入了比较精确的计算阶段,这也被认为是概率论的起源。从此,更多的学者们开始研究概率及计算问题,从研究赌博开始的古典概率,在不确定性的科学研究上,逐步建立了一套科学完整的体系:概率论。

统计学的诞生:让数据说话

统计学诞生的大背景是在15世纪,由于欧洲地中海沿岸商品经济的发展以及思想、技术的进步,从中世纪封建社会内部产生的资本主义及发展。资本主义商品经济的产生和发展,人们对数据的认识不仅仅是赌博游戏,而是对事物规律性的认识。之前,往往是满足“计数”的需要,记录历史,回答“干了什么”,而资本主义商品经济的发展则要满足“生产”的需要了,不仅要记录历史,还要预测未来,回答“要干什么”。除此之外,还有一些原因也促进了统计学的诞生:如为了商业的冒险行为,包括商业投机和航海商业,保险业的兴起等。

统计学的诞生及发展使人们对数据规律性的认识上了一个大台阶。作为统计学的起端,几乎同时发生了两个划时代的重大事件:一是格朗特(1620-1674)1662年发表的《关于死亡公报的自然和政治观察》(简称《观察》),二是威廉·配第(1623-1687)1667年发表的《政治算术》。这两部著作都被认为是统计学的鼻祖,他们各自研究的重点不同,后来的学者们往往站在不同的角度进行评价。

《观察》利用英国伦敦每周公布的死亡人数及相关人口资料,分析了60多年中居民死亡原因及与人口变动的关系,用了大量表格、演算,提出了人口男女性别的大数法则,编制了人口统计分析寿命表及人口推算方法等,这在今天看来,是统计工作的基础环节——统计汇总与描述性分析,但在当时,确是开创性地利用公布的有限数据,分析推断了伦敦人口的总体分布与特征。

威廉·配第的《政治算术》崇尚让数据说话,依据数据分析更广泛的社会、经济问题(不局限于人口分析),而不只是依靠思辨或空洞的推演,正如他自己所说:“与只使用比较级和最高级的词语以及单纯作思维论证相反,我采用数字、重量和尺度等术语来阐述我的观点。”他的儿子把该书献给国王时说:“书中论述了凡是政府事务以及有关君主荣誉、百姓幸福和国家昌盛的事项,都可以用算术的一般法则证实。这种方法,就是用一种普通的科学原理解释错综复杂的世界。”可以说,《政治算术》是把培根的实证科学思想和方法,通过数据的分析,运用到了广泛的社会经济领域。

威廉·配第对统计的贡献还在于强调典型调查作用,在数据分析中更多地使用分组法、平均数、相对数、统计推断等,他还先见地提出计算整个国家的国民收入与国民财富,并对英国国民收入进行详细估算。有了统计学带来的数据分析方法,就有了后来的经济学、社会学等,亚当斯密的《国富论》是1776年发表的,比《政治算术》晚了100多年。19世纪末20世纪初开始建立起来的数理统计理论和抽样调查方法的推广应用,更是广泛应用于自然科学、经济学和社会科学等。

“统计时代”:杂乱无章数据背后的规律

19世纪初上半叶,统计学逐渐取代“国势学”、“政治算术”,作为近代文化发达的标志之一,就是统计开始大量于社会经济自然科学各个方面并形成了统计发展史的高潮,后来被称之为“统计时代”、“统计狂热时代”,一切让数据说话成为一种理念、一种时尚,就像今天谁不说大数据,谁就落伍了一样。

这个时代的中心人物是比利时统计学家、数学家、天文学家凯特勒(1796-1874)。他的主要贡献有:一是系统提出统计规律性研究,认为统计学不仅要记述各国的国情,研究社会现象的静态,而且要研究社会生活的动态,从而观察社会发展的规律。他提出要探索在纷繁杂乱的大量偶然性现象的背后所隐藏的必然规律。二是促进了统计学与概率论的结合,使统计学进入新的发展阶段——现代统计学阶段。在此之前,研究国家社会经济现象的统计学与研究赌博起来的概率论是风马牛不相及的两个学科,要说清楚他们的结合,还必须先说说一条最重要的曲线:正态分布曲线。

这条曲线很好看,又好用,从天文观察到人体测量,在自然界中无处不在,在当时作为误差分析的有力武器达到了登峰造极的地步,使得人们在杂乱无章的数据背后,能够发现秩序和规律性。凯特勒在19世纪30年代主持建立比利时统计局后,发现以往被人们认为杂乱无章的、毫无规律可循的社会现象,也如同自然界一样具有规律性。他收集了大量关于人体测量的数据,开创性地提出用正态曲线拟合方法判断人体测量数据的同质性问题,随后应用于各种数据分析,为正态曲线的应用拓展了广阔的统计平台,也导致后来涌现了社会统计学、生物统计学、农业实验学、经济统计学等统计流派。统计学发展百花齐放,数据的天空次序井然。

这个时代另一个显著的特点是政府官方统计的建立与发展,其主要原因除了统计科学的不断完善外,还因为随着社会经济发展,各国政府、民间机构对统计数据有大量需求。

凯特勒的另一个贡献是推动了国际统计组织合作。由于大量的统计机构的建立,民间研究团体的涌现,各种被利用的数据增多,统计学家们面临一些共同的问题,包括统计的标准、个体的界定、数据的质量等基本问题,也包括统计资料的交流、统计理论和方法的推广与传播等,都需要各国统计学家的共同研究。在凯特勒等的努力下,1851年在伦敦成立了第一个国际统计组织——国际统计大会,1853年主持召开了第一次会议。这是国际统计学会(ISI)的前身,1887年,ISI在罗马召开了第一次会议,自1938年起,每两年召开一次,后来改名为世界统计大会(WSC)。到目前已召开了60届,对统计学的发展和推动各国统计工作发挥了很大的作用。

大数据:新资源、新机会

大数据是人类自身产生的一种新的“自然”资源,与支撑传统经济发展的自然资源,如土地、石油、煤、水等不同,这种人造“自然”资源越用越多,越用越便宜,越用越有价值,以知识、创新、ICT、IT、DT为主要特征的新经济的发展更多是依靠这种新资源。可以说,21世纪的竞争是数据的竞争,谁拥有了大数据,谁就占领了制高点,谁就拥有洞见的能力,谁就能引领未来。

与传统统计学研究的数据比,大数据有几个特点:一是数据量大。按有关机构测算,全球数据量每两年翻一番。这还不是主要问题,因为摩尔定理表明,数据处理能力每18个月就可以翻一番。二是数据类型多。数据不仅仅是数字,包括了结构化数据、半结构化数据和非结构化数据,特别是互联网和通讯技术的迅速发展,电子商务和社交网络的广泛应用,网络日志、音频、视频、图片、地理空间位置、网上交易等成为新的数据形式。三是数据上云。大数据已经无法用传统的存储、计算方式来处理,数据上云意味着,可以通过网络,依托于云计算的分布式处理、分布式数据库、云存储和虚拟化等技术,对海量数据进行整合、挖掘,从技术上看,大数据与云计算就像一对孪生兄弟或者一枚硬币的正反面一样密不可分。

除了上述三个特点外,一般认为大数据还有两个特点:速度和价值。一般将数据量(Volume)、数据类型(Variety)、速度(Velocity)和价值(Value)称为“4V”,刻画了大数据的基本特征。

哈佛大学里·金教授说:“大数据是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商业还是政府,所有领域都将开始这种进程。”今天,我们进入了信息社会,面临着大数据时代的来临,云计算、物联网、移动终端及可穿戴设备高度发达与融合,不管你是谁、不管你愿意不愿意,都要与数据打交道,要么在生产数据,要么在接收数据,不管身在何处,你已经被“大数据”了。从日常生活到国家宏观调控,我们面临的都将是各种数据。如何在各种各样的数据中进行深入的分析和挖掘,发现这些数据当中隐藏的更深刻的规律和现象,就能更好地服务于政府决策和社会各方面的需求,大数据的真正价值就体现在这里。

国际上很多组织和国家,特别是发达国家,都已经把大数据的开发应用提高到战略的高度来研究。联合国《大数据促发展:挑战与机遇》(2012)认为:“大数据像纳米技术和量子计算一样带来了根本性的变革,将会塑造21世纪。”世界经济论坛发布的《大数据、大影响:国际发展的新动向》称:“大数据已经成为一种新的经济资产类别,就像货币或黄金一样。”维克托在《大数据时代—生活、工作与思维的大变革》中说:“大数据时代将带来思维变革、商业变革和管理变革,随着大数据在商业等领域崭露头角,一场为发掘和利用数据价值的竞赛正在全球上演,人类将面临根本性的时代变革。”

大数据时代,我国优势明显。第一,从政策层面,我国已经出台并实施了《促进大数据发展行动纲要》和《中国制造2025》。第二,我国是世界第一人口大国,第二大经济体,有1500多万个法人单位,1800多万个产业活动单位,还有大量其他经济主体不断涌现。人口和经济规模决定了我国是一个数据资源大国。第三,我国是一个网络大国,截至2016年6月,中国互联网普及率达到51.7%,网民规模达7.1亿,手机网民规模达6.56亿,一大批互联网企业、大数据企业正在改变着传统的生产生活方式。第四,大数据时代与我国经济发展新常态正处在一个历史的交汇口,提质增效、转型升级为加快大数据的应用提供了机遇,同时,以大数据开发为基础的一大批产业将形成新的经济增长点,推动新经济的发展,实现动能转换。

大数据催生统计创新

普查和抽样调查是传统的两大数据收集方法。普查不需要统计学方法进行推断估计,因为通过普查,已经取得了所有个体数据和总体的实际分布,这也是为什么人类开始懂得计数就开始进行普查。抽样调查是利用抽样理论解决如何科学设计样本,取得样本个体数据,并科学地推断总体分布及特征。无论是普查还是抽样调查,其核心问题之一是要取得准确的“个体数据”。但在大数据时代,一切皆可量化,一切皆可记录,如何利用更全面、更及时、更经济的网络电子化数据,以及通过对这些数据使用新的分析及挖掘技术,产生新的见解和认识,是我们面临的重大机遇。

大数据和统计思维与方法等有明显的不同,主要表现在以下八个方面:

一是“问题驱动”与“数据驱动”。收集数据是开展统计分析的前提,传统的普查或抽样调查是先确定普查或调查目的,然后再根据目的相应要求和经费确定普查或调查的方法和样本量的大小。也就是说,传统统计方法设计是针对研究问题而收集数据,提出假设,再进行统计检验和推断。这种用有限数据验证先验假定,通常是基于分布理论,以一定的概率为保证,其逻辑关系是“分布理论-概率保证-总体推断”。而大数据强调的是全体数据,总体特征一般不再需要根据分布理论进行推断。不仅如此,还可以根据全面数据和实际分布来判断其中出现某类情况的可能性有多大,其逻辑关系变成了“实际分布-总体特征-概率判断”,也即概率不再是事先预设,而是基于实际分布得出的判断。在大数据时代,由于有足够的数据,足够的变量,可以采用人工智能等来进行数据挖掘和知识发现,广泛开展各种探索性研究,其结论与发现是通过数据分析获得的,也就是数据驱动,用数据决策和用数据创新。

二是“我问你答”与“我取你有”。统计报表、调查问卷是目前全世界开展普查、调查收集数据的主要载体。这种方式是通过结构化的报表将被调查对象的行为转化为可用的数据,这种方式的根本特征“我问你答”,需要被调查者高度配合,包括对问题的正确理解和如实回答填报,否则,数据质量难以保证。但在“大数据”时代,数据来源于信息技术记录下的原始数据,这些数据的参与仅仅依赖于测量方法(如企业生产记录、大量行政记录、GPS定位测量、超市收银管理系统、ETC电子收费系统),充分利用电子记录大数据为政府统计所用,采用“我取你有”的方式,取得更及时、真实的原始数据,由专业统计人员根据统计制度计算统计指标数据,也减少了统计调查和报表整理的中间环节,数据质量将会大大提高。

三是“因果联系”与“相关分析”。传统统计主要通过建立模型探求变量之间的因果关系,并基于模型对因变量进行预测,即预先假定事物之间存在某种因果关系,然后在此假定的基础上构建模型并验证假定存在的因果关系。存在的问题往往是,变量间的因果关系具有时效性,存在“此一时,彼一时”的情况,是在特殊条件和前提假定下的关系,结论的时效性与适用性较为有限。而相关关系具有更加普遍和本质的内涵,有因果关系必有相关关系,有相关关系未必有因果关系。在大数据背景下,数据分析不再探求特定条件下确定性很强的因果关系,而是更加关注普遍意义的相关关系。从超大量数据中发现各种真实存在的相关关系,更加直观、更贴近个体、更容易被理解和接受,可以发现事物发展潜在的规律,具有一定的“智能性”,某种程度上超越了传统统计研究的因果关系,因此,相关分析是大数据时代的重要工作。

四是“样本抽选”与“总体描述”。以统计推断为主要特征的现代统计学研究主要内容是不断改进样本抽样方法和参数设计,从而对总体的特征进行描述。囿于数据收集以及客观条件的限制,总是希望通过尽可能少的样本来了解总体。在这种背景下,产生了各式各样的抽样调查技术和参数估计方法。在分层情况下,样本的数量往往不能有效地减少。大数据时代,样本就是被记录的所有数据,从这个意义上讲,样本就是总体。通过对所有与事物相关的数据进行分析,既有利于了解总体,又有利于了解局部细微。总的来讲,传统的统计抽样调查方法存在的不足可以在大数据时代得到改进。大数定律告诉我们,随着样本数量的增加,样本平均数越来越接近总体,而大数据已经描述了总体信息。

五是“数据烟囱”与“数据平台”。长期以来,我国政府统计是以部门为中心展开的,相互隔离形成了行业垂直的信息化体系,在地方上形成了条块分割的“信息孤岛”,形成一个个“数据烟囱”,数据标准不统一,数据指标不规范,数据平台重复建设。大数据特别是与之相关联云计算,为信息整合提供了新的契机,有助于建立政府信息共享数据平台,提高政府行为的透明度,有效提高政府的公信力,以大数据助推政府决策科学化。大数据的应用将改变政府统计部门的工作模式,整合现有的分散于各职能部门中的“行政记录”,完善多种信息来源的数据采集制度,实现工商、质监、劳动、人社等部门的数据注册、查询、共享和交换,在一个数据平台(包括标准、指标、数据库等),能够揭示传统技术方式难以展现的关联关系,为有效处理复杂社会问题提供新的手段,有助于建立现代化的政府统计调查体系,最大限度地发掘这些数据资源的价值,提高政府统计部门的生产力,建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理体制机制,提升政府治理能力。

六是“以小见大”与“以大见小”。统计学是关于数据的科学,统计是研究结构化“小数据”,其优势在于“以小见大”,通过设计抽取个体样本数据进而分析推断总体特征。大数据的优势在于“以大见小”,通过对各种来源各种结构数据(特别是各种电子网络数据)实时进行整合、量化、关联、识别等,发现其个体特征,进而对总体进行任意细分的描述。

七是“记录历史”与“预测未来”。德国统计学家斯勒兹曾说过:“统计是动态的历史,历史是静态的统计。”这是在300多年前说的,也揭示了统计的基本功能,那就是记录历史。这当然是非常重要的,也是预测的基础。统计预测就是利用历史数据建模、外推进行预测,这里包含了一个假定的前提,就是未来的发展趋势是按照历史数据呈现的规律变化的,或者在对未来可能的选择,改变参数进行人为的调整。这种预测方法和思路,对于今天快速变化发展的社会经济状况,特别是很多不可预测的突发事件的影响,显然是不适应的。技术与创新成为时代的主题,新产业、新业态、新模式等新经济层出不穷,未来的经济发展不能完全用历史的模式来描述,这也要求有新的预测方法。大数据时代,各种传感器和网络设施遍布社会的各个角落,而这些数据是实时的、动态的,具有“零延迟”、即时性等特点,采用智能计算、实时计算等方法,极大地提高了数据的时效性和预测质量。特别是,随着电子商务、互联网金融、社交网络等的飞速发展,互联网已经成为人们生产生活不可或缺的重要场所。人们在互联网上购物、交流、搜索、浏览的各种行为所产生的数据量越来越大。这些数据记录人们搜索内容、搜索频率以及位置等信息,反映了人们社会经济活动、心理活动、情感取向、个体需求、兴趣关注等,未来的变化趋势,体现在今天人们的行为中。

八是“归纳推断”与“演绎推理”。统计研究的任务就是为了发现新的知识,归纳法则是发现新知识的基本方法。因此,归纳推断法成为最主要的统计研究方法,使得我们能够从足够多的个体信息中归纳出关于总体的特征。对于大数据,依然要从中去发现新的知识,依然要通过具体的个体信息去归纳出一般的总体特征,因此归纳法依然是大数据分析的主要方法。大数据是一个信息宝库,仅仅重视一般特征的归纳与概括是不够的,还需要分析研究子类信息乃至个体信息,以及某些特殊的、异常的信息——或许它(们)代表着一种新生事物或未来的发展方向,还需要通过已掌握的分布特征和相关知识与经验去推理分析其他更多、更具体的规律,去发现更深层次的关联关系,去对某些结论做出判断,这就需要运用演绎推理法。演绎法可以充分利用已有的知识去认识更具体、细小的特征,形成更多有用的结论。只要归纳法与演绎法结合得好,就既可以从大数据的偶然性中发现必然性,又可以利用全面数据的必然性去观察偶然性、认识偶然性、甚至利用偶然性,从而提高驾驭事物发展的能力。

新的起点

用数据说话,已经成为现代社会的基本理念。中国古代的管仲说过:“不明于计数而欲举大事,犹无舟楫而欲经于水险也。”著名经济学家马寅初曾说:“学者们不能离开统计而究学,政治家不能离开统计而施政,事业家不能离开统计而执业。”美国管理学家、统计学家戴明说:“除了上帝,任何人都必须用数据来说话。”印度统计学家C.R.RAO表示:“理性来讲,人们的行为过程就是统计。”这些都说明了统计的重要性。

大数据时代为统计提供了大舞台,统计将为大数据添上翅膀。大数据时代的来临,带来新的机遇。我们要真正站在同一起跑线上了,以开放的态度、创新的勇气、不懈的努力抓住历史赋予的机会。古代结绳计数能够记录下的数据与今天海量存储器记录下的数据本质上是一样的,不同的是,古代人知道他们养了多少牛羊、知道每人分多少,但记录不下来;而今天,我们可以记录一切,但传统处理分析能力还不能完全知道这些海量数据中蕴含的规律和见解,这是统计的新战场,也是统计人要努力探寻的新领域。

来源:数据观

]]>
数据分析基础内容介绍 — 模型、工具、统计、挖掘与展现 //www.otias-ub.com/archives/417399.html Tue, 15 Dec 2015 14:59:54 +0000 //www.otias-ub.com/?p=417399 1010

1. 数据分析多层模型介绍

这个金字塔图像是数据分析的多层模型,从下往上一共有六层:148

底下第一层称为Data Sources 元数据层。

比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采集下来的数据等等,然后这些生产的数据通过ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,通过这个过程,我们可以把需要的数据放到数据仓库里面,那这个数据仓库就是多层模型中的第二层。

数据仓库主要是给我们需要存放的数据提供一个物理基础,我们对数据进行分析,原材料都放在这个数据仓库里面,这几年以来,除了数据仓库这个概念,还兴起了数据集市这个概念,数据集市其实就是部门级的数据仓库,规模比较小一点的数据仓库。

再上面一层是Data Exploration,这层主要做统计分析的事情,比如我们算均值、标准差、方差、排序、求最小\大值、中位数、众数等等,这些统计学比较常用的指标,另外还有些SQL查询语句,总的来说主要是做一些目标比较明确,计算方法比较清楚的事情。

第四层是Data Mining数据挖掘层,数据挖掘与数据分析(统计分析)有什么区别呢,数据分析往往是统计量和算法比较清楚,数据挖掘往往是目标不是很清楚,在实现目标的过程中采用什么方法不能确定,所以数据挖掘比数据分析难度要高很多。

第五层是数据展现层,把数据分析和数据挖掘得出来的结果通过数据展现层的图表、报表把他展现出来,也可以称为数据可视化。

最后把这些图表、报表交给决策者,以这个为基础做一些决策。

2. 数据分析工具简介

常用的数据分析工具,包括一些厂商的数据库产品,包括IBM的DB2、甲骨文的Oracle数据库。这些厂商的数据库本身带有一些统计分析的包,里面有些标准的功能可以做数据分析工作,但用这些自带的数据分析工具功能相对不够专业。主要反映在缺乏标准的统计函数,比如做一个线性回归模型,需要写一大堆SQL语句,甚至要写一个plsql程序才能完成。但是在专业的统计软件只需要写一个简单的函数就可以完成。

227

目前最主流的统计软件有R、SAS、SPSS,R是一个免费的开源软件。

SAS大概是历史最悠久的统计软件,是一个商业软件,在60年代就诞生,在70年代以后逐渐商业化,发展到现在SAS已经成为国际标准。

SPSS也是一个历史悠久的统计软件,SPSS一开始是一个仿真软件,后来演变成一个统计软件,目前已经发展成为一个数据挖掘软件,目前被IBM收购,变成IBM旗下的一个产品,在社会学研究院领域有很多的应用。

其他的还有一些软件,比如说水晶报表(Crystal Reports),在做BI和报表非常擅长,另外如UCINET也是在社会学比较常用的软件,它可以画群体的网络图,社交关系图非常擅长。

3. 常用统计方法

使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果:

417

常用算法

515

4. 数据挖掘

数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联。

数据挖掘思想来源:假设检验,模式识别,人工智能,机器学习

常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等

例:啤酒与尿布的故事

5. 展现层:报表与图形

展现层在数据分析中是一个很重要的组成部分,在大家的心目中数据分析软件只是读数据和算数据,结果算出来就OK了。但其实结果算出来以后对于数据分析还远没有结束,还需要把结果展现出来,有些时候可能结果的展现比计算花的时间还要多。

下图是一个比较老土的报表。

616

如果那这种报表给老板看,那体验效果肯定很差,其实人的特点对数字的感觉不敏感,如果你那一大堆数字组成的报表给老板看,老板肯定不是很高兴。

人对图形会比较敏感,所以在统计学里面通常有比较标准的图,如饼图、柱形图(垂直和水平)、虚线图、水泡图、鱼骨图、箱线图等等。

715

下面是一张在地图上展现数据的展现形式

813

下图是关于使用安卓手机的数据展现

912

根据信息图显示,Android先生的头发有47%的可能是黑色的,戴眼镜的几率为37%,有36%的可能是北美人,30%的可能脸上长雀斑。71%的时 间会穿T恤,下身穿牛仔裤的时间占了62%。工作只占了38%,玩游戏却占了62%,平均每个月会用掉582MB的数据流量。这种图称为信息图,在数据分析这个行业里面,是数据展现工作的主要组成部分。

 

]]>
网站分析:未来是移动的天下? //www.otias-ub.com/archives/126847.html Sat, 22 Jun 2013 15:15:49 +0000 //www.otias-ub.com/?p=126847 所有的人都在聊Mobile(移动),我们都感到这个时代已经来临了。

至少对我,Mobile设备影响甚大,不过,浏览基于web的网页基本上还是在PC上。

不过,是否所有人都如此呢?人们使用Mobile终端设备上网频繁吗?中国和美国的网民行为有明显区别吗?

想解答这个问题,基本上应该从大处着手,去做调研、统计,然后横向比较。不过我没有这些条件,我也不太想大费周章。手上刚好有几个网站,有中国的,有海外的,看看这些网站的流量中有多少是从mobile来的,也许能大概知道人们的上网习惯。

 

我找到四个网站作参考。英语网站两个,一个是外贸网站(数万流量一天),另一个是消费导购站(数千流量一天)。中文网站两个,一个是我的博客,另一个是一个大的经济新闻和评论分享类网站(数万流量一天)。英文站和中文站的类型并不相同,所以是否这些数字背后能够形成结论,仅供大家参考。

英文站

先看看外贸站的情况。下图是全部流量和mobile流量的趋势:

是否可以看出一个大概的比例,看起来mobile的流量占到了全站流量的三分之一左右!这个比例相当令我吃惊。

还有没有别的发现呢?

如果把每天mobile占总流量的比例做一个趋势,会发现周末非常重要!老外们回到家中使用PC的趋势降低了。

另外一个站有同样的趋势吗?我截了同样的报表,以及做出了同样每一天的比例趋势:

看起来同样有一个大致的三分之一左右的比例是来自于mobile的访问。那么,周末仍然比平日有更大的渗透率吗?

下图给出了明确的答案,趋势是完全一致的,除了某一个周一,其他日子的周六周日mobile所占的份额更高。

中文站

中国的网友和美国网友一样吗?我们是否也同样如此频繁地使用mobile访问web呢?

先看看访问我的博客的网友,他们用什么方式阅读我的网站:

采用Mobile访问的人群,少的惊人。

那么,周末是否使用Mobile访问Web的人群,比例会提高呢?

周末的趋势似乎没有那么明显。

我的博客毕竟没有巨大的流量,而且博客这种老式的玩意已经快要过时了。那么另外一个网站,经济新闻和评论类网站,拥有相当厉害的流量,会有何种表现呢?

可以看到,这个网站的mobile的比例有所提升,但跟美国相比,仍然差异巨大。

周末是否有不同?

周末跟平日相比,似乎并无任何太多不同。

疑似结论

可以看出,中国和美国使用mobile进行的web访问相比,似乎有决然的不同。美国人使用mobile访问web已经相当普遍。美国的今天,是中国的明天吗?

via:chinawebanalytics

]]>