大数据技术 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Thu, 13 Oct 2016 08:06:33 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 Smart Data Platform – 大数据技术的未来 //www.otias-ub.com/archives/525795.html Thu, 13 Oct 2016 08:01:09 +0000 //www.otias-ub.com/?p=525795 大数据的概念(Big Data)已经火了5年了,从Google Trends上来看11年以来,关注度一路快速增长,到15年开始逐步持平。实际上大数据已经逐步走过了描绘愿景的阶段,人们期待的是大数据能够真正在各个行业落地,产生巨大的价值。但目前来看创造了明显商业价值的应用还是在互联网,除了搜索以外,杀手级的应用也就两个–精准广告和推荐。TalkingData在大数据领域耕耘了5年,发展非常迅速,在很多传统行业的大数据应用都是居于国内领先地位。但是当我们的业务发展得越来越好,涉及的行业越来越多,客户越来越多,项目越来越大,越来越深入的时候,我们却觉得让大数据产生价值的瓶颈也越来越大。从本质上来讲这个瓶颈就是目前大数据在传统行业的应用其边际成本并不是趋于0的。

回过头来看大数据在互联网里的成功应用,无论是搜索,精准广告还是推荐系统,其投入成本是非常高的。需要巨大的计算机集群,和人力成本非常高的程序员和数据科学家,以及大量的研发投入。但是所有这些业务都是在线业务,当用户规模扩大以后,除了硬件资源上的成本外,其他的成本迅速被摊薄,使得其边际成本趋近于0。业务规模越大,边际成本越低,对技术成本的投入也就越不敏感。这也是为什么越是大的互联网公司,越舍得在搜索,广告和推荐系统这几个大数据应用方面做投入。因为提高0.1%的预测精准度,就能获得上亿的收入。作为应用大数据产生价值最大的互联网企业,自然是成为传统企业效仿的榜样。但是传统行业受制于业务规模或者业务形态,无法实现大数据应用的边际成本趋于0。

如果在不具备边际成本趋于0的行业中按照互联网行业成本不敏感的方式来对大数据进行投资,在初期的热情过后一定会发现这是不可接受的。这就是大数据普及化的过程中遇到的最大的瓶颈。我们TalkingData一直致力于为更多的企业提供最高标准的大数据解决方案和服务,但业务的迅速增长迅速吃掉了我们的研发,咨询和数据科学资源,为了保证交付质量,我们不得不拒绝了很多潜在客户。

互联网创造了大数据,基于大数据创造出来的智能在搜索、精准广告、推荐系统等应用中又创造了巨大的商业价值。但是大数据创造智能的成本是非常高昂的,除了基本的软硬件资源投入,最大的成本在于人力资源的成本。收集,清洗,抽取,纠错,整合不同来源的庞大数据几乎完全依赖人的智慧,特征工程,分析,算法开发,建模,调参,优化,部署,测试等等所有这些工作也是完全依依赖于人的智慧。不但需要巨大的人力将应用建立起来,也需要巨大的人力来维护。而且当我们想调整应用的目标时,又需要投入巨大的人力来进行调整。目前的大数据应用方式,就像乌尔邦大炮,耗费人力无数而又笨重不堪,除了用于攻陷君士坦丁堡这样的千年名城外,很难在其他战场上有用武之地。我们现在很多企业,甚至政府都在投入巨资建设自己的乌尔邦大炮,但是很可能这些投资最终只是成为对大数据崇拜的图腾。

广大的中小型互联网公司和众多的传统企业,在大数据方面,真正需要的是成本相对低廉的山炮,野炮,即使用成本和门槛低很多的大数据平台。这样的平台需要更有效率的融合数据,机器的智能和人的智慧,让人的智慧集中在理解数据这样的平台,定义问题,和把握解决问题的路径和方向上。这样的平台应该尽可能的把数据收集,清洗,抽取,纠错,整合的工作交给机器,同时让分析,建模和优化工作摆脱像老中医看病一样依赖人的经验来选择模型,算法和参数。这样的平台就是TalkingData的智能数据平台-Smart Data Platform。Smart Data Platform将极大降低企业建设,使用,和维护数据平台的成本。Smart Data Platform将使得企业不但可以以很低的边际成本运用大数据来提升核心业务的效率,而且可以以合理的成本应用大数据在众多小业务,小场景下获得更好的收益。

 

Smart Data Platform的概念涵盖了数据管理,数据工程和数据科学。但是其精髓就在于用人工智能技术来突破传统完全依赖于人的智慧来驾驭数据的方式,将由人来创造人工智能的方式逐步转向由人工智能来创造人工智能。这将是大数据和人工智能发展的革命性变化,就如由人来创造机器转变为用机器来创造机器,从而打开了工业革命的大门一样,大数据和人工智能的发展也将进入一个快速螺旋上升的阶段。

当然,如此宏伟的目标并不能一蹴而就。就目前而言,大数据技术最大的两个瓶颈就在于数据加工处理和分析建模。前者通常被认为是繁重的dirty work, 没有多少人真正爱干。后者虽然是让人兴奋的工作,但是其更接近于艺术,对人的能力,直觉,和经验要求很高。前者因为工作量的庞大,后者因为人才的稀缺,成为了目前大数据技术的阿格琉斯之踵。TalkingData在这两个方面都做了一些工作,也对未来的发展方向做了一些展望。

数据的处理加工目前基本完全依赖人的智慧,对数据如何清洗,如何纠错,如何标准化,如何聚合相似数据都要求人来制定规则,对数据关系的梳理更是有赖于人的智慧的输入。在大数据时代到来之前,这些问题都不被人重视,但是从2012年大数据概念逐渐火起来之后,在VLDB, SIGMOD等学术会议上关于数据处理的论文达到204篇。学术界,工业界逐渐认识到这个问题是大数据晴朗的天空上的一朵大乌云, 是必须要解决的问题。 AMPLab的SampleClean项目就是致力于用机器学习来解决数据的抽取,格式化,相似度连接等问题的项目。国外也有一些公司比如Tamr也在研发利用机器学习技术来解决元数据识别,纠错,数据表自动关联和相似数据项聚合的产品。SampleClean和Tamr都使用了Active Learning的技术,在处理过程中对不确定的问题会提出来,让人来回答,然后学习到人的判断规律,不断提高自身的智能程度。数据处理智能化这方面的研究和尝试应该说还处于起步阶段,还没有特别成熟的开源项目或者商业产品。TalkingData基于自己的实践和对该方向跟踪研究,将数据智能处理分为两个阶段,数据关系梳理,和数据项聚合。

数据关系梳理,是把所有数据表或者文件的Meta Data识别出来,然后根据Meta Data之间的关系把所有的数据表或者文件的关联关系梳理出来。目前,这个过程基本都是由人来完成的,是个非常费时费力的工作,效率很难得到有效提高。如果要把这个过程自动化,那么会有三个层次的问题。首先,最简单的,直接对Meta Data识别,这个通过将人的经验固化下来就可以解决这个问题。比如对手机号字段的识别,可以将常见手机号字段命名方式作为规则固化下来,在Meta Data识别时直接用规则判断。当然,事先固定的规则很难处理所有问题,这时可以引入Active Learing的方法,在不确定时可以让人来介入判断,然后再学习人的判断成为新的规则。 其次,在很多情况下Meta Data的命名不具意义,或者因为某些原因丢失了Meta Data,那么直接判断Meta Data本身就没有办法,这种情况下可以通过字段值的特征来判断字段的意义,如手机号,是11位,以13x, 15x, 18x, 17x开头的数字有很大可能是手机号,如果字段值都符合这些特征,那么这个字段就有非常高的可能性是手机号。同样,我们可以通过预置规则+Active Learning的方式来支持这一功能。通过以上两种方法识别除了字段的意义后,则可以很容易的建立起数据之间的关联关系。但是,还有一种最困难的情况,就是通过以上两种方式都无法确定意义的字段之间是否存在关联关系。 这种情况下,我们需要预先建立通用的字段关联识别的机器学习模型,根据两个字段的数据值判断两个字段是否是同一字段。通过以上这些方法,机器能够给出数据表或者文件之间的关系,当然受限于机器的智能能力,不可能完全准确,因此对于任何两个表或者文件之间的关联关系,给出的是相关的可能性,而不是是否关联,最后让人来介入修正这些可能的关联关系。这样,梳理数据关系中大量繁重的工作都由机器完成,人只是介入其中为机器提供一些咨询,和最后确认结果,将大大提高人的效率。

数据项聚合或者相似度连接(Similarity Join)是另一个比较挑战的任务,因为相同的数据项因为书写习惯,格式的不同,有可能产生一些差别。比如人名,地名,国家名称等。对于变化不大的情况,采用相似度度量方法,再加上局部敏感哈希来加速匹配过程能取得不错的效果。TalkingData在应用包名合并的问题上综合了应用名,包名的字符串相似性,应用描述的文本相似性,和基于深度学习的图片相似度实现了包名的自动合并。但是对于更为复杂的问题,比如全称和简写的问题,同义词,反义词,甚至是不同语言的问题,要比较好的解决这一问题,就需要知识图谱的支撑。

数据分析建模中一个很大的问题就是模型选择和参数选择,这个问题对于数据科学家来说一直都是很头疼的问题。知乎上有一个问题:为什么越来越觉得机器学习调参就像老中医看病? 非常有意思,问题及其回答都体现了模型选择和参数选择是一个严重依赖数据科学家个人经验的工作。目前有一些开发数据科学平台的公司为了解决这个问题,就在其产品中集成了自动选择模型和参数的功能,其基本原理就是尝试所有的模型及其参数空间(有可能根据一些启发式方法来对搜索空间剪枝)。这种方法在小数据集上是可行的,但是对于大规模数据的问题,需要的计算量就是不可接受的。TalkingData在这方面做了一些工作,在即将开源的Fregata大规模机器学习算法库中,我们实现了不需要调参的几个经典算法,这样就使得算法可以作为标准的算子集成到数据处理流程中,而不需要case by case由数据科学家来调校,从而极大的提高在大规模问题上分析建模过程的效率。

以上两个方面是TalkingData Smart Data Platform短期致力于达到的目标,有了智能的数据处理,和智能的数据分析建模,就可以大大提高大数据应用的效率,降低成本。使得大数据在小业务,小场景中也能创造出超过成本的价值,使得广大的中小互联网公司和传统企业都能享受大数据的红利。TalkingData也可以更高效的支持更多的客户,帮助更多的企业在大数据上成功。“用数据的心智去超越”,TalkingData Smart Data Platform赋予机器以智能帮助人更好,更高效创造数据的心智去超越我们的梦想。

文章作者:

张夏天,TalkingData首席数据科学家,全面负责移动大数据挖掘工作,包括移动应用推荐系统、移动广告优化、移动应用受众画像、移动设备用户画像、游戏数据挖掘、位置数据挖掘等工作。同时负责大数据机器学习算法的研究和实现工作。

]]>
中国科学院高能物理研究所陈刚:大数据技术在高能物理中的应用 //www.otias-ub.com/archives/465450.html Sat, 23 Apr 2016 15:30:48 +0000 //www.otias-ub.com/?p=465450 现代大科学的标志为大科学机构、大科学工程和大科学装置。大科学装置常产生海量的数据,因此在大数据技术领域提出了巨大挑战。国内外高能物理实验研究是典型的大科学装置,同时在不断推动大数据技术及应用的发展。在应用需求的引导下,高能物理领域积累了大量的大数据存储、计算处理和共享等技术和经验。

1461425340-2863-3417eb9bbd901881204005
高能物理的目标

高能物理的目标就是探索物质微观结构、宇宙起源等自然规律。目前已经证明微观世界有六种夸克(quarks),还有六种轻子(leptons),这些一起组成了宇宙万物。这些粒子之间的相互组合主要有三种相互作用力:电磁相互作用力、强相互作用力以及热相互作用力,当然,还有第四种力,那就是万有引力。

高能物理,也叫粒子物理。我国也有很多高能物理的实验,其中一个就是BEPCII/BESIII对撞机,它是世界先进的双环对撞机,5年内将积累5PB 的数据,需要万个CPU用于数据分析,中国、美国、德国、俄罗斯、日本等36个研究所参与合作。

另外,在亚湾反应堆做中微子实验,有38个研究所300多名科学家参与合作,产生了4PB以上数据。在2012年发现中微子第三种震荡,精确测量θ13同时,利用西藏羊八井得天独厚的优势,中意、中日合作进行宇宙线实验,每年产生超过200TB的原始数据,数据需从羊八井传回高能所,在传到日本、意大利进行分析处理,合作单位能够实时访问数据。

高能物理的实际应用

在高能物理领域,实验数据采集之后,还要面临数据的传输、保存,以及计算等一系列的挑战。这将会产生大量的数据,这个大数据的特点是随机变量空间很大,产生的末态粒子极其丰富;精确测量需要大样本。在计算过程中,也是非常复杂的,末态的模式复杂(随机变量)。物理图像还原非常复杂,如图像处理、模式识别技术;拟合及误差估计。

高能物理大数据的处理过程如下:第一,数据获取与记录。从探测器获取RawData、蒙特卡洛产生数字化的二进制格式的电子信号;第二,数据处理。处理后Raw/MC Raw产生相关物理信息,如动量、对撞顶点等;第三,数据挖掘。由上千个属性组成的DST事例文件,提供物理学家进行分析,并最后产生物理结果。

在“大数据(big data)”时代,PB级甚至EB的科学研究数据尤其需要在存储模式、技术架构、共享传输、全球协同、高效处理等方面有所突破。

计算平台的发展

计算平台的发展历程,与计算机发展历程是完全一致的,经历了从大型机,经集群,到网格,再到云计算的演变。本地计算集群是基础,计算网格是“集群之集群”,需要整合计算资源。而云计算更注重平台的通用性,提高资源利用率。因此需要对云计算与网格计算加以整合。

1461425339-9404-3417eb9bbd901881203704
图1是一个典型的本地集群架构。这个系统目前也仍在使用,但是随着CPU的计算能力、存储量越来越大的时候,系统就会出现问题。

目前世界上最成功的一个网格系统,实际上就是用来做高能物理的。它有若干分层,0级、1级、2级、3级,甚至一直到4级,这样一个分布式的计算环境。0级中心主要接收原始数据,保存在磁带系统中,并进行第一遍数据重建,向Tier1分发数据;一级中心(13个)主要提供原始数据备份,执行数据重建、分析等任务,并提供数据分发等网格服务;二级中心(>160个)主要执行模拟、数据分析等任务。

当然,计算集群或网格存在不足之处,如CPU资源利用率不足、遗留程序与操作系统不匹配、调度不灵活、运维成本高等问题。这时,就需要引入虚拟化和云计算。

虚拟计算集群在物理机和RMS(资源管理系统)之间构造虚拟层,将物理机虚拟化,形成多个虚拟机。同时,将RMS安装在虚拟机上,对用户完全透明,减少运维工作量,提高资源利用率。

欧洲核子研究中心的“CERN Cloud”是世界最大的虚拟集群之一,它基于Openstack构建,并于2013年开始运行。统一管理两个数据中心(日内瓦与布达佩斯),其规模为4600个物理机,12.5万颗CPU核,15000个虚拟机,2016年还将扩充资源。根据集群任务动态创建或删除虚拟机,平均10秒钟创建/删除一个虚拟机。据了解,CERN团队获得Openstack巴黎峰会SuperUser大奖。

在国内,我们有自己的实验和计算环境。例如,之前提到的BESIII分布式计算系统,采用Pilot与计算插件技术,整合合作单位的计算资源,能够根据用户作业的数目进行实时的虚拟机动态创建和删除,实现资源弹性管理。共14个站点,分布在中国,美国,俄罗斯和意大利。

在先进信息化环境的支撑下,BESIII实验一直领跑全球tau-粲物理研究。

2013年3月宣布发现了奇特态候选者–带电类粲偶素Zc(3900);2013年6月18日,《自然》(nature)杂志就此发表了题为“夸克‘四重奏’打开了物质世界一扇崭新的大门)”的新闻报道;这一成果被国际物理学顶级期刊、美国物理学会主编的《物理》杂志选为2013年国际物理学领域重要成果,在11个入选项目中位列第一;《粒子物理手册》2014版收录Zc(3900),是唯一收录的在我国发现的新粒子!

高能物理的应用不同于互联网文本数据挖掘,它具有以下特点:数据以对象方式存储,使用C++库访问;非类型计算;随机访问;复杂的数据类型。

高能物理领域,实际上是一个大科学、大需求、大数据、大计算、大发现的过程。它要求多种计算技术,推动了信息化技术的发展。同时,多种信息化支撑手段也在推动高能物理科学的进步,这是一个相辅相成的过程。

(本文整理自中国科学院高能物理研究所副所长陈刚在第四届中国科研信息化发展研讨会上的演讲“高能物理中的大数据技术”)

]]>
大数据技术人员工具包最全集合 //www.otias-ub.com/archives/448810.html Tue, 15 Mar 2016 06:12:16 +0000 //www.otias-ub.com/?p=448810 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用工具,本文全面梳理数据分析师和数据科学家使用的工具包,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大类,部分网址!

数据科学家是有着开阔视野的复合型人才,他们既有坚实的数据科学基础,如数学、统计学、计算机学等,又具备广泛的业务知识和经验数据科学家通过精深的技术和专业知识在某些科学学科领域解决复杂的数据问题,从而制定出适合不同决策人员的大数据计划和策略。数据分析师和数据科学家使用的工具在网上的MOOC有提供,比如2016年2月1日约翰-霍普金斯大学Coursera数据科学专业化课程等网络课程。数据科学家的常用工具与基本思路,并对数据、相关问题和数据分析师和数据科学家使用的工具做了综合概述。

1458022273-8687-0311

A.大数据技术平台相关2015最佳工具

InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。

1. Spark

在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快。与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API,类似于R和Pandas的发现,使数据访问比原始RDD接口更简单。Spark的新发展中也有新的为建立可重复的机器学习的工作流程,可扩展和可优化的支持各种存储格式,更简单的接口来访问机器学习算法,改进的集群资源的监控和任务跟踪。spark-packages.org网站上有超过100个第三方贡献的链接库扩展,增加了许多有用的功能。

2. Storm

Storm是Apache项目中的一个分布式计算框架项目,主要应用于流式数据实时处理领域。他基于低延时交互模式理念,以应对复杂的事件处理需求。和Spark不同,Storm可以进行单点随机处理,而不仅仅是微批量任务,并且对内存的需求更低。在我的经验中,他对于流式数据处理更有优势,特别是当两个数据源之间的数据快速传输过程中,需要对数据进行快速处理的场景。Spark掩盖了很多Storm的光芒,但其实Spark在很多流失数据处理的应用场景中并不适合。Storm经常和Apache Kafka一起配合使用。

3. H2O

H2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。几个有用的R扩展包,如ddply已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用苏打水(Spark+ H2O)你可以访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

4. Apex

Apex是一个企业级的大数据动态处理平台,即能够支持即时的流式数据处理,也可以支持批量数据处理。它可以是一个YARN的原生程序,能够支持大规模、可扩展、支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性(精确一次处理、最少一次、最多一次)。以前DataTorrent公司开发的基于Apex的商业处理软件,其代码、文档及架构设计显示,Apex在支持DevOps方面能够把应用开发清楚的分离,用户代码通常不需要知道他在一个流媒体处理集群中运行。Malhar是一个相关项目,提供超过300种常用的实现共同的业务逻辑的应用程序模板。Malhar的链接库可以显著的减少开发Apex应用程序的时间,并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制,以满足个人业务的要求。所有的malhar组件都是Apache许可下使用。

5. Druid

Druid在今年二月转为了商业友好的Apache许可证,是一个基于“事件流的混合引擎,能够满足OLAP解决方案。最初他主要应用于广告市场的在线数据处理领域,德鲁伊可以让用户基于时间序列数据做任意和互动的分析。一些关键的功能包括低延迟事件处理,快速聚合,近似和精确的计算。Druid的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。实时分析基于实时管理(JVM)节点来处理,最终数据会存储在历史节点中负责老的数据。代理节点直接查询实时和历史节点,给用户一个完整的事件信息。测试表明50万事件数据能够在一秒内处理完成,并且每秒处理能力可以达到100万的峰值,Druid作为在线广告处理、网络流量和其他的活动流的理想实时处理平台。

6. Flink

Flink的核心是一个事件流数据流引擎。虽然表面上类似Spark,实际上Flink是采用不同的内存中处理方法的。首先,Flink从设计开始就作为一个流处理器。批处理只是一个具有开始和结束状态的流式处理的特殊情况,Flink提供了API来应对不同的应用场景,无论是API(批处理)和数据流API。MapReduce的世界的开发者们在面对DataSet处理API时应该有宾至如归的感觉,并且将应用程序移植到Flink非常容易。在许多方面,Flink和Spark一样,其的简洁性和一致性使他广受欢迎。像Spark一样,Flink是用Scala写的。

7. Elasticsearch

Elasticsearch是基于Apache Lucene搜索分布式文件服务器。它的核心,Elasticsearch基于JSON格式的近乎实时的构建了数据索引,能够实现快速全文检索功能。结合开源Kibana BI显示工具,您可以创建令人印象深刻的数据可视化界面。Elasticsearch易于设置和扩展,他能够自动根据需要使用新的硬件来进行分片。他的查询语法和SQL不太一样,但它也是大家很熟悉的JSON。大多数用户不会在那个级别进行数据交互。开发人员可以使用原生JSON-over-HTTP接口或常用的几个开发语言进行交互,包括Ruby,Python,PHP,Perl,Java,JavaScript等。

8. SlamData

如果你正在寻找一个用户友好的工具,能理解最新流行的NoSQL数据的可视化工具,那么你应该看一看SlamData。SlamData允许您用熟悉的SQL语法来进行JSON数据的嵌套查询,不需要转换或语法改造。该技术的主要特点之一是它的连接器。从MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多数业界标准的外部数据源可以方便的进行整合,并进行数据转换和分析数据。你可能会问:“我不会有更好的数据池或数据仓库工具吗?请认清这是在NoSQL领域。

9. Drill

Drill是一种用于大型数据集的交互分析的分布式系统,由谷歌的Dremel催生。Drill专为嵌套数据的低延迟分析设计,它有一个明确的设计目标,灵活的扩展到10000台服务器来处理查询记录数据,并支持兆级别的数据记录。嵌套的数据可以从各种数据源获得的(如HDFS,HBase,Amazon S3,和Blobs)和多种格式(包括JSON,Avro,和buffers),你不需要在读取时指定一个模式(“读时模式”)。Drill使用ANSI 2003 SQL的查询语言为基础,所以数据工程师是没有学习压力的,它允许你连接查询数据并跨多个数据源(例如,连接HBase表和在HDFS中的日志)。最后,Drill提供了基于ODBC和JDBC接口以和你所喜欢的BI工具对接。

 

10. HBASE

HBase在今年的里程碑达到1.X版本并持续改善。像其他的非关系型的分布式数据存储一样,HBase的查询结果反馈非常迅速,因此擅长的是经常用于后台搜索引擎,如易趣网,博科和雅虎等网站。作为一个稳定的、成熟的软件产品,HBase新鲜的功能并不是经常出现,但这种稳定性往往是企业最关心的。最近的改进包括增加区域服务器改进高可用性,滚动升级支持,和YARN的兼容性提升。在他的特性更新方面包括扫描器更新,保证提高性能,使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询,其SQL兼容性在稳步提高。Phoenix最近增加了一个Spark连接器,添加了自定义函数的功能。

11. Hive

随着Hive过去多年的发展,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据仓库领域。目前基金会主要集中在提升性能、可扩展性和SQL兼容性。最新的1.2版本显著的提升了ACID语意兼容性、跨数据中心复制,以及以成本为基础的优化器。Hive1.2也带来了改进的SQL的兼容性,使组织利用它更容易的把从现有的数据仓库通过ETL工具进行转移。在规划中讲主要改进:以内存缓存为核心的速度改进 LLAP,Spark的机器学习库的集成,提高SQL的前嵌套子查询、中间类型支持等。

12. Kylin

Kylin是eBay开发的用于处理非常大量数据的OLAP分析系统,他使用标准的SQL语法,和很多数据分析产品很像。Kylin使用Hive和MR来构建立方体,Hive用作预链接,MR用作预聚合,HDFS用来储存构建立方体时的中间文件,HBase用来存储立方体,HBase的coprocessor(协处理器)用来响应查询。像大多数其他的分析应用一样,Kylin支持多种访问方法,包括JDBC,ODBC API进行编程访问以及REST API接口。

13. CDAP

CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念:数据和应用程序。CDAP数据集是数据的逻辑展现,无论底层存储层是什么样的;CDAP提供实时数据流处理能力。应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景,避免程序开发者淹没在Hadoop的底层细节中。CDAP自带的数据摄取框架和一些预置的应用和一些通用的“包”,例如ETL和网站分析,支持测试,调试和安全等。和大多数原商业(闭源)项目开源一样,CDAP具有良好的文档,教程,和例子。

14. Ranger

安全一直是Hadoop的一个痛处。它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。事实是,Hadoop有很多的安全功能,虽然这些安全功能都不太强大。我的意思是,每一个组件都有它自己的身份验证和授权实施,这与其他的平台没有集成。2015年5月,Hortonworks收购XA /安全,随后经过了改名后,我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下,它允许你设置一个“策略”,把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制,通过一个漂亮的页面来做管理、审计、加密。

15. Mesos

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、 MPI、Hypertable、Spark等。Mesos是Apache孵化器中的一个开源项目,使用ZooKeeper实现容错复制,使用Linux Containers来隔离任务,支持多种资源计划分配(内存和CPU)。提供Java、Python和C++ APIs来开发新的并行应用程序,提供基于Web的用户界面来提查看集群状态。Mesos应用程序(框架)为群集资源协调两级调度机制,所以写一个Mesos应用程序对程序员来说感觉不像是熟悉的体验。虽然Mesos是新的项目,成长却很快。

16. NiFi

Apache NiFi 0.2.0 发布了,该项目目前还处于 Apache 基金会的孵化阶段。Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统。Apache NiFi 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目,其设计目标是自动化系统间的数据流。基于其工作流式的编程理念,NiFi非常易于使用,强大,可靠及高可配置。两个最重要的特性是其强大的用户界面及良好的数据回溯工具。NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的进行迭代。其数据回溯特性允许用户查看一个对象如何在系统间流转,回放以及可视化关键步骤之前之后发生的情况,包括大量复杂的图式转换,fork,join及其他操作等。另外,NiFi使用基于组件的扩展模型以为复杂的数据流快速增加功能,开箱即用的组件中处理文件系统的包括FTP,SFTP及HTTP等,同样也支持HDFS。NiFi获得来来自业界的一致好评,包括Hortonworks CEO,Leverage CTO及Prescient Edge首席系统架构师等。

17. Kafka

在大数据领域,Kafka已经成为分布式发布订阅消息的事实标准。它的设计允许代理支持成千上万的客户在信息吞吐量告诉处理时,同时通过分布式提交日志保持耐久性。Kafka是通过在HDFS系统上保存单个日志文件,由于HDFS是一个分布式的存储系统,使数据的冗余拷贝,因此Kafka自身也是受到良好保护的。当消费者想读消息时,Kafka在中央日志中查找其偏移量并发送它们。因为消息没有被立即删除,增加消费者或重发历史信息不产生额外消耗。Kafka已经为能够每秒发送2百万个消息。尽管Kafka的版本号是sub-1.0,但是其实Kafka是一个成熟、稳定的产品,使用在一些世界上最大的集群中。

18.OpenTSDB

opentsdb是建立在时间序列基础上的HBase数据库。它是专为分析从应用程序,移动设备,网络设备,和其他硬件设备收集的数据。它自定义HBase架构用于存储时间序列数据,被设计为支持快速聚合和最小的存储空间需求。通过使用HBase作为底层存储层,opentsdb很好的支持分布与系统可靠性的特点。用户不与HBase的直接互动;而数据写入系统是通过时间序列的守护进程(TSD)来管理,它可以方便的扩展用于需要高速处理数据量的应用场景。有一些预制连接器将数据发布到opentsdb,并且支持从Ruby,Python以及其他语言的客户端读取数据。opentsdb并不擅长交互式图形处理,但可以和第三方工具集成。如果你已经在使用HBase和想要一个简单的方法来存储事件数据,opentsdb也许正好适合你。

19. Jupyter

大家最喜欢的笔记应用程序都走了。jupyter是“IPython”剥离出来成为一个独立的软件包的语言无关的部分。虽然jupyter本身是用Python写的,该系统是模块化的。现在你可以有一个和iPython一样的界面,在笔记本电脑中方便共享代码,使得文档和数据可视化。至少已经支持50个语言的内核,包括Lisp,R,F #,Perl,Ruby,Scala等。事实上即使IPython本身也只是一个jupyter Python模块。通过REPL(读,评价,打印循环)语言内核通信是通过协议,类似于nrepl或Slime。很高兴看到这样一个有用的软件,得到了显著的非营利组织资助,以进一步发展,如并行执行和多用户笔记本应用。

20. Zeppelin

Zeppelin是一个Apache的孵化项目. 一个基于web的笔记本,支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享)。一些基本的图表已经包含在Zeppelin中。可视化并不只限于SparkSQL查询,后端的任何语言的输出都可以被识别并可视化。 Zeppelin 提供了一个 URL 用来仅仅展示结果,那个页面不包括 Zeppelin 的菜单和按钮。这样,你可以轻易地将其作为一个iframe集成到你的网站。Zeppelin还不成熟。我想把一个演示,但找不到一个简单的方法来禁用“Shell”作为一个执行选项(在其他事情)。然而,它已经看起来的视觉效果比IPython笔记本应用更好,Apache Zeppelin (孵化中) 是 Apache2 许可软件。提供100%的开源。

来源:raincent.com

199IT大数据导航,汇集超1000多款与数据相关的工具(http://hao.199it.com/ ),欢迎分享收藏!

]]>
2016 年大数据技术发展趋势解读 //www.otias-ub.com/archives/419374.html Sun, 20 Dec 2015 15:49:02 +0000 //www.otias-ub.com/?p=419374 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000001 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000002 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000003 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000004 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000005 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000006 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000007 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000008 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000009 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000010 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000011 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000012 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000013 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000014 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000015 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000016 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000017 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000018 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000019 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000020 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000021 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000022 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000023 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000024 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000025 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000026 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000027 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000028 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000029 01 BDTC2015-启明星辰-潘柱廷-中国大数据技术与产业发展报告_000030

]]>
计算机工程师利用大数据技术发现遗传病病因 //www.otias-ub.com/archives/339017.html Fri, 10 Apr 2015 16:47:36 +0000 //www.otias-ub.com/?p=339017 2015041013392740555477

大数据:一个我们经常看到、听到的词语,但却难以理解。华盛顿大学(Washington University)工程与应用科学学院(School of Engineering & Applied Science)的计算机科学家们处理了有关一种重要蛋白质的一些大数据,并发现这种蛋白质在人类历史上的联系网及在复杂神经疾病中所起作用的线索。

计算机科学研究助理教授Sharlee Climer博士和计算机科学及医学院遗传学教授Zhang Weixiong博士通过一种新颖的大数据分析方法发现14号染色体上包含有桥尾蛋白基因(gephyrin gene)的区域在几千年前向两个完全相反的方向分裂之后经历了快速的进化。这些被称为阴阳(yin and yang)的相反方向在今天世界上不同的人群中仍很明显。

他们同人文与科学学院(College of Arts & Sciences)生物学系(Department of Biology)Charles Rebstock荣誉退休教授Alan Templeton博士共同完成的该项研究结果发表在3月27日的Nature Communications上。

桥尾蛋白是脑中传递信息受体的主调节因子。该蛋白的功能失调会导致癫痫、阿尔茨海默病(Alzheimer’s disease)、精神分裂症(schizophrenia)及其它神经疾病。此外,没有桥尾蛋白我们的身体就不能合成必要的微量营养素。

该研究团队利用了来自国际人类基因组单元型图计划(International HapMap Project)以及千人基因组计划(1000 Genomes Project)的大数据。国际人类基因组单元型图计划是一个有世界范围内人群遗传数据的公共资源,旨在帮助研究者找到同人类疾病相关的基因。千人基因组计划是另一个已测序人类基因组的公共数据库。他们一共研究了3,438名个体的遗传数据。

分析这些数据时,他们在一个被称为单元型的包含桥尾蛋白的标记物序列中有了一个有趣的发现:高达80%的该单元型都要么完美结合的阴阳型,要么是彼此完全相反的类型,即阴型和阳型。他们可以追踪此分裂到称为单元型始祖单元型(Ancestral haplotype),或是最近的人类共同祖先。

Climer说:“我们观察到始祖单元型分裂为两个不同的单元型后继而经历了快速的进化,每一个单元型都拥有大约140个不同于始祖单元型的标记物。数量众多的突变将会产生大量的中间单元型,但这些中间类型几乎全部消失了,而不同的阴、阳单元型在代表每一个重要人类祖先的种群中都普遍存在。”

利用来自单元型图计划(HapMap Project)的数据,他们研究了几个不同人群的桥尾蛋白区域,其中包括欧洲、东南亚和非洲后裔,找到每一人群中单元型频繁变化的变异体。那些来自非洲的一般有更多的阳单元型,而那些欧洲起源的则有更多的阴单元型。那些亚洲血统的有着几乎相等数量的阴、阳单元型。

人类携带有成对的染色体,30%的日本人携带两个阴单元型或两个阳单元型。另30%个体拥有一个阴单元型和一个阳单元型,反映出大致相同的遗传概率。

为在巨大的数据集中发现这个模式,研究团队使用一种新的方法来评估单核苷酸多态性(single nucleotide polymorphisms, SNPs)或SNPs的遗传标记物中的相关性。SNPs是使人类彼此各不相同的DNA序列中的变量元素。

该团队的方法,称为“BlocBuster”,即计算每一对SNPs间的相关性,并建立一个这些相关性的关系网。通过观察这一关系网,研究者可以找到很多相互关联的标记物。

Climer说:“例如,你可以利用你脸谱(Facebook)上的所有朋友建一个脸谱网络。如果你的朋友中有两个彼此也是朋友,你就可以在网络中把他们联系起来。如果你看到有一群人彼此都互相联系起来,他们可能有某些共同点,比如亲属关系、同上一所学校或者某些类型的社会交往关系。类似地,通过有效的算法和足够的处理员和时间,我们可以研究每一对SNPs,建立这样的关系网并观察许多互相联系的SNPs。”

Zhang表示:“‘BlocBuster’方法是全基因组关联研究(genome-wide association studies, GWAS),或广为人知的GWAS传统方法的范式转变,传统方法中一次只有一个或几个标记物被研究。新方法确实是应对如单元型图计划和千人基因组计划这样大数据的数据探矿挖掘式技术。”

研究者也可以对该方法进行设计来研究复杂性状和复杂疾病。

Zhang说,“‘BlocBuster’能够检测网络化的、复杂性状典型的遗传标记物组合。该方法适用于分析诸如体重这样由多个遗传因子决定的性状,以及种群中的遗传模式,例如我们发现的阴-阳单元型。”

最终,他们希望这种方法将阐明疾病的遗传根源。

Climer说,“最复杂疾病是由一组遗传变异一起相互作用而引发的。患有某种疾病的不同人群可能是受不同组变异体的影响。当一次研究一个标记物时没有足够的力量来看到这些复杂的关联。我们正采用一种混合的方法,同时研究这些标记物的组合,这样才能搞清楚那些模式。”

via:科学之家

]]>
大数据技术 未来发展前景及趋势分析 //www.otias-ub.com/archives/336817.html Mon, 30 Mar 2015 07:35:22 +0000 //www.otias-ub.com/?p=336817 92129042-617x416

 流大数据分析

· Storm: Apache Storm是一种开源的分布式实时计算系统。Storm加速了流数据处理的过程,为Hadoop批处理提供实时数据处理。

· Spark: Spark是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于Hadoop MapReduce更快。Spark适合机器学习以及交互式数据查询工作,包含Scala、Python和Java API,这更有利于开发人员使用。

· Twitter流处理工具Summingbird: 与Storm和Scalding相似,开发者可以使用非常接近原生的Scala或者Java 在Summingbird上执行MapReduce作业。

· AWS Kinesis: Amazon Kinesis是一种实时数据流处理管理服务。它可以收集和处理来自不同数据源的数据,允许开发者编写可处理实时信息的应用程序,来源网站click-streams、营销和财务信息、制造工具和社交媒体,和操作日志和计量数据。

· Data Torrent:Data Torrent是实时流媒体平台,可使企业执行数据处理或转换结构化与非结构化数据、实时数据流到数据中心。该产品主要利用Hadoop 2.0和YARN技术。

· Spring XD:通过任意数量的处理器,Spring XD架构支持事件驱动的数据流摄入。流是由Spring集成适配器支持。

· SQL Stream: SQL Stream为流媒体分析、可视化和机器数据持续集成提供了一个分布式流处理平台。

  大数据(Hadoop)即服务

· Elastic MapReduce: Amazon Elastic MapReduce(亚马逊EMR)是一个web服务,提供大量数据处理。通过一个大小可调整的Amazon EC2实例集群,EMR使用Hadoop来分配并处理数据。

· Qubole: Qubote的大数据服务提供Hadoop集群内置数据连接器和大数据项目图形编辑器。

· Mortar:Mortar 是一个通用的大规模科学数据平台。它建立在Amazon Web服务云,使用弹性MapReduce(EMR)启动Hadoop集群并处理大型数据集。Mortar可运行Apache Pig,这是一个构建在Hadoop上的数据流语言。此外,Mortar还可运行Hadoop]、Pig、Java、Python和Luigi等,让用户专注于研究科学数据,无需担心IT基础设施。

· Rackspace: Rackspace Hadoop集群可运行Hadoop Rackspace托管专用服务器,自旋向上Hadoop公共云,或配置自己的私有云。

· Joyent : Joyent Hadoop是一个基于Apache Hadoop项目大数据托管环境云的解决方案。提供数据存储服务获取、分析和访问任何数据格式、数据管理服务以处理、监控和运行Hadoop及数据平台服务安全、存档和规模一致的可用性。

· Google: Hadoop在谷歌的云平台上使用开源的Apache Hadoop谷歌计算引擎的虚拟机。

  SQL-in-Hadoop解决方案

· Apache Hive: Apache Hive优化了大型数据集分布式存储的查询和管理过程。Mapreduce开发者也可以插入自定义映射器和还原剂。

· Impala: Cloudera的Impala是一个开源的大规模并行处理(MPP)SQL查询引擎,运行在Apache Hadoop。用户可直接查询存储在HDFS和Apache HBase的数据,无需进行数据迁移或转换。

· Shark: Shark是一种与Apache Hive兼容的Spark数据仓库系统。Shark支持Hive查询语言、metastore、序列化格式和用户自定义函数。

· Spark SQL: Spark SQL的前身是shark。在hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,是当时唯一运行在hadoop上的SQL-on-Hadoop工具。但是,MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的SQL-on-Hadoop工具开始产生。

· Apache Drill: Apache Drill目前是Apache的一个孵化项目。提供了不同数据源特别的查询,包括嵌套数据。受Google Dremel的启发,Drill是专为大型数据集提供可扩展性和查询的能力。该项目是由MapR写成。

· Apache Tajo: Apache Tajo是Apache Hadoop大数据相关的分布式数据仓库系统。Tajo专为低延迟、可扩展的即时查询、在线聚合及ETL(提取-转换-装载过程)在大型数据集存储在HDFS(Hadoop分布式文件系统)和其他数据源。

· Presto: Presto框架转眼间从Facebook框架是一个Presto是Facebook开发的开源分布式SQL查询引擎,支持对任意级大小的数据源进行快速地交互分析。

· Phoenix: Phoenix是一款开源的Apache HBase SQL查询引擎,由JDBC驱动程序,可使用SQL查询和管理HBase表。此项目已提交成为Apache孵化器项目。

· Pivotal’s HAWQ: 作为Pivotal大数据集的一部分,HAWQ是一个MPP SQL处理引擎。HAWQ实际上就是一个大规模并行处理工程或MPP,数据库运行在Hadoop中,位于HDFS的顶部。作为一个单一的系统,它将一整套聚合基础设施嵌入系统,那套聚合基础设施可以运行和提供Hadoop和HDFS必须提供的所有功能以及你能从MPP数据库中获得的规模、性能和可查询功能。

  大数据Lambda架构

Lambda系统架构(LA)提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时的数据视图。Lambda架构框架主要包括:

· Twitter’s Summingbird:Twitter的开源Summingbird大数据分析工具,通过整合批处理与流处理来减少它们之间的转换开销。区别于以往的更快、更准确节奏,Summingbird更注重于流处理与批处理的无缝整合,以及编程语言的原生化。Summingbird是一个大规模数据处理系统,支持开发者以批处理模式(基于Hadoop/MapReduce)或流处理模式(基于Storm)或混合模式(即组合前两种模式)以统一的方式执行代码。

· Lambdoop: Lambdoop是一个Java框架,用于以与Lambda架构一致的方式开发大数据应用。Lambda架构的特色是有一个不可修改、只能追加数据的主数据库,并组合了批处理、服务和加速等不同的层。

· Value Proposition: 这些数据库的价值在于其可能带来的商机。

英文原文:Emerging Trends in Big Data Technologies

]]>
大数据掀人类文明革命 探索更多未知 //www.otias-ub.com/archives/68953.html //www.otias-ub.com/archives/68953.html#comments Sat, 15 Sep 2012 08:13:45 +0000 //www.otias-ub.com/?p=68953 里克•斯莫兰(Rick Smolan),全球著名摄影家,在他的镜头中,当下的“大数据”,是人们的面孔,他期待透过来自一张张全球各地的鲜活面孔,阐述大数据对于人类文明发展的重大意义,并与人们一起探索更多的未知世界。

昨夜,有关“大数据人类面孔”项目的新闻被疯狂传播,这个项目是由《生活中的一天》系列从书作者里克•斯莫兰(Rick Smolan)创意和执导,在全球范围内开展,EMC公司赞助了这一项目。

CNET记者第一时间电话采访了远在美国的里克•斯莫兰,他告诉记者,“作为一名摄影师,我多年以来都非常影响人类发展的因素,比如互联网第一年、水资源 危机、生活中的一天等。大数据走进我的视野是在去年,可能很多人一听到大数据,脑子中勾勒出来的画面就是电脑面前的人,我觉得这样不是很有意思。我要用特 殊的视角去阐释大数据。大数据将帮助人类文明掀起新一轮革命。”

里克•斯莫兰:大数据掀人类文明革命 探索更多未知
图为里克·斯莫兰,来自Against All Odds制作公司,况世摄影系列《生活中的一天》从书以及其它多全球多人项目的创意者

大数据:人类文明革命的源动力

在当下,大数据炙手可热。不管是企业还是个人都在谈论或者从事大数据相关的话题和业务,或者说,我们创造大数据,也被大数据所包围——如今是大数据时代。

IDC发布的数据显示,全球大数据技术和服务市场将由2010年的32亿美元增长至到2015年的169亿美元,这意味着其复合年增长率将达到40%。

虽然,大数据市场方兴未艾,但是在公众眼里,大数据仍然是个艰涩难懂的词汇,而且是一个非常抽象的概念,要表达清楚实属不易。一名摄影师为何要挑战这样一个“极限”呢?

对此,里克·斯莫兰表示,很多年以前,他就是一名成功的摄影师了,而且在很多时候他都是最年轻的摄影师。作为前《Time(时代)》、《Life(生活)》、《National Geographic(国家地理)》杂志摄影师,他创造了最畅销的《A Day in the Life(生活中的一天)》系列丛书和其他许多大型摄影项目,如《America 24/7》,《24 Hours in Cyberspace(24小时网络生存空间)》,以及《Blue Planet Run(蓝色星球长跑)》。

里克•斯莫兰:大数据掀人类文明革命 探索更多未知
海象,©Chris Oosthuizen /南非比勒陀利亚大学,2012/图片来源:大数据的人类面孔(为了揭开海洋的神秘面纱,从2007年起,澳大利亚的海洋和气候科学家通过集成海洋观测系统(IMOS)携手收集和共享来自由传感器浮子、水下自动机器人、科学监测站、远程卫星感应和动物标签(如上图中海象带有的标签)组成的网络的万亿字节数据。“仅仅通过将数据锁起来不让别人染指你是赢不了的,”IMOS计划的总监Tim Moltmann说道。“只有通过展示数据并和其他人协作,你才会赢。”)

“从上世纪80年代起,我开始尝试启动《生活中的一天》拍摄项目。我邀请了全球各地的100位摄影师同行来参与,大家一起去捕捉某个国家一天中的生活。但是除了同行积极支持之外,很多人不理解,当时我们也没有足够的资金,但是凭借热情、激情,我们把这个项目推行到很多国家。”

里克·斯莫兰和他的同行们出版了美国、日本、前苏联、加拿大、澳大利亚、西班牙等十多个版本的《生活中的一天A Day in the Life》,这是一个畅销书系列,如果你感兴趣可以去亚马逊上购买。“我还要特意感谢我太太,她参与了中国版本的项目。《生活中的一天A Day in the Life》实在是太成功了,得到了很多出版社和同行的认可,取得这样的成绩与全球各地的摄影师朋友、我太太、家人密不可分。”

“大数据并不是我看着它是个热点才决定去拍摄,而是因为我有很多科技公司的朋友,他们经常谈起大数据,这让我很好奇,通过和他们交谈、向他们请教,让我受到了感染,我决定用自己的镜头来展现大数据之美。”

里克•斯莫兰:大数据掀人类文明革命 探索更多未知
©Jason Grow,2012/图片来源:大数据的人类面孔。( 由麻省理工学院的计算机科学家John Guttag、心脏病学家兼麻省理工学院的计算生物学家Collin Stultz(这两位在左图中有所显示)以及密歇根大学计算机科学家Zeeshan Syed这三位研究人员组成的团队创建了一个新型的计算机模型,对曾经被丢弃的心电图数据进行分析。通过使用数据挖掘技术和机器学习技术对大量的数据进行筛选,研究人员发现心电图中出现三种异常情况与不存在异常的情况相比,与该病人一年内第二次心脏病突发并死亡的风险会高两至三倍。Guttag、Stultz和Syed认为他们的新计算机模型将会大大改进如今的风险筛查技术——现在的改进技术漏掉了约70%可能会再次心脏病突发的病人。我们面临的挑战在于大部分病人可以通过改善饮食和增加锻炼得以康复。但是,一小部分人(约5%)需要积极的干预,如植入式除颤器。Guttag说:“我们工作的目的就是发现谁属于哪一类人群。”)

里克·斯莫兰谈到,一个月前的一天,他9岁的儿子忽然问什么是大数据,它有什么用?

“我搜肠刮肚把自己所有的相关知识收集出来,跟他交谈。我认为,以前人们只是用一只眼看世界、看数据,而大数据时代开发了人类的第二只眼睛,也就是说通过对大数据的分析、挖掘,可以让人类更便捷地探索更多未知的世界,解决更多之前不可能解决的难题。大数据里面有黄金。”

里克·斯莫兰告诉CNET,“我认为大数据不仅仅与人们生活息息相关,更重要的是它是新一轮人类文明革命的源动力。”

大数据很鲜活,更不是有钱人专利

时刻发现生活中的细节与感动,是里克·斯莫兰这位摄影大师的DNA,从他的作品可以看到他的内心、他的思想。

对于“大数据”这个概念,他有自己的思考;对“大数据人类面孔”这个项目,他有自己的行动纲领。

里克·斯莫兰说,我讨厌冷冰冰的元素。这种思维方式直接体现到他的工作生活中。关注微观,更关注宏观。

“对这个项目,我的目标是掀起有关大数据的全球热议:如果正确地使用这些数据会带来哪些潜力?如果我们不小心的话会出现哪些危险?大数据带来了非同寻常的知识革命,深入商业、学术、政府、医疗和每日生活,它是势不可挡、几近无形的。像所有的新工具一样,它会带来出人意料的后果,它有这种潜力。如果我们足够谨慎和明智,在不久的将来,这种新的技术也许会给人类带来如同语言和艺术一样的巨大影响。”

CNET记者感觉,在电话的一端里克·斯莫兰在对大数据侃侃而谈的时候,俨然就是一位科技公司的CTO。

摄影师有广角、有长焦、有微距等很多种镜头,他们用这些器材来捕捉精彩的世界。但是,里克·斯莫兰坦言,要用摄影师视角来展现大数据,的确不是那么容易,我们尝试如何用摄影师的方法讲这个故事。

“大数据影响和改变着人们的工作生活,例子太多了。我自己就有深刻体会,我母亲年龄大了,她曾经摔倒过几次,在第三次摔倒之后,我和兄弟决定雇个人来照顾她,但是遭到她的反对,她不希望我们认为她老了。通用电气和英特尔公司正在尝试研发一种‘神奇的地毯’,它可以检测像我母亲这样的老年人多年来的行走记录,我可以获取这些数据,一旦发现某一天某个模式被打破,或者某一天的某个时刻她没有出现在这快地毯的某个位置,那么我就立刻知道她发生了什么事情,这样一来,老人们的隐私也得到了保护。这就是大数据的一个例子。”

例子简直是太多了,在短短的一个小时的采访时间,根本不够里克·斯莫兰讲更多、更鲜活、感人的例子。通过他的分享,让我们感觉到大数据无处不在,而且大数据时时刻刻都在改变着人们的生活。

里克·斯莫兰认为,有些人认为大数据专属于有钱的人和发达国家,其实不然,大数据对于发展中国家更加重要。尤其是在医疗、通信、金融、能源等领域,大数据将发挥史无前例、至关重要的作用。

一个项目打动人心牵动全球

在接受采访时,里克·斯莫兰透露了,“大数据人类面孔”项目的具体细节。主要包括拍摄大数据相关相片、智能手机应用、线上线下活动、出版大型图册、制作纪录片等几个部分。

从2012年3月开始,里克•斯莫兰和Jennifer Erwitt发动全球各地100多位摄影师、编辑和作家来探索大数据的世界,以验证它是否象许多业界人士所说:代表了一种从未出现过的工具,可以帮助人类面对最大的挑战。

在里克·斯莫兰发给CNET记者的资料中,海象通过头顶的触角探索海洋;借助卫星击准蚊子;加纳用短信系统防止假药销售;智能手机可以预测谁正在变抑郁;信用卡在使用者离婚前两年就能预测离婚;药片直接将信息从人的身体传给医生。有非常多鲜活、生动的大数据案例。

为了让更多的人参与到这个项目中来,里克·斯莫兰及其团队还特意开发了一个“大数据人类面孔”的智能手机应用。9月25日到10月2日,邀请全球各地参与者通过“大数据人类面孔”这一应用(五种语言的 iOS和安卓版本免费下载)来“测量我们的世界”。

这一应用可以让人们用手机作为传感器参与一系列活动,他们同时可以比较全球其它参与者对一些值得深思的问题给出了什么答案。参与者可以绘制出自己每天的路径,分享那些带给他们好运的物品和仪式,了解其他人想要在一生中经历的特别体验,发现自己身边以前没有意识到的秘密。参与者还能够得出自己的“数字身影”。

给记者留下最深刻一项的这样一个问题:“你死之前最想干的一件事?”这种心灵鸡汤式的拷问一下就能击中人们的灵魂。而从他透露的信息来看,这个项目从事的是与医疗、金融、能源、环境等全人类息息相关的领域,更是关乎人类发展命脉。

里克•斯莫兰:大数据掀人类文明革命 探索更多未知
© Michael Cogliantry,2012 /图片来源:大数据的人类面孔( AJ Jacobs:我渴望最大限度地了解与自己有关的数据。我是一个量化控。Billy Beane怎样对待棒球,日内交易员怎样对待纳斯达克,我就要怎样对待我的身体。)

“数据是新的石油”,这是英国数据商业化创业家Clive Humby在2006年提出的。随后于2011年收入世界经济论坛宝宝,认定数据是一种经济资产,就像石油一样。

我们不用再去质疑和抵制数据,你我都生活在大数据时代。数据是石油。解读过来也就是说,大数据将彻改变人类文明的发展脉络,它的重要性就好似如今石油带来的价值一样。

当然,这样一个有趣的、有意义的活动,不仅仅是指拍照片那么简单。里克·斯莫兰还设立丰富多彩的活动。10月2日,邀请媒体出席在纽约、伦敦和新加坡举行的“指挥控制中心”大型活动,所有参与者的数据将在活动中加以分析、视觉化处理和诠释。大数据领域的专家们和创新者们将通过互动的“大数据实验室”分享他们的工作成果。全球各地的观众可以实时在线观看活动直播。

同时,他们还与TED组织青年部合作,推出了面向学生的“大数据侦探”计划。11月8日,将有全球各地6-12年级的学生和他们的老师通过该计划,收集一系列数据,测量、分析和绘制他们的周边世界。这一计划将涉及成千上万的学生,通过有趣的可视化数据和图表,使他们看到各自在观点、思想、顾虑和信仰方面的对比。

到了11月20日,大型图册《大数据人类面孔》一书将问世,当天赠送给全球最有影响力的1万名人士,包括世界领导人、财富500强CEO以及30个国家的诺贝尔获奖者。该书收入了200多幅摄影作品、知名作家的雄辩文章和出自著名设计师Nigel Holmes之手的生动信息图表。该书将通过网店和主要图书商销售。到2013年,将发行《大数据人类面孔》纪录片。

Jeremy Burton,EMC产品运营和营销高级副总裁指出,“大数据诞生于计算机实验室里为数不多的科学精英之手。很快,从学生到老奶奶,社会各阶层都将意识到大数据给我们的生活、社会治理、工作和娱乐带来变革和影响。‘大数据人类面孔’项目代表着迄今为止最迷人的大数据探索尝试,通过人类面孔来展现大数据的社会影响力。我相信,这一计划将产生深远的影响。”

大数据人类面孔,看似一个小项目,其实牵动全球亿万人的心。

]]>
//www.otias-ub.com/archives/68953.html/feed 1
盘点九大热门开源大数据技术 //www.otias-ub.com/archives/54209.html Thu, 28 Jun 2012 09:30:52 +0000 //www.otias-ub.com/?p=54209 随着全球企业和个人数据的爆炸式增长,数据本身正在取代软件和硬件成为驱动信息技术行业和全球经济的下一个大“油田”。

与PC、web等断层式信息技术革命相比,大数据的最大的不同是,这是一场由“开源软件”驱动的革命。从IBM、Oracle等巨头到雨后春笋般的大数据创业公司,开源软件与大数据的结合迸发出惊人的产业颠覆性力量,甚至VMware这样的过去完全依赖专有软件的厂商都开始拥抱开源大数据工具。

下面,我们就列举九大最热门的大数据开源技术供大家参考。

一、Hadoop

hadoop

Apache Hadoop 是一个能够对大量数据进行分布式处理的开源软件框架。由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入,Hadoop的开发者Doug Cutting最初开发Hadoop是为了满足开源web搜索引擎Nutch的集群处理需求,Cutting实现了MapReduce功能和分布式文件系统(HDFS),并整合成为Hadoop。Hadoop的命名灵感来自Cutting儿子的玩具大象。通过MapReduce,Hadoop将大数据分解成小块分配给各个通用服务器节点进行分布处理。Hadoop是目前最流行的大数据(包括非结构化、半结构化和结构化数据)存储和处理技术。Hadoop的开源授权方式是Apache License2.0。

 

二、R

R

R是开源编程语言和软件环境,被设计用来进行数据挖掘/分析和可视化。R是S语言的一种实现。而S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。但S-PLUS是一个商业软件,相比之下开源的R语言更受欢迎,被人们誉为“统计界的Red Hat”。

在KDNuggets2012年做的“过去与十二个月你在实际项目中使用的数据挖掘/分析工具”的调查中,R以30.7%的得票率荣登榜首,超过微软Excel(29.8%)和Rapidminer(2010和2011年排名第一)。值得注意的是,今年排名前五名的数据挖掘工具中有四个是开源软件。此外R还在击败SQL和Java,在最受欢迎的数据挖掘应用编程语言排行榜中排名第一。

 

三、Cascading

cascading

作为Hadoop的开源软件抽象层,Cascading允许用户使用任何基于JVM的语言在Hadoop集群上创建并执行数据处理工作流。Cascading能隐藏MapReduce任务底层的复杂性。Chris Wensel设计Cascading的目的是成为MapReduce的一个备用API。Cascading经常被用于广告定向统计、日志文件分析、生物信息学分析、机器学习、预测分析、web内容文本挖掘以及ETL应用。Cascading的商业支持由Concurrent公司提供,该公司由Cascading的设计者Wensel创建。使用Cascading的知名网站包括Twitter和Etsy。Cascading在GNU下开源。

 

四、Scribe

scrible

Scribe是Facebook开发的一种服务器软件,2008年发布。Scribe能实时聚合来自大量服务器的日志文件。Facebook设计Scribe的目的是应对自身的扩展性挑战,目前Facebook使用Scribe来处理每天数以百亿计的消息。Scribe在Apache License2.0下开源。

 

五、ElasticSearch

elasticsearch

ElasticSearch基于ApacheLucene,开发者是Shay Banon。ElasticSearch是一个分布式的RESTful开源搜索服务器,同时也是一个可扩展的解决方案,无需特别配置就可支持支持接近实时的搜索和多租户。很多公司都采用了ElasticSearch,包括StumbleUpon和火狐Mozilla。ElasticSearch在Apache License2.0授权方式下开源。

 

六、Apache HBase

Apache Hbase

HBase是运行于HDFS之上的,可扩展的,面向列的,分布式非关系型数据库。HBase由Java语言写成,支持大表(Big Table)的结构化数据存储。HBase的优点是能进行容错存储,并能快速访问海量Sparse数据。HBase是过去几年中涌现的NoSQL数据库的代表之一。2010年Facebook采用HBase搭建消息平台,HBase在Apache License2.0下开源。

 

七、Apache Cassandra

Apache Cassandra

Apache Cassandra是Facebook开发的开源的分布式数据库管理系统,用来实现用户收件箱内搜索功能,Cassandra同时也是一个NoSQL数据库。2010年,Facebook放弃了Cassandra转而采用HBase。但是Cassandra依然被一些公司采用,例如Netflix使用Cassandra作为视频服务的后台数据库。Cassandra在Apache License2.0下开源。

 

八、MongoDB

MongoDB

MongoDB由DoubleClick创始人开发,是一个流行的开源NoSQL数据库。MongoDB通过动态模式BSON在类JSON文档中存储结构化数据。MongoDB被很多大企业采用,包括MTV Networks、Craigslist、迪斯尼互动媒体集团、纽约时报和Etsy。MongoDB在GNU下开源,由10gen公司提供商业版授权。

 

九、Apache CouchDB

CouchDB

Apache CouchDB也是一个开源NoSQL数据库。使用JSON存储数据,用JavaScript作为查询语言,API使用MapReduce和HTTP。CouchDB由前IBM Lotus Notes开发者Damien Katz开发,作为大规模对象数据库的存储系统。注明媒体集团BBC就使用CouchDB作为动态内容平台,CouchDB在Apache License2.0下开源。

via:IT经理网

]]>