Hadoop – 庄闲棋牌官网官方版 -199IT

基于Hadoop大数据分析应用场景与实战

DinK — Tue, 26 Sep 2017 09:36:01 +0000

为了满足日益增长的业务变化，京东的京麦团队在京东大数据平台的基础上，采用了Hadoop等热门的开源大数据计算引擎，打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。

一、Hadoop的应用业务分析

大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。

目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：

Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。
Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和图形计算等多种计算范式。Spark构建在HDFS上，能与Hadoop很好的结合。它的RDD是一个很大的特点。
Storm用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能

Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。

Hadoop适用于海量数据、离线数据和负责数据，应用场景如下：

场景1：数据分析，如京东海量日志分析，京东商品推荐，京东用户行为分析

场景2：离线计算，（异构计算+分布式计算）天文计算

场景3：海量数据存储，如京东的存储集群

基于京麦业务三个实用场景

京麦用户分析
京麦流量分析
京麦订单分析

都属于离线数据，决定采用Hadoop作为京麦数据类产品的数据计算引擎，后续会根据业务的发展，会增加Storm等流式计算的计算引擎，下图是京麦的北斗系统架构图：

(图一)京东北斗系统

二、浅谈Hadoop的基本原理

Hadoop分布式处理框架核心设计

HDFS ：(Hadoop Distributed File System)分布式文件系统
MapReduce：是一种计算模型及软件架构

2.1 HDFS

HDFS（Hadoop File System），是Hadoop的分布式文件存储系统。

将大文件分解为多个Block，每个Block保存多个副本。提供容错机制，副本丢失或者宕机时自动恢复。默认每个Block保存3个副本，64M为1个Block。将Block按照key-value映射到内存当中。

(图二)数据写入HDFS

(图三)HDFS读取数据

2.2 MapReduce

MapReduce是一个编程模型，封装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce实现最开始是映射map，将操作映射到集合中的每个文档，然后按照产生的键进行分组，并将产生的键值组成列表放到对应的键中。化简（reduce）则是把列表中的值化简成一个单值，这个值被返回，然后再次进行键分组，直到每个键的列表只有一个值为止。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。但如果你要我再通俗点介绍，那么，说白了，Mapreduce的原理就是一个分治算法。

算法：

MapReduce计划分三个阶段执行，即映射阶段，shuffle阶段，并减少阶段。
映射阶段：映射或映射器的工作是处理输入数据。一般输入数据是在文件或目录的形式，并且被存储在Hadoop的文件系统（HDFS）。输入文件被传递到由线映射器功能线路。映射器处理该数据，并创建数据的若干小块。
减少阶段：这个阶段是：Shuffle阶段和Reduce阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后，它产生一组新的输出，这将被存储在HDFS。

(图四)MapReduce

2.3 HIVE

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，这套SQL 简称HQL。使不熟悉mapreduce 的用户很方便的利用SQL 语言查询，汇总，分析数据。而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持Hive 做更复杂的数据分析。

(图五)HIVE体系架构图

由上图可知，hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件：CLI（command line interface）、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)。

三、Hadoop走过来的那些坑

进行HIVE操作的时候，HQL写的不当，容易造成数据倾斜，大致分为这么几类：空值数据倾斜、不同数据类型关联产生数据倾斜和Join的数据偏斜。只有理解了Hadoop的原理，熟练使用HQL，就会避免数据倾斜，提高查询效率。

Hadoop推动现代数据仓库技术的深刻变革

DinK — Mon, 21 Mar 2016 14:28:42 +0000

一张图回顾Hadoop十年–信息图

DinK — Fri, 29 Jan 2016 16:13:14 +0000

【Hadoop简史】

一张图回顾Hadoop十年：Hadoop老矣，尚能饭否？

Hadoop，十岁生日快乐！

于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。在此为大家梳理Hadoop这十年的变化，以及技术圈的生态状况，为Hadoop“庆生”。

一张图回顾Hadoop十年

1、引子什么是大数据？

大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集，并同时强调并不是超过某个特定数量级的数据集才是大数据。

——by 麦肯锡《大数据：创新、竞争和生产力的下一个前沿领域》

大数据的定义聚焦在“大“。从表面上看，数据规模的增长的确为处理数据带来了很大的问题。具体来说，在同样时间内获取与以前相同价值的数据变得不可为了。换言之，本质问题是数据的价值密度变低了，数据交换速率变慢了，所以催生了很多新型数据处理技术和工具，如Google的GFS和MapReduce，Apache Hadoop生态系统，美国伯克利大学AMPLab的Spark等；出现了对时间敏感程度不同的计算模式，如批式计算模式、交互式计算模式、流计算模式、实时计算模式等。计算模式的差异只是决定获取价值的技术不同，取决于上层业务需求的不同。

实际上，所谓大数据问题的本质应是数据的资产化和服务化，而挖掘数据的内在价值是研究大数据的最终目标。

2、缘起大数据缘起于Google

Google在搜索引擎上所获得的巨大成功，很大程度上是由于采用了先进的大数据管理和处理技术，是针对搜索引擎所面临的日益膨胀的海量数据存储问题以及在此之上的海量数据处理问题而设计的。

Google提出了一整套基于分布式并行集群方式的基础架构技术，利用软件的能力来处理集群中经常发生的节点失效问题。Google使用的大数据平台主要包括五个相互独立又紧密结合在一起的系统：分布式资源管理系统Borg，Google文件系统（GFS），针对Google应用程序的特点提出的MapReduce 编程模式，分布式的锁机制Chubby以及大规模分布式数据库BigTable。

Borg是这五个系统中最为神秘的一个，直到2015年Google才在EuroSys 2015上发表了题为“Large-scale cluster management at Google with Borg”的论文。称Google内部不仅像计算型的应用，比如MapReduce、Pregel等运行在Borg上，存储类的应用，比如GFS，BigTable和Megastore等也运行在上面，真正做到了批处理作业和长周期服务的混合部署和资源动态调度。得益于此项技术，可以使平均资源利用率达到30%~75%以上，大大高于业界平均水平的6%~12%。

GFS是一个大型的分布式文件系统，它为Google云计算提供海量存储，并且与Chubby、MapReduce和BigTable等技术结合得十分紧密，处于系统的底层。它的设计受到Google特殊的应用负载和技术环境的影响。相对于传统的分布式文件系统，为了达到成本、可靠性和性能的最佳平衡，GFS从多个方面进行了简化。

MapReduce是处理海量数据的并行编程模式，用于大规模数据集的并行运算。MapReduce通过“Map（映射）”和“Reduce（化简）”这样两个简单的概念来参加运算。用户只需要提供自己的Map 函数以及Reduce 函数就可以在集群上进行大规模的分布式数据处理。这一编程环境能够使程序设计人员编写大规模的并行应用程序时不用考虑集群的可靠性、可扩展性等问题。应用程序编写人员只需要将精力放在应用程序本身，关于集群的处理问题则交由平台来完成。与传统的分布式程序设计相比，MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节，具有简单而强大的接口。正是由于MapReduce具有函数式编程语言和矢量编程语言的共性，使得这种编程模式特别适合于非结构化和结构化的海量数据的搜索、挖掘、分析等应用。

Chubby是提供粗粒度锁服务的一个文件系统，它基于松耦合分布式文件系统，解决了分布式系统的一致性问题。这种锁只是一个建议性的锁而不是强制性的锁。通过使用Chubby的锁服务，用户可以确保数据操作过程中的一致性。GFS使用Chubby来选取一个GFS主服务器，BigTable使用Chubby指定一个主服务器并发现、控制与其相关的子表服务器。

大规模分布式数据库BigTable是基于GFS和Chubby开发的分布式存储系统。很多应用程序对于数据的组织是非常有规则的。一般来说，数据库对于处理格式化的数据还是非常方便的。但是由于关系数据库要求很强的一致性，很难将其扩展到很大的规模。为了处理Google内部大量的格式化以及半格式化数据，Google构建了弱一致性要求的大规模数据库系统BigTable。BigTablede在很多方面和数据库类似，但它并不是真正意义上的数据库。Google包括Web索引、卫星图像数据等在内的很多海量结构化和半结构化数据都是存储在BigTable中的。

3、Hadoop开启了大数据时代的大门

Google的技术虽好但不开源。如果没有Doug Cutting和他的Hadoop开源软件，我们就看不到如今大数据技术和应用的飞速发展。

Doug Cutting主导的Apache Nutch项目是Hadoop软件的源头，该项目始于2002年，是Apache Lucene 的子项目之一。当时的系统架构尚无法扩展到存储并处理拥有数十亿网页的网络化数据。Google在2003年于SOSP上公开了描述其分布式文件系统的论文“The Google File System”，为Nutch提供了及时的帮助。2004年，Nutch的分布式文件系统(NDFS)开始开发。同年，Google在OSDI上发表了题为“MapReduce: Simplified Data Processing on Large Clusters”的论文，受到启发的Doug Cutting等人开始实现MapReduce计算框架并与NDFS（Nutch Distributed File System）结合起来，共同支持Nutch的主要算法。至2006年，它逐渐成为一套完整而独立的软件，已经到Yahoo!工作的Doug Cutting将这套大数据处理软件命名为Hadoop。2008年初，Hadoop成为Apache的顶级项目，除Yahoo!之外在众多互联网企业中得到应用。

早期的Hadoop，包括Hadoop v1以及更早之前的版本，主要由两个核心组件构成：HDFS和MapReduce，其中HDFS是Google GFS的开源版本，MapReduce计算框架实现了由Google工程师提出的MapReduce编程模型。还有一些围绕在Hadoop周围的开源项目，为完善大数据处理的全生命周期提供了必要的配套和补充。这些软件常用的有ZooKeeper、Hive、Pig、HBase、Storm、Kafka、Flume、Sqoop、Oozie、Mahout等。2012年5月，Hadoop v2的alpha版本发布，其中最重要的变化是在Hadoop核心组件中增加了YARN（Yet Another Resource Negotiator）。YARN的出现是为了把计算框架与资源管理彻底分离开，解决Hadoop v1由此带来的扩展性差、单点故障和不能同时支持多种计算框架的问题。YARN对标的恰好就是Google的Borg系统。至此，Hadoop方才能够与Google的大数据平台比肩。

一个好的、有生命力的开源生态系统要有一个核心，这个核心要是差异化和非平凡的，还要有广泛的应用和活跃的社区。Hadoop恰好具备这三个特征，以Hadoop为核心的大数据开源生态系统逐渐形成，Hadoop也成为自Linux以来最成功的开源软件，没有之一。受人民大学信息学院院长杜小勇老师的委托，我在CNCC 2015上组织了一个名为“大数据开源生态系统”的论坛。论坛邀请了来自互联网企业、硬件厂商、系统集成商以及学术界的同行分享在大数据开源方面的工作和体会。在最后的Panel环节，讨论了为什么要做开源和怎么做开源这两个问题。回答是比较分散的，有开源是唯一选择的，有拉通产业链的，有认为开源是新业态新商业模式的，有认为开源促进技术进步的。总之，在产业链不同的环节上的机构做开源的动机和目标自然是不同的，但只有这样，产业链中不同角色都能够在生态系统中找到自己的位置，这样的生态系统才是健壮的有生命力的，不是吗？

4、Hadoop发展历史和应用之路

大数据领域第一个吃螃蟹的是互联网行业。这是因为大数据概念和技术都来源于互联网企业的老大哥Google的原因。以Hadoop投入实际应用来看：

2006年到2008年是Hadoop的诞生阶段。只有国外少数几个互联网巨头在尝试，国内互联网行业在学习这项新技术。2006年，Yahoo!构建100节点规模的Hadoop机群用于Webmap业务。2007年，Yahoo!构建1000节点规模的Hadoop机群。2008年，Yahoo!的Hadoop机群扩展到2000节点规模，Facebook贡献Hive项目到开源社区。

2008年到2010年是Hadoop的少年阶段。在互联网行业已经开始投入实际应用，应用集中在网页存储检索，日志处理和用户行为分析等方面。2009年，Yahoo!使用4000节点的机群运行Hadoop，支持广告系统和Web搜索的研究；Facebook使用600节点的机群运行 Hadoop，存储内部日志数据，支持其上的数据分析和机器学习；百度用Hadoop处理每周200TB的数据，进行搜索日志分析和网页数据挖掘工作。2010年，Facebook的Hadoop机群扩展到1000节点；百度用Hadoop每天可处理1PB的数据；中国移动通信研究院基于Hadoop开发了“大云”（BigCloud）系统，不但用于相关数据分析，还对外提供服务；淘宝的Hadoop系统达到千台规模，用于存储并处理电子商务的交易相关数据。

2010年到2015年是Hadoop的青年阶段。在互联网行业无不将Hadoop作为大数据计算的标准配置，且应用形式趋于多样化；企业计算领域开始实践基于Hadoop的大数据应用；在追求大数据处理能力的同时，也开始思考系统适配性和效率问题。互联网行业出现了大量数据分析类应用，比如支付宝的交易数据离线分析系统等；用Hadoop与生态系统中的其他软件一起构成更为复杂的应用系统，比如腾讯的广点通精准广告投放系统，电信运营商的基于用户画像的精准营销系统等。除互联网行业外，出现了网络通讯大数据、金融大数据、交通旅游大数据、工业制造大数据、医疗健康大数据、社会治理大数据、教育大数据等，大数据理念和技术已经融入各行各业。Hadoop源于互联网行业，在应用于企业计算时，需要进行适配，原因在于互联网应用和企业计算应用在需求、服务、研发和运维体系方面有本质的不同。互联网应用业务逻辑简单、服务于海量用户、非固定使用人群、系统的用户体验至上、持续交付、能够快速响应的专业运维；而企业计算应用业务逻辑复杂、有限数量用户、固定使用人群、系统更强调稳定可靠、版本交付、层级式的技术支持。一时间市面上出现了很多面向企业用户的Hadoop发行版，以易部署、好配置，以及使用和管理方便为切入点，吸引着企业用户的眼球。

5、Hadoop in China国内最早的Hadoop交流平台

技术推广是需要平台的，而好的交流平台对新技术的落地起到极其重要的作用。2008年，我所在的研究小组想在分布式数据存储方面做一些研究工作，前期调研阶段接触到Hadoop，其新颖的设计思想得到大家的一致认同，2008年11月Hadoop技术沙龙顺势成立，后来发展成Hadoop in China大会。

2012年，中国计算机学会（CCF）于10月正式成立了大数据专家委员会。2013年，大会正式更名为“中国大数据技术大会(BDTC)”。至此，Hadoop in China从60人规模的小型沙龙发展到国内大数据领域一年一度最重要的技术会议之一。大会曾邀请到包括Hadoop创始人Doug Cutting，Spark创始人Ion Stoica在内的众多国际著名专家到会做特邀报告。

6、未来大数据技术的发展趋势

系统架构的专业化。从当今IT技术的发展角度看，提出系统结构上的解决方案是“应用驱动的大数据架构与技术”。也就是说根据具体类型应用的需求，在系统架构和关键技术上进行创新。为了降低成本并获得更好的能效，大数据应用系统越来越趋向扁平化、专用化的系统架构和数据处理技术，逐渐摆脱了传统的通用技术体系。比如并行数据库更鲜明的分化为面向事务处理的OLTP类数据库和面向分析的OLAP类数据库等。传统的应用服务器、数据库服务器和存储服务器这样的典型三层架构受到极大的冲击。应用开发人员更深入的理解计算机系统结构，“程序” = “算法” + “数据结构”将逐渐演变成“程序” = “算法” + “数据结构” + “系统结构”。

大数据生态系统范围扩大。克隆了Google的GFS和MapReduce的Apache Hadoop自2008年以来逐渐为互联网企业接纳，并成为大数据处理领域的事实标准。但2013年出现的Spark作为一匹黑马可以说终结了这一神话，大数据技术不再一家独大。由于应用不同导致Hadoop一套软件系统不可能满足所有需求，在全面兼容Hadoop的基础上，Spark通过更多的利用内存处理大幅提高系统性能。此外，Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Spark SQL等的出现并不是取代Hadoop，而是扩大了大数据技术生态环境，促使生态环境向良性和完整发展。今后在非易失存储层次、网络通信层次、易失存储层次和计算框架层次还会出现更多、更好和更专用化的软件系统。

系统整体效能更为用户重视。在全球互联网企业的努力下，Hadoop已经可以处理百PB级的数据，在不考虑时间维度的前提下，价值密度低的数据可以处理了。在解决了传统关系型数据库技术无法处理如此量级的数据之后，业界正在向系统能效要价值。能效问题一方面体现在系统性能上。互联网服务强调用户体验，原本做不到实时的应用在向实时化靠拢，比如前端系统及业务日志从产生到收集入库的延迟从1到2天时间进化到10秒以内。传统企业无法忍受关系数据库动辄几十分钟的查询分析性能，纷纷求助于性价比更好的技术和产品。这些需求使大数据交互式查询分析、流式计算、内存计算成为业界研发和应用的新方向。能效问题的另一方面体现在系统功耗和成本上。中科院计算所陈云霁研究员领导研究的专用神经网络处理器技术，可大幅加速机器学习负载，与通用芯片和GPU相比，计算速度提高几十倍，功耗只有十分之一，整体能效提高450倍。百度云存储万台定制ARM服务器可节电约25%，存储密度提升70%，每瓦特计算能力提升34倍（用GPU取代CPU计算），每GB存储成本降低50%。

个性化服务的需求愈发强烈。个性化对应于互联网服务的长尾部分，这部分需求在传统的系统设计中因为复杂性原因是被舍弃的，但正是这部分体现出个性化服务的需求。个性化服务，即系统能够提供满足不同个体需求的差异化服务，比如个性化推荐，广告精准投放等。就拿个性化推荐技术来说，目前已经开始从简单的商品推荐走向复杂的内容推荐。根据用户的特性与偏好，推荐内容的特征，以及当时的上下文数据（客户端设备类型、用户所处时空数据等），向特定用户提供个性化的内容推荐服务，内容包括商品（包括电商和零售）、广告、新闻和资讯等。在移动设备和移动互联网飞速发展的时代，个性化推荐将成为用户获取信息最直接的渠道之一。

价值挖掘的理论和技术亟待发展。对数据进行浅层分析的理论和技术，主要体现在分布式系统和关系型数据库理论的结合与再创新，目前已经有较大幅度进展。但是，从数据中抽取隐含的信息或者知识，也就是价值挖掘，这方面的理论和技术还比较缺乏。一是缺乏成熟的数据挖掘建模方法和工具，经验对于挖掘出有价值信息的影响甚大，原始数据与隐含信息之间存在技术缺失，所以“啤酒+尿布”的案例并不是天天都能产生的。二是机器学习和深度学习技术面临应用问题。与大数据相结合，已经在诸如语音识别、图像识别、广告推荐和风险控制等场景中得以初步应用，但这方面的技术和软件工具成熟度不高，还有很大提升空间。此外，机器学习和深度学习的应用场景还不够广泛，这既是机遇也是挑战。

7、结语：Hadoop老矣，尚能饭否？

Hadoop开源软件自2006年起至今已经走过十个年头，这对于任何软件来说生命周期不可谓不长。但是，Hadoop也在经历来自其他开源黑马的冲击。Spark在早期发展阶段通过全面兼容Hadoop而借力于后者成熟的生态系统。时至今日，Spark正在挑战Hadoop的权威，因为Spark已经将发展目标定位在取代Hadoop。Hadoop老矣，尚能饭否？Hadoop的近100位Committer在积极的为Hadoop谋划未来，让我们拭目以待吧！

作者简介：

查礼，2003年博士毕业以来一直从事分布式系统的研发工作，现为中国科学院计算技术研究所副研究员，CCF大数据专家委员会委员。自2008年起与Apache Hadoop、Hive以及HBase 等开源社区密切合作，相关大数据技术研究成果通过软件开源在业界得到广泛应用。是中国大数据技术大会（原Hadoop in China）发起人和组织者。

via：InfoQ

Paradigm4：调查显示76%的数据科学家认为Hadoop太慢

DinK — Wed, 02 Jul 2014 10:04:20 +0000

据分析调研公司Paradigm4一项调查显示，76%的数据科学家认为Hadoop太慢了。数据科学家表示，Hadoop作为开源软件框架，在实际应用中还需要更多的精力进行编程，与大数据应用需求相比，其处理速度也还不够快。

　　91%的受访者表示，正在执行有关大数据的复杂分析，其中39%的人认为其工作变得更加困难。71%的受访者表示：数据类型的多样性和数据量让分析更加困难。

　　76%的受访者提到了有关Hadoop的问题，39%人认为需要太多的编程努力;37%的人表示即席查询速度太慢，30%的人认为进行实时分析其速度太慢。

　　如今大数据对于企业越来越重要。据戴尔委托Competitive Edge Research的一项研究显示：那些员工人数在2000～5000人的中型企业已经开始拥抱大数据技术兴起，80%的中型企业认为应该更好地分析他们的数据，他们相信大数据应用能够更好地提升企业决策水平。

　　对于小型企业而言，免费和便宜工具会让大数据收集和分析变得简单，也是提升竞争力必须要做的事情。Paradigm4本次调查从三月开始，四月结束，为期一个月，得到了美国111数据科学家的响应。

大数据时代可能影响你的7个商业趋势

DinK — Wed, 26 Jun 2013 15:37:20 +0000

我们已经看到了许多这样的案例出现企业愿意分享他们在大数据使用上取得的成就。在IT行业任何的范式转变（paradigmshift），一个特定的主题吸引新闻媒体、投资者和创新人才的大量关注，这个转变需求很强的商业价格的支持。这个典型的案例是：客户服务、分布式计算和以服务为导向的架构与语言，例如：JAVA.

我们也看到了一个有益的生态系统的出现,迅速的赞美或扩展能力的核心支持技术，在大数据案例中，大数据生态系统已经迅速集中一批技术提供者,例如：Hadoop,Cassandra,Accumulo,Oracle,IBM.

那么在大数据的生态系统中我可以看到哪些趋势会出现？

在hadoop上对于sql扩展性和一致性

有一大批的技术公司努力构建一种no-sql技术，从而为大数据提供解决方案例如：hadoop。但是对于sql语言支持的深度与广度各不相同，然而使用sql专业分析人员可以使用这些优点从而很好的通过sql语言来操作大数据。目前案例包括：Hadapt,Impala,TeradataAsterandEMCGreenplumsPivotalHD.

(译者注：由于目前的大数据存储都不是基于关系型数据库的，所以传统通过sql语言来操作数据的方式无法直接使用，例如：对于hadoop存储的数据是无法直接通过sql来查询的。因而需要把传统的sql语言进行中间转换从而进行操作，例如：hadoop中hive,就是相当于将sql转换成MapReduce，从而去读取、操作hadoop上的数据。）

对于结构化、非结构化与半结构化数据的统一支持

随时非结构化数据的增长,IDC公司预测了数据的数量,大多数据的将以非结构化的形式存储,每天将增长40%-50%.到2020年,总体的数据量将达到40ZB.非结构化的数据主要来源于:邮件、论坛、博客、社交网络、POS系统和机器生成的数据。为了获取和分析这些大数据量的数据，创新人员必须扩展他们的大数据解决方案，而不能仅仅适用于其中一个。

优化检索

从海量的数据中发现之前用户的真正搜索需要，在之前就像大海捞针基本上不可能的。但是随时时间发展，越来越多把大数据的解决方案融入到检索支持中。在这方面中领先者有：LucidWorks,IBM,Oracle（其通过收购Endeca）AutonomyandMarkLogic。其中LucidWorks结合了一个开源的堆Lucene和Solr,Hadoop,Mahout和NLP。

ETL的扩展与支持

许多人都认为hadoop最开始的使用安全是用于ETL因为其批处理的功能。然而，如果你看到基于etl解决方案进行与维护的复杂hadoop平台的所有的基础设施，你可以会使用其它的纯情etl工具（Informatica,Talend,Syncsort,CloverETL）来解决。多年来这些公司这些公司努力在建立最值组合的ETL解决方案，现在更多我们把其称作为：数据整合解决方案。

纯粹的ETL提供商正努力为大数据提供解决方案。这些支持不难包括：ETL，而且包括ELT那些从hadoop内部转化为hadoop。这会使公司使用构建这样的环境，使用纯ETL的解决方案及hadoop本身强大的功能。随着时间的发展，这些纯ELT的公司起的支持的大数据的解决方案范围包括从：NewSQL与NoSQL。

另外，我期望许多的大数据解决方案公司可以嵌入对于ETL与ELT的支持，就像许多传统的数据库供应商已经通过嵌入或收购ETL解决方案。

大数据运动趋稳

在我之前的文章写到，以Apache为开源框架的hadoop已被使用使用在以批处理为导向海量的分布式环境中，特别是以分析为背景的情况下。随时企业开始关注如何支配和利用海量的数据资源用于实时决策，我们预计会对于’大数据运动’影响和增长有重要帮忙。这个“落地”代表的实时的信息流用于处理大数据流，在各个行业：包括资本市场、医疗7、能源和社会化媒体。

增加数据挖掘和分析技术

在大数据领域的行业领域者知道需要在他们平台上扩展在数据分析与统计功能的需求。除了一般的分析功能还增加非常的数据挖掘功能。TeradataAste包括很多的分析功能，具体包括支持统计、文本挖掘、图像、情感分析等。其它的公司例如IBMNetezza已经加入了对于R语言的支持，可以支持R的各类包，例如：并行运算算法包、矩阵相关包。未来我们可以看到大数据解决方案将会不断的大量增加这种功能。

从R语言中获利

毫无疑问R语言将会是越来流行的开源统计语言。RevolutionAnalytics公司在开发用于“工业”使用的R版本上，性能上有显著的增强和满足其它企业的特征。更进一下，他们已经开发出了可以适用于hadoop、PureData的R扩展包。大学里也大量开设的R语言方面的课程，让更多的学生拥有使用R语言的能力，也让他们具备在处理复杂的统计分析方面的能力。可以预见R会被包括在许多大数据的解决方案中，而且会显著改进该语言从而让其有更好的性能。

随着大数据生态系统的发展，相关的产业必然伴随其发展。在今天的市场竞争环境中，那些实施以数据驱动战略的公司将在竞争中取得优势。

via：http://www.itongji.cn/article/060321612013.html

数据挖掘类图书：Hadoop实战(第2版)

iLoveI — Thu, 02 May 2013 14:55:32 +0000

点击上图图购买：

编辑推荐

《Hadoop实战(第2版)》编辑推荐：第1版广受好评，第2版基于Hadoop及其相关技术最新版本撰写，从多角度做了全面的修订和补充。不仅详细讲解了新一代的Hadoop技术，而且全面介绍了Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等重要技术，是系统学习Hadoop技术的首选之作。

媒体推荐

经过学术界和业界近10年的努力，Hadoop技术已经趋于完善而且应用广泛，几乎已经成为Big Data领域的事实标准。Hadoop技术本身比较复杂，而且还涉及Pig、ZooKeeper、Hive、HBase等一系列技术，学习门槛比较高，对于初学者和基础不太扎实的读者而言，有一本适合系统学习的Hadoop图书显得十分重要。本书即是专门为这两类读者量身定做的：第一，它的内容非常全面和前沿，不仅讲解了最新的Hadoop技术和第二代MapReduce，还讲解了涉及的所有周边技术，能满足系统学习的需求；第二，实战性非常强，不仅很多知识点配有精心设计的小案例，而且有完整的企业级案例，能满足操作实践的需求；第三，这一版在上一版的基础上根据最新的技术做了更新和补充，能满足读者学习最新技术的需求。本书第1版不仅取得了好的销量，而且广受好评，第2版在内容上有很大的提升，相信能让更多的读者从中受益。
——EasyHadoop 国内专业的Hadooop社区，致力于让Hadoop大数据分析更简单

作者简介

陆嘉恒，资深数据库专家和云计算技术专家，对Hadoop及其相关技术有非常深入的研究，主持了多个分布式云计算项目的研究与实施，积累了丰富的实践经验。获得新加坡国立大学博士学位，美国加利福尼亚大学尔湾分校（University of California,Irvine）博士后，现为中国人民大学教授，博士生导师。此外，他对数据挖掘和Web信息搜索等技术也有深刻的认识。

前言
第1章 Hadoop简介 1
1.1 什么是Hadoop 2
1.1.1 Hadoop概述 2
1.1.2 Hadoop的历史 2
1.1.3 Hadoop的功能与作用 2
1.1.4 Hadoop的优势 3
1.1.5 Hadoop应用现状和发展趋势 3
1.2 Hadoop项目及其结构 3
1.3 Hadoop体系结构 6
1.4 Hadoop与分布式开发 7
1.5 Hadoop计算模型—MapReduce 10
1.6 Hadoop数据管理 10
1.6.1 HDFS的数据管理 10
1.6.2 HBase的数据管理 12
1.6.3 Hive的数据管理 13
1.7 Hadoop集群安全策略 15
1.8 本章小结 17
第2章 Hadoop的安装与配置 19
2.1 在Linux上安装与配置Hadoop 20
2.1.1 安装JDK 1.6 20
2.1.2 配置SSH免密码登录 21
2.1.3 安装并运行Hadoop 22
2.2 在Mac OSX上安装与配置Hadoop 24
2.2.1 安装Homebrew 24
2.2.2 使用Homebrew安装Hadoop 25
2.2.3 配置SSH和使用Hadoop 25
2.3 在Windows上安装与配置Hadoop 25
2.3.1 安装JDK 1.6或更高版本 25
2.3.2 安装Cygwin 25
2.3.3 配置环境变量 26
2.3.4 安装sshd服务 26
2.3.5 启动sshd服务 26
2.3.6 配置SSH免密码登录 26
2.3.7 安装并运行Hadoop 26
2.4 安装和配置Hadoop集群 27
2.4.1 网络拓扑 27
2.4.2 定义集群拓扑 27
2.4.3 建立和安装Cluster 28
2.5 日志分析及几个小技巧 34
2.6 本章小结 35
第3章 MapReduce计算模型 36
3.1 为什么要用MapReduce 37
3.2 MapReduce计算模型 38
3.2.1 MapReduce Job 38
3.2.2 Hadoop中的Hello World程序 38
3.2.3 MapReduce的数据流和控制流 46
3.3 MapReduce任务的优化 47
3.4 Hadoop流 49
3.4.1 Hadoop流的工作原理 50
3.4.2 Hadoop流的命令 51
3.4.3 两个例子 52
3.5 Hadoop Pipes 54
3.6 本章小结 56
第4章开发MapReduce应用程序 57
4.1 系统参数的配置 58
4.2 配置开发环境 60
4.3 编写MapReduce程序 60
4.3.1 Map处理 60
4.3.2 Reduce处理 61
4.4 本地测试 62
4.5 运行MapReduce程序 62
4.5.1 打包 64
4.5.2 在本地模式下运行 64
4.5.3 在集群上运行 64
4.6 网络用户界面 65
4.6.1 JobTracker页面 65
4.6.2 工作页面 65
4.6.3 返回结果 66
4.6.4 任务页面 67
4.6.5 任务细节页面 67
4.7 性能调优 68
4.7.1 输入采用大文件 68
4.7.2 压缩文件 68
4.7.3 过滤数据 69
4.7.4 修改作业属性 71
4.8 MapReduce工作流 72
4.8.1 复杂的Map和Reduce函数 72
4.8.2 MapReduce Job中全局共享数据 74
4.8.3 链接MapReduce Job 75
4.9 本章小结 77
第5章 MapReduce应用案例 79
5.1 单词计数 80
5.1.1 实例描述 80
5.1.2 设计思路 80
5.1.3 程序代码 81
5.1.4 代码解读 82
5.1.5 程序执行 83
5.1.6 代码结果 83
5.1.7 代码数据流 84
5.2 数据去重 85
5.2.1 实例描述 85
5.2.2 设计思路 86
5.2.3 程序代码 86
5.3 排序 87
5.3.1 实例描述 87
5.3.2 设计思路 88
5.3.3 程序代码 89
5.4 单表关联 91
5.4.1 实例描述 91
5.4.2 设计思路 92
5.4.3 程序代码 92
5.5 多表关联 95
5.5.1 实例描述 95
5.5.2 设计思路 96
5.5.3 程序代码 96
5.6 本章小结 98
第6章 MapReduce工作机制 99
6.1 MapReduce作业的执行流程 100
6.1.1 MapReduce任务执行总流程 100
6.1.2 提交作业 101
6.1.3 初始化作业 103
6.1.4 分配任务 104
6.1.5 执行任务 106
6.1.6 更新任务执行进度和状态 107
6.1.7 完成作业 108
6.2 错误处理机制 108
6.2.1 硬件故障 109
6.2.2 任务失败 109
6.3 作业调度机制 110
6.4 Shuffle和排序 111
6.4.1 Map端 111
6.4.2 Reduce端 113
6.4.3 shuffle过程的优化 114
6.5 任务执行 114
6.5.1 推测式执行 114
6.5.2 任务JVM重用 115
6.5.3 跳过坏记录 115
6.5.4 任务执行环境 116
6.6 本章小结 117
第7章 Hadoop I O操作 118
7.1 I O操作中的数据检查 119
7.2 数据的压缩 126
7.2.1 Hadoop对压缩工具的选择 126
7.2.2 压缩分割和输入分割 127
7.2.3 在MapReduce程序中使用压缩 127
7.3 数据的I O中序列化操作 128
7.3.1 Writable类 128
7.3.2 实现自己的Hadoop数据类型 137
7.4 针对Mapreduce的文件类 139
7.4.1 SequenceFile类 139
7.4.2 MapFile类 144
7.4.3 ArrayFile、SetFile和BloomMapFile 146
7.5 本章小结 148
第8章下一代MapReduce：YARN 149
8.1 MapReduce V2设计需求 150
8.2 MapReduce V2主要思想和架构 151
8.3 MapReduce V2设计细节 153
8.4 MapReduce V2优势 156
8.5 本章小结 156
第9章 HDFS详解 157
9.1 Hadoop的文件系统 158
9.2 HDFS简介 160
9.3 HDFS体系结构 161
9.3.1 HDFS的相关概念 161
9.3.2 HDFS的体系结构 162
9.4 HDFS的基本操作 164
9.4.1 HDFS的命令行操作 164
9.4.2 HDFS的Web界面 165
9.5 HDFS常用Java API详解 166
9.5.1 使用Hadoop URL读取数据 166
9.5.2 使用FileSystem API读取数据 167
9.5.3 创建目录 169
9.5.4 写数据 169
9.5.5 删除数据 171
9.5.6 文件系统查询 171
9.6 HDFS中的读写数据流 175
9.6.1 文件的读取 175
9.6.2 文件的写入 176
9.6.3 一致性模型 178
9.7 HDFS命令详解 179
9.7.1 通过distcp进行并行复制 179
9.7.2 HDFS的平衡 180
9.7.3 使用Hadoop归档文件 180
9.7.4 其他命令 183
9.8 WebHDFS 186
9.8.1 WebHDFS的配置 186
9.8.2 WebHDFS命令 186
9.9 本章小结 190
第10章 Hadoop的管理 191
10.1 HDFS文件结构 192
10.2 Hadoop的状态监视和管理工具 196
10.2.1 审计日志 196
10.2.2 监控日志 196
10.2.3 Metrics 197
10.2.4 Java管理扩展 199
10.2.5 Ganglia 200
10.2.6 Hadoop管理命令 202
10.3 Hadoop集群的维护 206
10.3.1 安全模式 206
10.3.2 Hadoop的备份 207
10.3.3 Hadoop的节点管理 208
10.3.4 系统升级 210
10.4 本章小结 212
第11章 Hive详解 213
11.1 Hive简介 214
11.1.1 Hive的数据存储 214
11.1.2 Hive的元数据存储 216
11.2 Hive的基本操作 216
11.2.1 在集群上安装Hive 216
11.2.2 配置MySQL存储Hive元数据 218
11.2.3 配置Hive 220
11.3 Hive QL详解 221
11.3.1 数据定义（DDL）操作 221
11.3.2 数据操作（DML） 231
11.3.3 SQL操作 233
11.3.4 Hive QL使用实例 235
11.4 Hive网络（Web UI）接口 237
11.4.1 Hive网络接口配置 237
11.4.2 Hive网络接口操作实例 238
11.5 Hive的JDBC接口 241
11.5.1 Eclipse环境配置 241
11.5.2 程序实例 241
11.6 Hive的优化 244
11.7 本章小结 246
第12章 HBase详解 247
12.1 HBase简介 248
12.2 HBase的基本操作 249
12.2.1 HBase的安装 249
12.2.2 运行HBase 253
12.2.3 HBase Shell 255
12.2.4 HBase配置 258
12.3 HBase体系结构 260
12.3.1 HRegion 260
12.3.2 HRegion服务器 261
12.3.3 HBase Master服务器 262
12.3.4 ROOT表和META表 262
12.3.5 ZooKeeper 263
12.4 HBase数据模型 263
12.4.1 数据模型 263
12.4.2 概念视图 264
12.4.3 物理视图 264
12.5 HBase与RDBMS 265
12.6 HBase与HDFS 266
12.7 HBase客户端 266
12.8 Java API 267
12.9 HBase编程 273
12.9.1 使用Eclipse开发HBase应用程序 273
12.9.2 HBase编程 275
12.9.3 HBase与MapReduce 278
12.10 模式设计 280
12.10.1 模式设计应遵循的原则 280
12.10.2 学生表 281
12.10.3 事件表 282
12.11 本章小结 283
第13章 Mahout详解 284
13.1 Mahout简介 285
13.2 Mahout的安装和配置 285
13.3 Mahout API简介 288
13.4 Mahout中的频繁模式挖掘 290
13.4.1 什么是频繁模式挖掘 290
13.4.2 Mahout中的频繁模式挖掘 290
13.5 Mahout中的聚类和分类 292
13.5.1 什么是聚类和分类 292

序言

为什么写这本书
计算技术已经改变了我们的工作、学习和生活。分布式的云计算技术是当下IT领域最热门的话题之一，它通过整合资源，为降低成本和能源消耗提供了一种简化、集中的计算平台。这种低成本、高扩展、高性能的特点促使其迅速发展，遍地开发，悄然改变着整个行业的面貌。社会各界对云计算的广泛研究和应用无疑证明了这一点：在学术界，政府和很多高校十分重视对云计算技术的研究和投入；在产业界，各大IT公司也在研究和开发相关的云计算产品上投入了大量的资源。这些研究和应用推动与云计算相关的新兴技术和产品不断涌现，传统的信息服务产品向云计算模式转型。
Hadoop作为Apache基金会的开源项目，是云计算研究和应用最具代表性的产品。Hadoop分布式框架为开发者提供了一个分布式系统的基础架构，用户可以在不了解分布式系统底层细节的情况下开发分布式的应用，充分利用由Hadoop统一起来的集群存储资源、网络资源和计算资源，实现基于海量数据的高速运算和存储。
在编写本书第一版时，鉴于Hadoop技术本身和应用环境较为复杂，入门和实践难度较大，而关于Hadoop的参考资料又非常少，笔者根据自己的实际研究和使用经历，理论与实践并重，从基础出发，为读者全面呈现了Hadoop的相关知识，旨在为Hadoop学习者提供一本工具书。但是时至今日，Hadoop的版本已从本书第一版介绍的0.20升级至正式版1.0，读者的需求也从入门发展到更加深入地了解Hadoop的实现细节，了解Hadoop的更新和发展的趋势，了解Hadoop在企业中的应用。虽然本书第一版受到广大Hadoop学习者的欢迎，但是为了保持对最新版Hadoop的支持，进一步满足读者的需求，继续推动Hadoop技术在国内的普及和发展，笔者不惜时间和精力，搜集资料，亲自实践，编写了本书第二版。
第2版与第1版的区别
基于Hadoop 1.0版本和相关项目的最新版，本书在第1版的基础上进行了更新和调整：
每章都增加了新内容（如第1章增加了与Hadoop安全相关的知识，第2增加了在Max OS X系统上安装Hadoop的介绍，第9章增加了WebHDFS等）；
部分章节深入剖析了Hadoop源码；
增加了对Hadoop接口及实践方面的介绍（附录C和附录D）；
增加了对下一代MapReduce的介绍（第8章）；
将企业应用介绍移到本书最后并更新了内容（第19章）；
增加了对Hadoop安装和代码执行的集中介绍（附录B）。
本书面向的读者
在编写本书时，笔者力图使不同背景、职业和层次的读者都能从这本书中获益。
如果你是专业技术人员，本书将带领你深入云计算的世界，全面掌握Hadoop及其相关技术细节，帮助你使用Hadoop技术解决当前面临的问题。
如果你是系统架构人员，本书将成为你搭建Hadoop集群、管理集群，并迅速定位和解决问题的工具书。
如果你是高等院校计算机及相关专业的学生，本书将为你在课堂之外了解最新的IT技术打开了一扇窗户，帮助你拓宽视野，完善知识结构，为迎接未来的挑战做好知识储备。
在学习本书之前，大家应该具有如下的基础：
要有一定的分布式系统的基础知识，对文件系统的基本操作有一定的了解。
要有一定的Linux操作系统的基础知识。
有较好的编程基础和阅读代码的能力，尤其是要能够熟练使用Java语言。
对数据库、数据仓库、系统监控，以及网络爬虫等知识最好也能有一些了解。
如何阅读本书
从整体内容上讲，本书包括19章和4个附录。前10章、第18章、第19章和4个附录主要介绍了Hadoop背景知识、Hadoop集群安装和代码执行、MapReduce机制及编程知识、HDFS实现细节及管理知识、Hadoop应用。第11章至第17章结合最新版本详细介绍了与Hadoop相关的其他项目，分别为Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa，以备读者扩展知识面之用。
在阅读本书时，笔者建议大家先系统地学习Hadoop部分的理论知识（第1章、第3章、第6章至第10章），这样可对Hadoop的核心内容和实现机制有一个很好的理解。在此基础上，读者可进一步学习Hadoop部分的实践知识（第2章、第4章、第5章、第18章、第19章和4个附录），尝试搭建自己的Hadoop集群，编写并运行自己的MapReduce代码。对于本书中关于Hadoop相关项目的介绍，大家可以有选择地学习。在内容的编排上，各章的知识点是相对独立的，是并行的关系，因此大家可以有选择地进行学习。当然，如果时间允许，还是建议大家系统地学习全书的内容，这样能够对Hadoop系统的机制有一个完整而系统的理解，为今后深入地研究和实践Hadoop及云计算技术打下坚实的基础。
另外，笔者希望大家在学习本书时能一边阅读，一边根据书中的指导动手实践，亲自实践本书中所给出的编程范例。例如，先搭建一个自己的云平台，如果条件受限，可以选择伪分布的方式。
致谢
在本书的编写过程中，很多Hadoop方面的实践者和研究者做了大量的工作，他们是冯博亮、程明、徐文韬、张林林、朱俊良、许翔、陈东伟、谭果、林春彬等，在此表示感谢。
陆嘉恒
2012年6月于北京

文摘

第1章
Hadoop简介
本章内容
什么是Hadoop
Hadoop项目及其结构
Hadoop体系结构
Hadoop与分布式开发
Hadoop计算模型—MapReduce
Hadoop数据管理
Hadoop集群安全策略
本章小结
1.1 什么是Hadoop
1.1.1 Hadoop概述
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上，形成分布式系统；MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源，从而搭建自己的分布式计算平台，并且可以充分利用集群的计算和存储能力，完成海量数据的处理。经过业界和学术界长达10年的锤炼，目前的Hadoop 1.0.1已经趋于完善，在实际的数据处理和分析任务中担当着不可替代的角色。

点击下图图购买：

Dataguise：确保Hadoop数据安全的十大最佳方法

DinK — Sun, 07 Apr 2013 06:18:48 +0000

Dataguise日前公布了实施Hadoop的十大最佳做法。专业人员可以通过遵循管理隐私风险，数据和安全管理的程序，杜绝敏感数据外泄，降低风险状况，从而更好地满足合规性要求。

通过财富200强企业中的Hadoop安全部署经验总结，Dataguise开发出以下十大建议，以确保大型和复杂多样环境下的数据安全。

信息技术工具的日益更新和功能的不断优化成熟，使得大数据的使用变得更具有可行性。然而，这一新技术领域的优势往往还伴随着数据隐私的问题。在这些庞大的信息库中，个人身份信息（PII ），如姓名，地址和社会安全号码都存在泄露的可能。

如何确保Hadoop数据安全（来源：net-security）

1、先下手为强！在规划部署阶段就确定数据的隐私保护策略，最好是在将数据放入到Hadoop之前就确定好保护策略。

2、确定哪些数据属于企业的敏感数据。根据公司的隐私保护政策，以及相关的行业法规和政府规章来综合确定。

3、及时发现敏感数据是否暴露在外，或者是否导入到Hadoop中。

4、搜集信息并决定是否暴露出安全风险。

5、确定商业分析是否需要访问真实数据，或者确定是否可以使用这些敏感数据。然后，选择合适的加密技术。如果有任何疑问，对其进行加密隐藏处理，同时提供最安全的加密技术和灵活的应对策略，以适应未来需求的发展。

6、确保数据保护方案同时采用了隐藏和加密技术，尤其是如果我们需要将敏感数据在Hadoop中保持独立的话。

7、确保数据保护方案适用于所有的数据文件，以保存在数据汇总中实现数据分析的准确性。

8、确定是否需要为特定的数据集量身定制保护方案，并考虑将Hadoop的目录分成较小的更为安全的组。

9、确保选择的加密解决方案可与公司的访问控制技术互操作，允许不同用户可以有选择性地访问Hadoop集群中的数据。

10、确保需要加密的时候有合适的技术（比如Java、Pig等）可被部署并支持无缝解密和快速访问数据。

前Facebook“大数据”主管的6条心得

DinK — Sun, 29 Jul 2012 10:53:58 +0000

阿施什·图苏尔（Ashish Thusoo）非常了解“大数据”（Big Data）。他在2007年加入Facebook，当时该公司只有5,000万用户。他离开公司的时候，该数字已经达到约8亿。在此期间，他管理Facebook的内部数据分析团队。
Facebook的分析团队管理这些数据及其分析，从而用于广告定位、客户增长以及提高用户参与度。现在图苏尔拥有一家新公司Qubole，该公司现在正打造云计算的“大数据”平台。
图苏尔的各项心得其实有一个统一的主题，那就是数据的民主化。对此，他的意思是向组织内所有用户开放数据分析，无论是数据科学家、产品工程师还是商业分析师。
1. 新技术已经将对话从“储存什么数据”向“掌握更多数据后我们可以怎么做”转变。 Hadoop和Hive等开源技术具有相对较低的成本，从而帮助收集更多重要的测量指标。在Facebook和其他互联网网站方面，这意味着收集更多有关用户活动和行为的数据。
成本降低也让更多历史数据被存储在网络上。图苏尔表示：“结果是，我们将获得由数据驱动的、更好的应用程序。至少在数据世界，相比对数量较少的数据采用复杂的算法，对数量较多的数据采用简单的算法似乎产生更好的结果，当然其中也有部分例外。”
2. 为终端用户简化数据分析。 换言之，图苏尔在Facebook认识到，为科学家、分析师和工程师等数据用户民主化数据可以产生很强的威力。
他的目标是，让所有与数据相关的功能简化，从执行应用程序和收集数据，到理解和分析这些数据，到创造由数据驱动的应用程序。
“打造熟悉的界面”和数据处理工具是提高Facebook内部使用Hadoop和Hive等基础技术的关键。
3. 用户数量增加意味着数据分析系统需要更加强劲。 在Facebook的数据科学家、分析师和数据工程师中民主化数据，这个想法提高了该要求的难度。
为了实现这个想法，图苏尔的团队不得不设计特定功能来处理写得比较糟糕的查询语句，从而防止这些查询语句使系统崩溃。他们必须建立包括使用监测和限制在内的多种机制以使资源公平共享。
“我们拥有多种不同的用户，从商业分析师到产品工程师，他们对基础设施和如何最好地利用数据有很多不同层次的理解。”
4. 为“大数据”服务的社交网络。 “我们进行了投资，以使我们的工具越来越具有协作性，从而让用户可以相互间共享分析，并通过与某套数据的专家用户连接，从而发现数据。”
随着Facebook实现超高速增长以及数据一直发生变化，协作的方法比围绕元数据创造知识库更有用。
5. 没有任何单一的基础设施可以解决所有的“大数据”问题。 在实时报告方面，由于我们发现通过系统间协作可以比Hadoop更好地解决用例，因而图苏尔的团队进行了大量投资。在实时报告方面，我们的团队投资打造了数据分析软件Puma。有很多关于图解分析以及对大型数据集的低延迟数据检查的例子，在这些例子里他们都必须打造或者投资新技术。
6. 开发软件是困难的，但是运行一套服务却是更加困难。 图苏尔的团队必须进行大量工作以确保服务可以使用。他们投资大量时间和能源打造“那些可以测量使用情况、指出瓶颈和为我们的用户量化他们使用情况的系统”。他们不得不打造特定的功能，从而监测和交付达到一致认可水平的服务。
25年前，福布斯开始对全球亿万富豪进行权威性的追踪。我们制作的首个榜单囊括了140位财富数量达十位数的富豪（其中24人至今仍在榜单之列）。时至今日，这个俱乐部已经壮大了不少。今年，我们统计得到资产过10亿美元的富豪达1,226位，创下历史最高纪录。而这一年的主旋律就是动荡……
尽管中国炙热的经济在今年有所降温，股市也剧烈震荡，但中国的造富运动还在继续。根据《福布斯》亚洲版最新出炉的2011中国富豪排行榜，中国的亿万富豪人数达到了前所未有的146人，较2010年增加18人之多。今年上榜的400位大陆富豪的财富达到4,590亿美元，较上年的4,232亿美元增长8%，但若以人民币计算，增幅则只有4%……
有些人白手起家打造出10亿美元的个人财富。而有些人则因出身豪门而获得巨额财富。遗产继承人在福布斯美国400富豪榜中所占的百分比已经缩减，在今年榜单中仅占30％，但这一群体拥有大量的血缘亲属。18个豪门家族中有多名成员登上……

盘点九大热门开源大数据技术

iLoveI — Thu, 28 Jun 2012 09:30:52 +0000

随着全球企业和个人数据的爆炸式增长，数据本身正在取代软件和硬件成为驱动信息技术行业和全球经济的下一个大“油田”。

与PC、web等断层式信息技术革命相比，大数据的最大的不同是，这是一场由“开源软件”驱动的革命。从IBM、Oracle等巨头到雨后春笋般的大数据创业公司，开源软件与大数据的结合迸发出惊人的产业颠覆性力量，甚至VMware这样的过去完全依赖专有软件的厂商都开始拥抱开源大数据工具。

下面，我们就列举九大最热门的大数据开源技术供大家参考。

一、Hadoop

Apache Hadoop 是一个能够对大量数据进行分布式处理的开源软件框架。由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入，Hadoop的开发者Doug Cutting最初开发Hadoop是为了满足开源web搜索引擎Nutch的集群处理需求，Cutting实现了MapReduce功能和分布式文件系统（HDFS），并整合成为Hadoop。Hadoop的命名灵感来自Cutting儿子的玩具大象。通过MapReduce，Hadoop将大数据分解成小块分配给各个通用服务器节点进行分布处理。Hadoop是目前最流行的大数据（包括非结构化、半结构化和结构化数据）存储和处理技术。Hadoop的开源授权方式是Apache License2.0。

二、R

R是开源编程语言和软件环境，被设计用来进行数据挖掘/分析和可视化。R是S语言的一种实现。而S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。但S-PLUS是一个商业软件，相比之下开源的R语言更受欢迎，被人们誉为“统计界的Red Hat”。

在KDNuggets2012年做的“过去与十二个月你在实际项目中使用的数据挖掘/分析工具”的调查中，R以30.7%的得票率荣登榜首，超过微软Excel（29.8%）和Rapidminer（2010和2011年排名第一）。值得注意的是，今年排名前五名的数据挖掘工具中有四个是开源软件。此外R还在击败SQL和Java，在最受欢迎的数据挖掘应用编程语言排行榜中排名第一。

三、Cascading

作为Hadoop的开源软件抽象层，Cascading允许用户使用任何基于JVM的语言在Hadoop集群上创建并执行数据处理工作流。Cascading能隐藏MapReduce任务底层的复杂性。Chris Wensel设计Cascading的目的是成为MapReduce的一个备用API。Cascading经常被用于广告定向统计、日志文件分析、生物信息学分析、机器学习、预测分析、web内容文本挖掘以及ETL应用。Cascading的商业支持由Concurrent公司提供，该公司由Cascading的设计者Wensel创建。使用Cascading的知名网站包括Twitter和Etsy。Cascading在GNU下开源。

四、Scribe

Scribe是Facebook开发的一种服务器软件，2008年发布。Scribe能实时聚合来自大量服务器的日志文件。Facebook设计Scribe的目的是应对自身的扩展性挑战，目前Facebook使用Scribe来处理每天数以百亿计的消息。Scribe在Apache License2.0下开源。

五、ElasticSearch

ElasticSearch基于ApacheLucene，开发者是Shay Banon。ElasticSearch是一个分布式的RESTful开源搜索服务器，同时也是一个可扩展的解决方案，无需特别配置就可支持支持接近实时的搜索和多租户。很多公司都采用了ElasticSearch，包括StumbleUpon和火狐Mozilla。ElasticSearch在Apache License2.0授权方式下开源。

六、Apache HBase

HBase是运行于HDFS之上的，可扩展的，面向列的，分布式非关系型数据库。HBase由Java语言写成，支持大表（Big Table）的结构化数据存储。HBase的优点是能进行容错存储，并能快速访问海量Sparse数据。HBase是过去几年中涌现的NoSQL数据库的代表之一。2010年Facebook采用HBase搭建消息平台，HBase在Apache License2.0下开源。

七、Apache Cassandra

Apache Cassandra是Facebook开发的开源的分布式数据库管理系统，用来实现用户收件箱内搜索功能，Cassandra同时也是一个NoSQL数据库。2010年，Facebook放弃了Cassandra转而采用HBase。但是Cassandra依然被一些公司采用，例如Netflix使用Cassandra作为视频服务的后台数据库。Cassandra在Apache License2.0下开源。

八、MongoDB

MongoDB由DoubleClick创始人开发，是一个流行的开源NoSQL数据库。MongoDB通过动态模式BSON在类JSON文档中存储结构化数据。MongoDB被很多大企业采用，包括MTV Networks、Craigslist、迪斯尼互动媒体集团、纽约时报和Etsy。MongoDB在GNU下开源，由10gen公司提供商业版授权。

九、Apache CouchDB

Apache CouchDB也是一个开源NoSQL数据库。使用JSON存储数据，用JavaScript作为查询语言，API使用MapReduce和HTTP。CouchDB由前IBM Lotus Notes开发者Damien Katz开发，作为大规模对象数据库的存储系统。注明媒体集团BBC就使用CouchDB作为动态内容平台，CouchDB在Apache License2.0下开源。

via：IT经理网

Hadoop工具生态系统指南

iLoveI — Wed, 20 Jun 2012 15:48:37 +0000

Hadoop工具生态系统生长迅速，以下是IT经理网整理的最新Hadoop工具资源，供IT经理日常参考，欢迎读者来信或留言补充。

Hadoop

Apache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。

网址：hadoop.apache.org

HDFS

分布式文件系统提供高速的应用数据访问。

网址：hadoop.apache.org/hdfs/

MapReduce

在计算机集群上进行大数据分布式处理的软件框架。

亚马逊Elastic MapReduce

亚马逊Elastic MapReduce是一种web服务，能让企业、研究人员、数据分析师和开发者低成本快速处理海量数据。该服务是托管于亚马逊弹性云（EC2）和亚马逊S3存储云上的web大规模基础架构上的Hadoop框架。

网址：aws.amazon.com/elasticmapreduce/

Cloudera Hadoop发行版（CDH）

Cloudera的Hadoop发行版（CDH）为基于Hadoop的数据管理平台树立了新的标杆。

网址：cloudera.com/hadoop

ZooKeeper

针对分布式应用的高性能协调服务。ZooKeeper为配置信息、命名提供集中化管理服务，支持分布式同步，并提供群组服务。

网址：hadoop.apache.org/zookeeper/

HBase

可扩展的分布式数据库，支持大表（big table）的结构化数据存储。

网址：hbase.apache.org

Avro

数据序列化系统。与Thrift和Protocolbuffers类似。

avro.apache.org

Sqoop

Sqoop（SQL-to-Hadoop），是命令行工具，有以下功能：

● 将单独的表或者整个数据库导入HDFS文件
● 通用Java库支持与导入数据的互动
● 支持将SQL数据库直接导入你的Hive数据仓库

网址：cloudera.com/downloads/sqoop/

Flume

Flume是一个分布式高可靠的大数据传输服务。

网址：archive.cloudera.com/cdh/3/flume/

Hive

Hive是基于Hadoop的数据仓库基础架构，提供的工具能进行简便的数据汇总、ad-hoc查询，以及对存储在Hadoop文件中的大数据集的分析。Hive提供一种简单易用的查询语言——Hive QL，该语言基于SQL，这意味着那些对SQL熟悉的用户可以像使用SQL数据库一样查询大数据。Hive QL还云寻传统的map/reduce程序员插入他们自己的mappers和reducers，进行更为复杂的分析。

网址：hive.apache.org

Pig

Pig是一种高阶数据流语言和并行计算的执行框架。Apache Pig是一个大数据集分析平台，提供了一种表达数据分析程序的高阶语言，以及评估这些程序的基础架构。Pig程序的最大优点是其架构能为底层并行化进行调整，从而能处理非常大规模的数据集。

网址：pig.apache.org

Oozie

Oozie 是一个开源的工作流和协作服务引擎，为管理Apache hadoop数据处理任务提供工作流/协作服务。Oozie 是可扩展的、可伸缩的面向数据的服务，运行在Hadoop 平台上，协调Hadoop上运行的不同任务（包括HDFS,Pig和MapReduce）。

Oozie 包括一个离线的Hadoop处理的工作流解决方案，以及一个查询处理 API。

网址：yahoo.github.com/oozie

Cascading

Cascading是一个查询API和查询计划器，被用于定义和执行Hadoop集群上运行的复杂、可自由扩展、可容错的数据处理工作流。

网址：cascading.org

Cascalog

Cascalog一种能使在Hadoop上使用Clojure处理数据变得简单直观的工具。Cascalog综合了两大顶尖技术：Clojure和Hadoop，同时让Datalog焕发青春。Cascalog的特点是高性能、灵活和鲁棒。

网址：github.com/nathanmarz/cascalog

HUE

Hue是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境，以web程序的形式发布，对于单独的用户来说不需要额外的安装。

网址：archive.cloudera.com/cdh3/hue 更多信息：Cloudera blog

Chukwa

Chukwa是面向大型分布式系统的数据采集系统。Chukwa基于Hadoop HDFS和Map/Reduce框架之上，继承了Hadoop的可扩展性和容错性。Chukwa还提供一个灵活而强大的工具包，用于显示、监控和分析分析结果，更好地利用所收集的数据。

网址：incubator.apache.org/chukwa/

Mahout

一种可扩展的机器学习和数挖掘库。

网址：mahout.apache.org

via：T经理网

Google投资大数据分析公司ClearStory Data

DinK — Tue, 20 Mar 2012 15:16:33 +0000

谷歌风投、安德里森·霍洛维茨、Khosla Ventures和一些个人投资者，已向大数据技术新创公司ClearStory Data提供了种子资金，具体数额不详。ClearStory Data是家新近成立的公司，关注于向大众提供大数据技术。

ClearStory Data开发的技术，可使收集和研究来自企业数据源、Hadoop和网络的多元化、分散数据更为容易，以帮助企业用户了解和发现新的商机。ClearStory Data分析来自多个来源的数据，包括公共和私营部门的数据，以发现新的趋势和动态。这样做的结果可发现新的商机和更深入研究消费情报。

ClearStory Data的产品虽然还未发布，但将与存储在数据库、网络和其他来源的数据连接，并加入虚拟的数据挖掘组件，使用户分析数据并理解信息。其好处在于，可让企业同时分析内部和公共数据，并使数据容易被大众理解。

大数据吸引了投资者和企业的关注。如果ClearStory Data能够真正分析大数据，并使企业能理解大数据，将有一个光明的未来。显然，这些著名投资机构也是这么认为的。

Programmer：2012年大数据行业五大预测

DinK — Wed, 22 Feb 2012 16:01:13 +0000

更加强大且富有表现力的分析工具

在过去的一年中，围绕着NoSQL和Hadoop，基本的存储与数据处理引擎方面的改进工作得到了加强并且日趋工程化。毫无疑问，这种态势将会持续下去，因为我们看到了Hadoop世界中有越来越多形态各异的产品融入到了各种发布包、设备和按需的云服务当中。我衷心希望在不远的将来Hadoop能够成为必要的基础设施。

现在，已经出现了一些面向程序员与数据科学家的工具（例如Karmasphere和Datameer），此外，还有面向已经建立起来的分析工具的Hadoop连接器（例如Tableau和R）。但还有一种方式可以让大数据变得更为强大，那就是降低实验的成本。

下面两种方式可以使大数据变得更为强大。

更好的编程语言支持。因为我们将数据而非业务逻辑作为程序中的主要实体，所以必须要创建或再去探索一些方言，使我们能够将精力放在数据而非底层 Hadoop设施所透露出来的抽象上面。换句话说，编写更简短的程序，能够更清晰地表达出我们对数据所做的处理。这些抽象将有助于为非程序员创建更好的工具。
需要提供更好的交互支持。如果说Hadoop有缺点，那么其缺点也在于它所孕育的批量化处理的计算本质。数据科学的敏捷本质决定了它钟爱于能够提供更好交互性的工具。

流线化的数据处理

Hadoop批量化的处理对于很多场合都足够用了，特别是数据报告的频率不需要达到分钟级别的场合。然而，批量化处理并非总能满足我们的要求，特别是对于移动和Web客户端等在线需求，或是财务和广告等需要实时变化的市场。

在未来几年中，用于处理流线化或接近实时的分析与处理的可伸缩框架和平台将会得到采用。Hadoop将会支持大规模的Web应用，这些平台将会由大规模位置感知的移动、社交和传感器应用所推动。

对于某些应用来说，已经没有足够的空间来存储业务接收到的所有数据：在某一时刻，你需要扔掉一些东西。凭借流线化的计算能力，你可以对数据进行分析并决定扔掉哪些数据而不必查看map/reduce的“存储—计算”循环。在实时框架领域中，新涌现的竞争者有来自Twitter的Storm和 Yahoo!的S4。

数据市场的兴起

当与其他数据集混合到一起时，你自己的数据会变得更有说服力。比如说，将天气状况添加到客户的数据中，检查是否有与客户购买模式相关的天气模式。获取这些数据集是个让人头疼的问题，特别是在IT部门之外做这件事，并且要求一定的精度时更是如此。数据市场的价值在于为这种数据提供了一个目录，以及流线化、标准化的交付方法。微软将其Azure市场集成到分析工具中的做法预示了我们今后能更加方便地访问数据了。

数据科学工作流与工具的开发

随着数据科学团队不断为各个公司所认可和接受，其角色和流程将会变得更加正规化。成功的数据科学团队的驱动力之一就是其与公司经营活动的集成程度，这与成为边缘的分析团队截然相反。

软件开发者已经拥有了大量富于逻辑与社交性质的基础设施，这包括wiki与源代码控制，以及用于将其流程和需求公开给企业主的各种工具。集成的数据科学团队需要自己的一套工具才能高效协作。其中之一就是EMC Greenplum的Chorus，它提供了针对数据科学的一个社交软件平台。使用这些工具有助于组织中数据科学处理的不断涌现。

数据科学团队将会逐渐开始一些重复的流程，我们希望这是敏捷的。相比诸如The Guardian和NewYork Times之类的新闻组织的新闻数据团队所做的开创性工作：只要给定一个不长的时间表，这些团队就可以将原生格式的数据转换为成品，这需要与记者携手来完成。

对可视化的理解和需求的提升

可视化在数据工作流中能够实现两个目的：解释与探索。虽然业务人员可能将可视化看作是最终结果，但数据科学家还会将可视化作为寻求问题以及探索数据集新特性的一种方式。

如果说成为数据驱动的组织需要培养所有员工拥有更好的数据感觉的话，那么可视化在将数据操纵能力传递给那些不会编程或缺乏统计分析技巧的员工的过程中就扮演着重要角色。

过去的整整一年，业务对数据科学家的需求一直都是如此。我不断地听到数据科学家说，他们最想要的是：懂得创建可视化的人才。

Via Programmer

行业资讯：提供数据分析和可视化的5家初创公司

DinK — Tue, 31 Jan 2012 04:45:28 +0000

2012年1月31日“大数据” （Big data）眼下非常热门，但像Hadoop（一个侧重于数据存储和处理的平台）这样的基础设施性平台还需要一些帮助才能进入主流。它们需要的是一两个杀手级应用，让公司无需聘请拥有斯坦福大学博士学位的团队就可以分析、可视化所有数据并据此采取行为，或是让开发人员无需由零开始开发“大数据”应用。

Hadoop网站

下面介绍的这些初创公司就可以为Hadoop这样的平台提供帮助。这5家公司或者处于“隐秘模式”（stealth mode，在商业中是指公司处于暂时的保密状态，通常是为了避免竞争），或者刚刚结束隐秘模式。

1 BloomReach

BloomReach认处于隐秘模式

处于隐秘模式的BloomReach是一个非常有针对性、非常方便的大数据解决方案。它提供一个“软件即服务”（SaaS）产品，帮助领先的在线公司发现其顾客正在寻找的最高质量，最相关的内容。公司创业团队的成员来自谷歌、思科、 Facebook和雅虎等公司。据估计BloomReach目前约有160家客户，全部都是大型网站，其中大部分来自零售业。BloomReach的核心技术和方法包括Hadoop、Lucene、Monte Carlo simulations（蒙特卡罗方法，又称随机抽样或统计试验方法）和大型图像处理。

2 Continuuity

Continuuity处于隐秘模式

刚刚推出的Continuuity目前处于隐秘模式，其创始人是前雅虎副总裁兼首席云构架师托德·帕帕约安努（Todd Papaioannou）。他希望让开发人员能够更容易地构建可以利用云计算和大数据技术的应用程序。帕帕约安努最近表示，大多数开发人员不应该再走一遍雅虎、Facebook和其他公司走过的老路来编写数据驱动的大型应用程序。他还表示，“智能数据结构（data fabric）是未来的中间件”。该公司的名字来自于“continuum”，意为“连续统一体”。

3 Odiago

Odiago旨在改善网络分析，是Hadoop和分析专家克里斯托夫·比希利亚（Christophe Bisciglia）以及亚伦·金贝尔（Aaron Kimball）的心血结晶。它的第一个产品Wibidata目前正在进行私测。Wibidata能让网站更好地分析用户数据，创建更加具有针对性的功能。它建立在Hadoop和Hbase之上，但也会利用公司现有的数据管理和商业智能工具。目前该产品的客户有维基百科、RichRelevance、FoneDoktor和Atlassian等。

4 Platfora

Platfora于去年9月推出，曾融资570万美元。Platfora希望让大数据分析技术变得更加亲民。其创始人兼首席执行官本·维特（Ben Werther）以前曾在Greenplum和NoSQL初创公司DataStax公司，他在Platfora推出时曾表示，Platfora的界面非常直观，视觉效果极好，这让基于Hadoop的分析变得非常容易，甚至学历史专业的人也可以使用它。 Platfora的产品尚未推出，但该公司目前正在聘请前端和用户体验方面的专业人才。

5 SkyTree

Skytree是可能是这5家公司中最为隐秘的一家，但它也非常地雄心勃勃——它希望让主流公司能够利用出色的机器学习技术。机器学习是一种令人印象深刻的技术，它让系统本身变得更聪明，因为它可以消化更多的数据，但目前这种技术一般只存在于研究所或顶尖的分析团队中。 Skytree的团队非常出色，其联合创始人亚历山大·格雷（Alexander Gray）在乔治亚理工学院教机器学习课程，他曾在美国航空航天局（NASA）的喷气推进实验室工作了6年。该公司将在本季度晚些时候正式推出。

via：tech.qq.com

Hadoop – 庄闲棋牌官网官方版 -199IT

基于Hadoop大数据分析应用场景与实战

更多阅读：

Hadoop推动现代数据仓库技术的深刻变革

更多阅读：

一张图回顾Hadoop十年–信息图

更多阅读：

Paradigm4：调查显示76%的数据科学家认为Hadoop太慢

更多阅读：

大数据时代可能影响你的7个商业趋势

更多阅读：

数据挖掘类图书：Hadoop实战(第2版)

编辑推荐

媒体推荐

作者简介

目录

序言

文摘

更多阅读：

Dataguise：确保Hadoop数据安全的十大最佳方法

更多阅读：

前Facebook“大数据”主管的6条心得

更多阅读：

盘点九大热门开源大数据技术

更多阅读：

Hadoop工具生态系统指南

更多阅读：

Google投资大数据分析公司ClearStory Data

更多阅读：

Programmer：2012年大数据行业五大预测

更多阅读：

行业资讯：提供数据分析和可视化的5家初创公司

更多阅读：