大数据行业 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Mon, 12 Sep 2016 09:52:41 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 三维解构国内大数据应用现状 //www.otias-ub.com/archives/516656.html Mon, 12 Sep 2016 09:52:41 +0000 //www.otias-ub.com/?p=516656 随着大数据神秘面纱揭开,人们意识到大数据价值实为大数据科学挖掘之后的应用。应用,能推动大数据技术的创新和产业的发展,是大数据在经济发展、社会进步中显现价值的关键环节。

大数据应用已延伸至各个领域,总的可以借助一个三维的XYZ发展战略来概括,即政府、行业及部委。

1473673803-8695-3417eb9bbd9019409e082b

地方政府显灵活 大数据应用破难题

X轴-政府

2016年有望成为政府大数据爆发式增长元年

2016年各政府将发展大数据作为工作重点,促成了大数据建设项目的高速增长。较2015全年,2016上半年政府大数据项目增长率达到60%以上,2016年有望成为政府大数据爆发式增长元年。

政府大数据项目增长率

1473673803-4878-3417eb9bbd9019409b8c0c
地方大数据产业集聚趋势凸显

根据各地方大数据应用现状,可构建大数据产业区域分布图。目前大数据产业集聚趋势凸显,形成三大辐射区域,分别是京津冀、珠江三角及以贵州为中心的中西部。

2015-2016年大数据应用项目区域分布图

1473673803-3362-3417eb9bbd9019409b9e0e
与时俱进 国家发展战略相呼应

2015年3月28日,国家发展改革委、外交部、商务部联合发布《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》,“一带一路”升级为我国国家战略。甘肃、福建、黑龙江等地作为“一带一路”建设的重要区段,积极开展“一带一路”大数据项目,助力国家发展战略顺利实施。

围绕国家“一带一路”战略开展大数据项目

1473673803-1878-3417eb9bbd9019409baa0f
民生问题 成大数据应用着力点

交通拥堵、看病难、食品安全、教育资源不均衡等民生问题,已成城市发展瓶颈。政府从不同侧面切入,利用大数据手段解决民生问题。其中涉及交通方面的大数据项目居多,其次为大数据扶贫项目。

2015-2016政府开展的民生大数据项目

1473673803-3305-3417eb9bbd9019409bc310
因地制宜 打造特色大数据项目

各级政府利用地域特色积极开展大数据项目,旨在利用大数据对当地的特色产品、地理优势及文物建设进行保护和发扬。

各地方依据各地特色建立的大数据平台

1473673803-2206-3417eb9bbd9019409bd811

行业大数据最活跃 营销定制忙转型

Y轴-行业

行业大数据 成资本市场焦点

大数据应用在行业中显得最为广泛和活跃,2016年上半年,医疗大数据行业发生投融资事件为18起,交通大数据行业投融资金额为305.4亿元。

2016上半年各行业大数据投融资事件对比分析

1473673804-5032-3417eb9bbd9019409bea12

2016上半年各行业大数据投融资金额

1473673804-8983-3417eb9bbd9019409bf913
重塑与颠覆 大数据对行业进行变革

大数据正在被各行业广泛应用。根本原因是大数据可在决策、营销、预测、规划等方面彻底改变企业运作方式。

大数据对行业的主要影响

1473673804-9176-3417eb9bbd9019409c2016
大数据对企业 是挑战更是机遇

大数据已逐渐渗透到企业经营管理当中,大数据时代为企业带来诸多挑战的同时也带来了巨大的发展机遇。大数据能够帮助企业预测经济形势、把握市场态势、了解消费需求、提高研发效率,不仅具有巨大的潜在商业价值,而且为企业提升竞争力提供了新思路。

各行业对大数据的具体应用

1473673804-1186-3417eb9bbd9019409c4d17

央行部委齐发力,大数据应用各具特色

Z轴-部委

71家部委试水大数据应用

据统计:截止至2016年上半年,共有71家部委陆续开展了大数据项目。其中,2015年建设大数据项目的部委有46个,应用案例62起,2016年建设大数据项目的部委有25个,应用案例有30起。国家各部委在大数据领域,行动早,执行力强,发挥了“领头羊”的作用。

部委大数据应用项目对比分析

1473673804-7403-3417eb9bbd9019409c7218
立足部委职能 特色鲜明

各部委建设的大数据项目通常都与各自部门职能相关,减少了人力、财力的浪费,大大提高了办公效率。

部委建设的政务相关大数据项目

1473673804-5056-3417eb9bbd9019409ca21c
立足大数据根本 构建开放共享平台

部委通过建立大数据共享平台或数据中心,实现了业务体系化与系统化,提高了服务水平及决策能力。

部委建设的开放共享大数据平台

1473673805-8919-3417eb9bbd9019409c9d1b
了解大数据应用现状,可借鉴已有的大数据项目,为自身大数据建设提供指导;了解大数据应用现状,能熟知目前大数据的建设内容,洞悉大数据未来发展方向;了解大数据应用现状,可了解目前发展弊端,利于拓展大数据应用市场。

来源:大数据周刊

]]>
2016年中国通信大数据行业发展现状及发展前景预测 //www.otias-ub.com/archives/465454.html Sat, 23 Apr 2016 15:33:29 +0000 //www.otias-ub.com/?p=465454 1461425585-7523-23110004osap

一、中国通信行业发展现状

1、电信运营商传统主业已接近天花板,市场趋于饱和,不转型将面临巨大业绩下滑压力。工信部数据显示:2015年,我国移动电话用户普及率达95.5部/百人,其中有9个省市自治区的移动电话普及率突破100部/百人,北京更是高达188部/百人,存量博弈异常激烈;固定电话用户数连降9年,普及率已经降至16.9部/百人。

1949-2015年我国电话用户普及率(单位:部/百人)

1461425585-5488-23104641mvgr

2015年中国移动电话用户分省普及率(单位:部/百人)

1461425585-8430-23104647d1hp

用户净增乏力,OTT替代明显,语音、短信等业务量持续下滑。虽然随着4G的快速普及,数据流量爆发式增长,但面临“量收增长不同步”困局,无法明显改善业绩。加之营改增、虚拟运营商加剧竞争、提速降费等因素的影响,运营商利润下滑已成为常态。电信运营商加速转型、寻求新的业务和收入增长点已经势在必行。

2、当前,运营商最赚钱的业务仍是“语音”和“短信”,毛利率分别高达44%和68%。但这两项业务正是OTT冲击的重灾区,下滑颓势难以挽回。一方面,单价有降无升,导致毛利率持续降低;另一方面,业务量也不断下滑:工信部数据显示,2016年1月,全国移动电话去话通话时长完成2352.2亿分钟,同比下降1.1%,较同期峰值2014年1月的2465.8亿分钟下降约5%;全国移动短信业务量完成540.8亿条,同比下降11.3%,较同期峰值2012年1月的855.7亿条更是大幅下滑36.8%。

2013-2015年中国语音平均单价及短信平均单价

1461425585-9862-23104656qv2v

2012-2015年中国移动语音和短信业务量变化趋势图

1461425585-2834-23104705w90i

随着移动互联网的快速发展,4G加快普及,运营商的数据流量业务爆发式增长。工信部数据显示:2015年,我国移动数据流量消费达41.87亿GB,同比增长103%,比上年提高46.96个百分点。虽然业务量高速增长,但为响应国家“提速降费”要求,数据流量的平均单价持续降低,目前约0.06元/MB,毛利率仅20%左右。

2012-2015年中国运营商数据流量业务增幅

1461425585-8330-23104713ozud

2013-2015年中国数据流量业务平均单价和毛利率变化趋势图

3、从3G时代开始,运营商已进入流量红利阶段,4G更是让流量红利发挥地淋漓尽致。但运营商必将面临一个困局:宽带和移动互联网在创造了一个用户可以获得几乎任何所需的互联世界后,用户额外的网络使用将不会为运营商带来额外收入,每比特收入的持续下降将无法逆转,甚至最终与成本曲线交叉。数据显示:预计在2017-2018年,运营商的每比特收入将与每比特成本趋同,之后或将出现收入成本倒挂情况。

2005-2020年运营商每比特收入与成本关系图

1461425586-9346-23104756oel6

随着数据流量单价的快速降低,当下风光不二的流量红利已进入中后期,即使业务量仍有增长空间,但对于营收的改善将会越来越力不从心。那么,接下来电信运营商的最优选择必将是“数据红利”变现,大数据转型箭已在弦。

二、中国通信大数据行业发展前景预测

1、中国的大数据市场正式起步于2009年,经过近几年的发展磨砺,目前已经进入高速发展期。随着十三五规划将大数据上升至国家战略层面,未来市场空间巨大。2015年,我国的大数据产业市场规模已达1105.6亿元,较2014年增长44.15%,其中大数据基础设施建设、大数据软件和大数据应用分别占比64.53%、25.47%和10%。预计到2018年,中国大数据产业市场规模将达4163亿元,其中大数据基础设施建设占比将降至45%,大数据应用的市场规模占比将提升至27%,未来仍将提高。

2018年中国大数据产业市场规模预测(单位:亿元)

1461425586-7627-23104808g2v3

2015年和2018年中国大数据产业细分市场占比

1461425586-4942-2310481787gj

2、通信大数据2015年既已完成破局,2016年必将扬帆起航进入实质性商业阶段。尤其随着十三五期间“国家大数据战略”的深入推进,通信大数据市场将迎来飞跃。我们预计,2016年通信大数据产业市场规模将达342亿元,较2015年增长163%,其中大数据基础设施占比60.5%,市场规模将达207亿元,大数据软件占比29.5%,市场规模将达101亿元,大数据应用占比10%,市场规模将达34亿元。

2014-2018年中国通信大数据产业及细分领域的市场规模(单位:亿元)

1461425586-1447-23104826pk2x

3、随着用户媒体消费行为的碎片化、多屏化,如何找准目标客户、提高营销效率成为广告主的迫切需求。因此,程序化购买(Programmatic Buying)应运而生。DSP是程序化购买的核心环节,DMP是DSP工作的基础,也是通信大数据的变现通道。原因在于程序化购买所标榜的精准化、智能化、自动化,核心有赖于DMP对用户的大数据分析,而通信大数据基本可以满足DMP所需的所有数据需求。当前,我国的程序化广告购买市场正处于快速成长期, 2015年,中国程序化广告购买的市场规模达115.1亿元,增长率为137.6%,预计到2018年,中国程序化广告购买的市场规模将达469.6亿元,较2015年增长308%。

2012-2018年中国程序化广告购买市场规模(单位:亿元)

1461425586-4092-23104834r1zq

4、通信大数据精准营销应用将分享程序化广告市场10%左右的收益(包括数据变现和运营商独立或合作运营)。假设业务初期占有率略低,预计2016年中国通信大数据精准营销市场规模将达13亿元。

2015-2018年中国通信大数据精准营销市场规模(单位:亿元)

1461425586-5723-201604

5、地理位置本身的价值有限,但移动中的位置及其轨迹,以及将位置与服务结合起来,将会产生巨大的经济效益。因此,位置服务(LBS)市场的发展非常快,相关的拓展应用也层出不穷,例如高德地图、大众点评、滴滴出行、百度糯米、陌陌等。我国位置服务行业已经进入高速发展期,2015年市场规模约为343亿元,较2014年增长50%,预计2016年LBS市场规模将达515亿元,2018年将突破1100亿元。

2012-2018年中国LBS市场规模预测(单位:亿元)

1461425588-6340-23104850157q

通信大数据在地理洞察领域的应用可以包括:景区客源监测与分析、商铺选址、智慧城市(城市规划、交通出行等)、住宿餐饮等商家营销等。通信大数据具有独特优势,将会成为位置服务数据源的重要补充,预计可以分享位置服务市场3%左右的收益。假设业务初期占有率略低,预计2016年中国通信大数据地理洞察类应用市场规模将达5亿元,2018年将达35亿元。

中国通信大数据地理洞察市场规模(单位:亿元)

1461425588-1153-23104858eq3d

6、随着市场对征信业务需求的日益强烈,征信企业对于数据源的需求将会非常巨大,同时对数据质量的要求也会越来越高。但截至2015年4月底,我国央行的征信系统虽然收录了8.64亿自然人信息,但其中有信贷记录的自然人仅为3.61亿人,这意味着有超过5亿人虽有个人信息,但因无信贷记录基本无法开展信用评级。

中国消费信贷余额市场规模(单位:万亿元)

1461425588-6459-23104906w89l

信用消费是征信业务发展的基础。近年来,我国的消费信贷和P2P贷款交易规模保持快速增长,2015年,中国的消费信贷余额规模约为18.1万亿,同比增长17.8%,预计2018年,中国消费信贷余额规模将突破31.4万亿元。近年来我国的个人征信市场发展缓慢。2015年,我国个人征信行业的实际市场规模约为151亿元,未来随着互联网金融的发展和消费金融的持续升温,尤其是类型多样的个人征信应用快速发展,中国的个人征信行业将迎来爆发式增长,预计2016年将达179亿元,2018年将达300亿元。

中国个人征信行业市场规模(单位:亿元)

1461425588-2102-23104914vknb

目前,公安部所属全国公民身份证号码查询服务中心提供身份证信息比对服务,收费标准为5元/证,央行征信中心个人征信系统每年的查询量约5.9亿次,若以此估算,通信大数据提供类似的验证服务,渗透率20%,则收入约6亿元/年。如果再计算电信运营商独立或与第三方合作运营征信公司,预计通信大数据可以分享个人征信市场15%左右的份额,假设初期份额略低,预计2016年市场规模将达18亿元。

2015-2018年中国通信大数据征信风控市场规模(单位:亿元)

1461425588-7465-231049230asz
来源:中国产业发展研究网

]]>
韩国数据化振兴院:2015年韩国大数据行业市场规模达13万亿韩元 //www.otias-ub.com/archives/425820.html Tue, 05 Jan 2016 14:03:46 +0000 //www.otias-ub.com/?p=425820 word-cloud---big-data

2015年1月3日韩国数据化振兴院消息称,2015年韩国大数据行业市场规模已达13万亿韩元(约合人民币722亿元)。自2012年市场规模突破12万亿韩元后,韩国大数据行业以9%的年平均增长率不断发展壮大。

目前,韩国大数据行业仍以提供数据的数据服务及数据库构建服务为主,数据咨询及大数据解决方案市场规模呈增长态势。根据此前韩国数据化振兴院发布的《2015韩国数据行业白皮书》,数据服务市场规模占总行业市场规模的47%,位列第一;数据库构建服务以41.8%的占有率紧随其后。

在当今大数据时代,越来越多的企业通过大数据获取相关信息,并以此制定发展策略。移动用户的增加及社交媒体的普及,都能够使企业越来越容易收集到第一手的客户数据。

随着大数据行业的不断发展,企业对大数据的依赖度不断增加,数据专业人才需求也越来越大。韩国数据化振兴院的数据显示,目前韩国数据产业从业人员达30万人,但其中与数据直接相关的从业人员仅为7万人,人才缺口依然较大。根据《2015韩国数据行业白皮书》的统计数据显示,目前能够利用数据赋予产业附加价值的“数据科学家”人才最为紧俏,此外数据挖掘及分析相关的高级人才也颇受雇主欢迎。

韩国大数据行业蓬勃发展也促生了许多创业公司。据韩国《电子新闻》报道称,2015年韩国未来创造科学部与韩国数据化振兴院共同举办了“K-GLOBAL DATABSE数据产业化支持项目征集”活动,共吸引285个团队报名参赛。其中包含医疗健康、购买因素测定、房地产服务、提供定制型金融服务等各领域的创业公司。

韩国《电子新闻》预测称,预计明年大数据行业将会出现更多的创业公司,创造出更多的就业岗位。韩国信息化振兴院发表的《未来战略报告书》中则预测,截至2017年底,韩国大数据行业相关职位将会达到50万个。

]]>
2015年大数据行业的9大关键词 //www.otias-ub.com/archives/424941.html Sat, 02 Jan 2016 15:48:39 +0000 //www.otias-ub.com/?p=424941 2015年, 大数据 市场的发展迅猛,放眼国际,总体市场规模持续增加,随着人工 智能 、 物联网 的发展,几乎所有人将目光瞄准了“数据”产生的价值。行业厂商Cloudera、DataStax以及DataGravity等大数据公司已经投入大量资金研发相关技术,Hadoop供应商Hortonworks与数据 分析 公司New Relic甚至已经上市。而国内,国家也将大数据纳入国策。

我们在年底盘点了2015年大数据行业九大关键词,管窥这一年行业内的发展。

①BI——挑战

a52cc4dba02448e6a2f664937a4f6cfa

2015年对于商业智能(BI)分析市场来说,正由传统的商业智能分析快速进入到敏捷型商业智能时代。以QlikView, Tableau和SpotView为代表的敏捷商业智能产品正在挑战传统的IBM Cognos 、SAP Business Objects等以IT为中心的BI分析平台。敏捷商业智能产品也正在进一步细化功能以达到更敏捷、更方便、适用范围更广的目的。

②国家政策——战略

37a741e325ab47edab42f533628d9068

今年中国政府对于大数据发展不断发文并推进,这标志着大数据已被国家政府纳入创新战略层面,成为国家战略计划的核心任务之一:2015年9月,国务院发布《促进大数据发展行动纲要》,大力促进中国数据技术的发展,数据将被作为战略性资源加以重视;2015年10月26日,在国家“十三五”规划中具体提到实施国家大数据战略。

③深度学习/机器学习——崛起

2dfd84b9fcae4192b7d8f1720fb7fc95

人工智能如今已变得异常火热,作为机器学习中最接近AI( 人工智能 )的一个领域,深度学习在2015年不再高高在上,很多创新企业已经将其实用化:Facebook开源深度学习工具“Torch”、PayPal使用深度学习监测并对抗诈骗、亚马逊启动机器学习平台、苹果收购机器学习公司Perceptio ……同时在国内,百度、阿里,科大讯飞也在迅速布局和发展深度学习领域的技术。

④Sort benchmark 阿里云 ——最快

2ca2731d68f241e7bc56b4eeae10ae10

阿里云在Sort Benchmark(全球科技公司“计算奥运会”之称)的2015年排序竞赛中用不到7分钟(377秒)就完成了100TB的数据排序,打破了Apache Spark的纪录23.4分钟。

⑤Spark——共存

0b50812c63f8499ebf509220c2ea9694

Spark近几年来越来越受人关注,2015年6月15日,IBM 宣布投入超过3500名研究和开发人员在全球十余个实验室开展与Spark相关的项目。

与Hadoop相比,Spark具有速度方面的优势,但是它本身没有一个分布式存储系统,因此越来越多的企业选择 Hadoop 做 大数据平台 ,而 Spark 是运行于 Hadoop 顶层的内存处理方案。Hadoop 最大的用户(包括 eBay 和雅虎)都在 Hadoop 集群中运行着 Spark。Cloudera 和Hortonworks 将 Spark 列为他们 Hadoop发行的一部分。Spark 对于 Hadoop 来说不是挑战和取代相反,Hadoop 是 Spark 成长发展的基础。

⑥Pivotal——开源

b292dc5ac2144864871ff0a093b72b7f

2015年2月,Pivotal宣布其大数据套件的三个核心组件开源:基于内存的分布式NoSQL数据库GemFire、基于 Hadoop架构 的大规模并行SQL 分析处理引擎HAWQ、大规模并行处理分析数据库Greenplum。

Pivotal开放其大数据套件核心组件的源代码,最主要原因是Cloud Foundry开源战略成功驱动,部署大数据战场。

⑦Palantir——神秘&多金

89e31031e35748b4a45dec984b171a04

2015年7月起Palantir开始发起新一轮融资,达到8.8亿美元,截止目前已经共计融资23.2亿美元,公司估值200亿美元,排名世界第四,仅次于Uber。

Palantir是一家位于加州的大数据科技公司。该公司的技术是在海量信息之间建立联系、寻求有价值的线索,为情报机构提供结论:在摩根大通内部用于定位网络欺诈,在桥水联合基金,Palantir被用来管理1570亿美元的投资基金。该公司曾经帮助美国政府追踪基地组织头目奥萨马·本·拉登。由于其主要客户是政府机构,外界对它的内部状况了解不多。

⑧DBaaS——火爆

1ff2e4c788ad4d07a24418c3d5213567

随着Oracle 12c R2的推出, 甲骨文 以全新的多租户架构开启了DBaaS(Database-as-a-Service,数据库即服务)新时代,新的数据库让企业可以在单一实体机器中部署多个数据库。在2015年,除了趋势火爆,12c多租户也在运营商、电信等行业投入生产应用。

据分析机构Gartner预测,2012年至2016年公有数据库云的年复合增长率将高达86%,而到2019年数据库云市场规模将达到140亿美元。与传统数据库相比,DBaaS能提供低成本、高敏捷性和高可扩展性等云计算特有的优点。

⑨数据科学家——性感

7a4c92c563584907a96d72dd48b8b25b

随着行业的发展,人才显得尤为重要,各公司都期待数据科学专业人才能够挖掘数据信息,来帮助公司开源节流。美国招聘网站Glassdoor的报告称,数据科学家的平均年薪为118709美元(约合人民币737550元),而程序员的平均年薪为64537美元(约合人民币400974元)。

数据科学家能够通过统计变成涉及、开发和调用算法而支持业务决策;管理海量数据;可视化数据以辅助理解。其需要具备三项基本技能:数学/统计、计算机能力、在特定业务领域的知识,被《哈佛商业评论》评委二十一世纪最性感的职业。

作者:数梦工场

]]>
大数据行业5个职位方向指南 //www.otias-ub.com/archives/352454.html Tue, 02 Jun 2015 03:40:19 +0000 //www.otias-ub.com/?p=352454

 143255403601883912

大数据已不再是新词,企业也越来越需要大数据高端人才。这给想要从事大数据方面工作的人员提供了难得的职业机遇。那么在大数据行业,都有什么职位可以选择呢?来看看大数据行业的5个职位方向指南吧!

一、ETL研发

随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛。ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要。ETL研发,主要负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。目前,ETL行业相对成熟,相关岗位的工作生命周期比较长,通常由内部员工和外包合同商之间通力完成。ETL人才在大数据时代炙手可热的原因之一是:在企业大数据应用的早期阶段,Hadoop只是穷人的ETL。

二、可视化(前端展现)工具开发

海量数据的分析是个大挑战,而新型数据可视化工具如Spotifre,Qlikview、Tableau、大数据魔镜可以直观高效地展示数据。可视化开发就是在可视开发工具提供的图形用户界面上,通过操作界面元素,由可视开发工具自动生成应用软件。还可轻松跨越多个资源和层次连接您的所有数据,经过时间考验,完全可扩展的,功能丰富全面的可视化组件库为开发人员提供了功能完整并且简单易用的组件集合,以用来构建极其丰富的用户界面。中国本土的数据工具也在近年来迅速发展。大数据魔镜是该领域第一品牌,市场占有率第一,已成为上万家企业分析、决策的标配工具。

三、信息架构开发

大数据重新激发了主数据管理的热潮。充分开发利用企业数据并支持决策需要非常专业的技能。信息架构师必须了解如何定义和存档关键元素,确保以最有效的方式进行数据管理和利用。信息架构师的关键技能包括主数据管理、业务知识和数据建模等。

四、数据仓库研究

数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。数据仓库的专家熟悉Teradata、Neteeza和Exadata等公司的大数据一体机。能够在这些一体机上完成数据集成、管理和性能优化等工作。

五、数据科学研究

这一职位过去也被称为数据架构研究,数据科学家是一个全新的工种,能够将企业的数据和技术转化为企业的商业价值。随着数据学的进展,越来越多的实际工作将会直接针对数据进行,这将使人类认识数据,从而认识自然和行为。因此,数据科学家首先应当具备优秀的沟通技能,能够同时将数据分析结果解释给IT部门和业务部门领导。总的来说,数据科学家是分析师、艺术家的合体,需要具备多种交叉科学和商业技能。

当然,除了上面五个方向,还有很多大数据行业的好职位,对大数据感兴趣的小伙伴们,赶快投入大数据的怀抱吧!

 

]]>
大数据行业里的两大误区 //www.otias-ub.com/archives/253512.html Tue, 08 Jul 2014 12:16:51 +0000 //www.otias-ub.com/?p=253512 大数据行业里的两大误区          大数据这个词,恐怕是近两年IT界炒的最热的词汇之一了,各种论坛、会议,言必谈大数据,“大数据”这个词,在IT界已经成了某果一样的“街机”或者叫“街词”,不跟风说两句“大数据长,大数据短”都不好意思跟人说自己是搞IT的。从某种程度来讲,大数据这个“圈”太乱了,一点不比“贵圈”好。

    先从概念上来说,大数据是什么?其实数据处理从人类诞生时期就有了,古人结绳记事就是基本的统计,统计自己吃了几顿饭打了几次猎等等;再往近说,皇帝每晚翻嫔妃的牌子也是数据处理,在翻牌子之前,要从一大堆牌子里分析“方便”、“热度高”、“新鲜度”等指标;更近的说,数据仓库早在大数据这个词出现前就已经成熟发展了好几十年了。所以说,大数据并不新鲜,只是某些技术如Hadoop、MR、Storm、Spark发展到一定阶段,顺应这些技术炒出来的概念,但是这些概念都基于一个基本的理念“开源”,这个理念是之前任何阶段都没有过,可以节省费用提高效率,所以大家才都往这个行业里扔火柴(话说现在很多人跟风乱吵,个人认为也不是坏事)。

推荐

    误区一:只有搞大数据技术开发的,才是真正“圈内人”。

    笔者曾经参加过若干会议,70%是偏技术的,在场的都是国内各个数据相关项目经理和技术带头人,大家讨论的话题都是在升级CDH版本的时候有什么问题,在处理Hive作业的时候哪种方式更好,在Storm、Kafka匹配时如何效率更高,在Spark应用时内存如何释放这些问题。参会者都一个态度:不懂大数据技术的人没资格评论大数据,您要不懂Hadoop 2.0中的资源配置,不懂Spark在内存的驻留时间调优,不懂Kafka采集就别参加这个会!对了,最近Google完全抛弃MR只用Dataflow了,您懂吗?不懂滚粗!

    在这里我想说,技术的进步都是由业务驱动的,某宝去了IOE才能叫大数据吗,我作为一个聋哑人按摩师用结绳记事完成了对于不同体型的人,用什么按摩手法进行全流程治疗,就不叫大数据分析了吗?技术发展到什么程度,只有一小部分是由科学家追求极致的精神驱动,大部分原因是因为业务发展到一定程度,要求技术必须做出进步才能达成目标的。

    所以,真正的大数据“圈内人”至少要包含以下几种人:

    一、业务运营人员。比如互联网的产品经理要求技术人员,必须在用户到达网站的时候就算出他今天的心情指数,而且要实现动态监测,这时候只能用Storm或者Spark来处理了;比如电信运营商要求做到实时营销,用户进入营业厅的时候,必须马上推送短信给用户,提示他本营业厅有一个特别适合他的相亲对象(呈现身高、三围、体重等指标),但是见面前要先购买4G手机;再比如病人来到银行开户,银行了解到用户最近1周曾经去医院门诊过两次,出国旅游过3次,带孩子游泳两次,马上客户经理就给客户推荐相关的银行保险+理财产品。这些业务人员,往往是驱动技术进步的核心原因。

    二、架构师。架构师有多么重要,当一个业务人员和一个工程师,一个说着业务语言,一个说着技术术语在那里讨论问题的时候,工程师往往想着用什么样的代码能马上让他闭嘴,而架构师往往会跳出来说“不,不能那样,你这样写只能解决一个问题并且会制造后续的若干问题,按照我这个方案来,可以解决后续的若干问题!”一个非技术企业的IT系统水平,往往有70%以上的标准掌握在架构设计人员手里,尽快很多优秀的架构师都是从工程师慢慢发展学习而来的,IT架构的重要性,很多企业都意识到了,这就是很多企业有CTO和CIO两个职位,同样重要!架构之美,当IT系统平稳运行的时候没人能感受到,但是在一个烟囱林立、架构混乱的环境中走过的人眼中,IT开发一定要架构现行,开发在后!

    三、投资人。老板,不用说了,老板给你吃穿,你给老板卖命,天生的基础资料提供者,老板说要有山便有了山,老板说要做实时数据处理分析,便有了Storm,老板说要做开源,便有了Hadoop,老板还说要做迭代挖掘,便有了Spark……

    四、科学家。他们是别人眼中的Geek,他们是别人眼中的高大上,他们是类似于霍金一样的神秘的早出晚归昼伏夜出的眼睛男女,他们是驱动世界技术进步的核心力量。除了世界顶级的IT公司(往往世界技术方向掌握在他们手中),其他公司一般需要1-2个科学家足以,他们是真正投身于科学的人,不要让他们去考虑业务场景,不要让他们去考虑业务流程,不要让他们去计算成本,不要让他们去考虑项目进度,他们唯一需要考虑的就是如何在某个指标上击败对手,在某个指标上提高0.1%已经让他们可以连续奋战,不眠不休,让我们都为这些科学家喝彩和欢呼吧。在中国,我认为真正的大数据科学家不超过百人……

    五、工程师。工程师是这样一群可爱的人,他们年轻,冲动,有理想,又被人尊称为“屌丝”“键盘党”,他们孜孜不倦的为自己的理想而拼搏,每次自己取得一点点进步的时候,都在考虑是不是地铁口的鸡蛋灌饼又涨了五毛钱。他们敏感,自负,从来不屑于和业务人员去争论。工程师和科学家的不同点在于,工程师需要频繁改动代码,频繁测试程序,频繁上线,但是最后的系统是由若干工程师的代码组合起来的。每个自负的工程师看到系统的历史代码都会鄙视的发出一声“哼,这垃圾代码”,之后便投入到被后人继续鄙视的代码编写工作中去。

    六、跟风者。他们中有些是培训师,有些是杀马特洗剪吹,有些是煤老板有些是失足少女。他们的特点就是炒,和炒房者唯一不同的就是,他们不用付出金钱,他们认为只要和数据沾边就叫大数据,他们有些人甚至从来没碰过IT系统,他们是浑水摸鱼、滥竽充数的高手,他们是被前几种人鄙视的隐形人。不过我想说,欢迎来炒,一个行业炒的越凶,真正有价值的人就更能发挥自己的作用。

    误区二:只有大数据才能拯救世界

    大数据目前的技术和应用都是在数据分析、数据仓库等方面,主要针对OLAP(Online Analytical System),从技术角度来说,包含我总结的两条腿:一条腿是批量数据处理(包括MR、MPP等),另一条腿实时数据流处理(Storm、内存数据库等)。在此基础上,部分场景又发现MR框架或实时框架不能很好的满足近线、迭代的挖掘需要,故又产生了目前非常火的基于内存数据处理Spark框架。很多企业目前的大数据框架是,一方面以Hadoop 2.0之上的Hive、Pig框架处理底层的数据加工和处理,把按照业务逻辑处理完的数据直接送入到应用数据库中;另一方面以Storm流处理引擎处理实时的数据,根据业务营销的规则触发相应的营销场景。同时,用基于Spark处理技术集群满足对于实时数据加工、挖掘的需求。

    以上描述可以看出,大数据说白了就是还没有进入真正的交易系统,没有在OLTP(Online Transaction system)方面做出太大的贡献。至于很多文章把大数据和物联网、泛在网、智慧城市都联系在一起,我认为大数据不过是条件之一,其余的OLTP系统是否具备,物理网络甚至组织架构都是重要因素。

    最后还想说,大数据处理技术,再炫如Google的Dataflow或成熟如Hadoop 2.0、数据仓库、Storm等,本质上都是数据加工工具,对于很多工程师来说,只需要把数据处理流程搞清楚就可以了,在这个平台上可以用固定的模版和脚本进行数据加工已经足够。毕竟数据的价值70%以上是对业务应用而言的,一个炫词对于业务如果没有帮助,终将只是屠龙之术。任何技术、IT架构都要符合业务规划、符合业务发展的要求,否则技术只会妨碍业务和生产力的发展。

    随着时代变迁,大浪淘沙,作为数据行业的一员,我们每个人都在不同的角色之间转换,今天你可能是科学家,明天就会变成架构师,今天的工程师也会变成几年后的科学家,部分人还终将步入跟风者的行列。

via:虎嗅网

]]>
Nasscom:预计到2015年印度大数据行业规模达12亿美元 //www.otias-ub.com/archives/71816.html Mon, 08 Oct 2012 13:21:24 +0000 //www.otias-ub.com/?p=71816

“大数据时代”

在美国百货商店购物?监管摄像头可能会监视着你的一举一动,而且并不因为你可能是扒手才这样做。几分钟以后,你走过的过道、你挑选和放下的产品、你购买的东西以及捕捉你表情瞬间的视频将会被发送至印度班加罗尔的一家公司。

数据分析公司Mu Sigma CEO迪拉吉·拉贾拉姆(Dhiraj Rajaram)说:“我们可以对这些数据进行分析,以确定消费者购买商品的倾向性及他们的意图、满意度和情绪等。”Mu Sigma自称是全球最大的专业性数据分析公司之一。

存储、解密和分析非结构化数据(即视频、Facebook更新、Twitter消息、互联网搜索和公共摄像头等)以及海量事实和数字的业务,可以有助于企业提高利润,削减成本,改善服务质量,现已成为全球最热门的行业之一。

这种业务被称为“大数据”(Big Data),虽然部分大数据分析工作在美国进行,但印度在这一市场的影响力日渐增强,重新给增长开始放缓的印度IT行业注入动力。大数据之所以能成为印度IT行业的“下一个大事件”,一个原因是随着像Hadoop这样的云计算和开源软件项目的出现,存储并处理海量数据的成本急剧下滑。

创造无限商机

总部设在班加罗尔的数据分析公司Analytic Edge创始人桑托什·纳尔(Santosh Nair)说:“印度目前有数百家小型数据分析公司,每隔几周,我就听说有朋友创办了自己的数据分析公司。”纳尔四个月前辞去了在一家IT服务提供商的工作,创办了Analytic Edge。这家公司研究医药销售、人口趋势等数据,帮助美国一家殡葬服务公司精准确定发起营销活动的地区。

随着数据存储与处理业务的成本急剧下滑,企业纷纷涉足这一行业,试图从中分得一杯羹。纳尔说:“涉足这一行业并不意味着我需要一台存储容量达到50TB的服务器。云计算技术帮助我可以租用廉价的存储空间。每个月我租用10 TB空间的花费可能只要500美元。这并不是一大笔投资。”

10TB的数据相当于时长约2万小时的CD质量的音乐内容。去年全球的数据输出估计为1.8ZB,即18亿TB,相当于2000亿部全长高清电影。麦肯锡全球研究所去年发布的一份报告显示,摄像头、手机和其他电子设备中安装的数以百万计的联网传感器,以及社交媒体网站不断增加的数据输出,都是促使“数据爆发”的原因所在。

报告称,这种趋势给企业带来了无限商机:“一个创新、提升生产效率、增长的新潮流即将到来,同时竞争与价值捕获的新模式也将出现,这一切的驱动力都是大数据,消费者、企业和各个经济行业都在挖掘它的潜力。”

丧失成本优势

由于印度企业向大数据这种知识密集型服务行业的转型,他们注定会失去一定的成本优势,正是这种优势帮助其主导了业务流程外包行业。业内人士认为,印度在大数据领域的成败将取决于其数量庞大的IT工程师,以及IT行业在过去15年作为世界最大外包目的地所积累的丰富经验。

专注于软件与服务领域的美国私募股权公司Symphony Technology Group合伙人马辛德·马赫拉尼(Mahinder Mathrani)说:“印度的成本优势正在被严重削弱。”他指出,“大数据分析领域与人才资源的关系更加密切。具有丰富的商业头脑、分析技能和技术才能的优秀统计人员的身价并不便宜,即便是在印度。”

印度的人才储备将拥有广阔的市场,过去几年随着大数据时代的到来,全球范围内的数据分析师专家都供不应求。此外,印度企业还相信,他们在服务行业的专长将有助于其获得竞争优势。

班加罗尔软件分析公司Zinnov经理桑达拉拉曼·维斯瓦纳坦(Sundararaman Viswanathan)说:“我们是一个服务型国家。例如,我们拥有互联网,并围绕它打造了外包型行业。我们可是这个领域的专家。我们有能力构建一种新型服务,用于寻找正确的问题,搜集各类意见并反馈给客户。”

发展潜力巨大

印度全国软件与服务企业协会(以下简称“Nasscom”)预计,印度大数据行业规模在三年内将达到12亿美元,是当前规模的六倍,同时还是全球大数据行业平均增长速度的两倍。全球大数据行业的规模预计将在3年内从82.5亿美元增至250亿美元。

班加罗尔数据服务公司Analyttica CEO拉吉夫·巴赫纳(Rajeev Baphna)说:“由于成本、技能、语言和学习能力等原因,印度在大数据行业具有非常强大的优势。印度充分利用自己具备的独特优势,专注于在这个领域打造属于自己的空间。这些优势首先是人才,其次是以更低成本实现强大的流程驱动型交付的能力。”

目前,不仅印度小公司纷纷涉足大数据市场“淘金”,而且就连Infosys和Wipro这样的外包行业巨头也开始进军大数据市场,只不过小企业在这种竞争中可能具有一定的优势。马赫拉尼说:“规模更大、更成熟的企业反倒面临更大的挑战。这些企业的现有业务模式令其难以灵活应变。”

大数据在全球市场的应用非常广泛。IBM拥有一个5000人组成的数据分析团队,帮助石油企业更高效地勘测、开采和炼制石油。通用汽车今年五月表示,将投入15亿美元收购大数据分析公司,以充分挖掘多个数据点,找到有效的途径,延长燃气涡轮、喷气式发动机和其他重型设备的运行时间,同时也不必进行不定期维护。

利润大幅提升

大数据在零售行业的潜力无限。据麦肯锡估计,零售商只要全面采用大数据服务,例如去挖掘Twitter、Facebook等社交媒体的趋势,便可以将运营利润率提升60%以上。大数据在医疗保健、保险、银行业和其他金融服务行业同样大有潜力可挖。

对于印度整个IT行业来说,大数据时代的到来会为他们创造新的增长机遇。Nasscom预计,印度软件和IT服务出口额将在截至2013年3月的当前财年增长11%至14%,达到770亿美元至790亿美元之间,但相比于几年前20%以上的增长幅度,仍然有相当大的差距。

此外,金融行业的外包和离岸服务(占印度外包行业产值30%左右)一直饱受抨击,而在印度离岸业务最近不断曝出丑闻以后,这种服务可能会面临更为严格的监管。这些丑闻包括美国纽约州银行业监管部门8月份指控指控渣打集团涉嫌与伊朗政府“密谋”掩盖了超过2500亿美元的非法交易等等。

然而,在大数据时代,尽管当前营收数字不大,人们仍然对这一市场的前景充满乐观。拉贾拉姆说:“我们认为这只是冰山一角。全球的发展速度只会越来越快,因此会有更多的数据、算法、应用和新技术出现。”他说,成立8年的Mu Sigma发展迅猛,员工人数已达到2000人,平均年龄约为25岁或26岁。

拉贾拉姆最后说:“这就好像是招募了一大批‘托尼·史塔克’(科幻电影《钢铁侠》中的超级英雄),训练他们如何使用钢铁侠装备,然后派他们出去打击犯罪分子。”

]]>
Programmer:2012年大数据行业五大预测 //www.otias-ub.com/archives/24964.html Wed, 22 Feb 2012 16:01:13 +0000 //www.otias-ub.com/?p=24964 更加强大且富有表现力的分析工具

在过去的一年中,围绕着NoSQL和Hadoop,基本的存储与数据处理引擎方面的改进工作得到了加强并且日趋工程化。毫无疑问,这种态势将会持续 下去,因为我们看到了Hadoop世界中有越来越多形态各异的产品融入到了各种发布包、设备和按需的云服务当中。我衷心希望在不远的将来Hadoop能够 成为必要的基础设施。

现在,已经出现了一些面向程序员与数据科学家的工具(例如Karmasphere和Datameer),此外,还有面向已经建立起来的分析工具的Hadoop连接器(例如Tableau和R)。但还有一种方式可以让大数据变得更为强大,那就是降低实验的成本。

下面两种方式可以使大数据变得更为强大。

  • 更好的编程语言支持。因为我们将数据而非业务逻辑作为程序中的主要实体,所以必须要创建或再去探索一些方言,使我们能够将精力放在数据而非底层 Hadoop设施所透露出来的抽象上面。换句话说,编写更简短的程序,能够更清晰地表达出我们对数据所做的处理。这些抽象将有助于为非程序员创建更好的工 具。
  • 需要提供更好的交互支持。如果说Hadoop有缺点,那么其缺点也在于它所孕育的批量化处理的计算本质。数据科学的敏捷本质决定了它钟爱于能够提供更好交互性的工具。

流线化的数据处理

Hadoop批量化的处理对于很多场合都足够用了,特别是数据报告的频率不需要达到分钟级别的场合。然而,批量化处理并非总能满足我们的要求,特别是对于移动和Web客户端等在线需求,或是财务和广告等需要实时变化的市场。

在未来几年中,用于处理流线化或接近实时的分析与处理的可伸缩框架和平台将会得到采用。Hadoop将会支持大规模的Web应用,这些平台将会由大规模位置感知的移动、社交和传感器应用所推动。

对于某些应用来说,已经没有足够的空间来存储业务接收到的所有数据:在某一时刻,你需要扔掉一些东西。凭借流线化的计算能力,你可以对数据进行分析 并决定扔掉哪些数据而不必查看map/reduce的“存储—计算”循环。在实时框架领域中,新涌现的竞争者有来自Twitter的Storm和 Yahoo!的S4。

数据市场的兴起

当与其他数据集混合到一起时,你自己的数据会变得更有说服力。比如说,将天气状况添加到客户的数据中,检查是否有与客户购买模式相关的天气模式。获 取这些数据集是个让人头疼的问题,特别是在IT部门之外做这件事,并且要求一定的精度时更是如此。数据市场的价值在于为这种数据提供了一个目录,以及流线 化、标准化的交付方法。微软将其Azure市场集成到分析工具中的做法预示了我们今后能更加方便地访问数据了。

数据科学工作流与工具的开发

随着数据科学团队不断为各个公司所认可和接受,其角色和流程将会变得更加正规化。成功的数据科学团队的驱动力之一就是其与公司经营活动的集成程度,这与成为边缘的分析团队截然相反。

软件开发者已经拥有了大量富于逻辑与社交性质的基础设施,这包括wiki与源代码控制,以及用于将其流程和需求公开给企业主的各种工具。集成的数据 科学团队需要自己的一套工具才能高效协作。其中之一就是EMC Greenplum的Chorus,它提供了针对数据科学的一个社交软件平台。使用这些工具有助于组织中数据科学处理的不断涌现。

数据科学团队将会逐渐开始一些重复的流程,我们希望这是敏捷的。相比诸如The Guardian和NewYork Times之类的新闻组织的新闻数据团队所做的开创性工作:只要给定一个不长的时间表,这些团队就可以将原生格式的数据转换为成品,这需要与记者携手来完 成。

对可视化的理解和需求的提升

可视化在数据工作流中能够实现两个目的:解释与探索。虽然业务人员可能将可视化看作是最终结果,但数据科学家还会将可视化作为寻求问题以及探索数据集新特性的一种方式。

如果说成为数据驱动的组织需要培养所有员工拥有更好的数据感觉的话,那么可视化在将数据操纵能力传递给那些不会编程或缺乏统计分析技巧的员工的过程中就扮演着重要角色。

过去的整整一年,业务对数据科学家的需求一直都是如此。我不断地听到数据科学家说,他们最想要的是:懂得创建可视化的人才。

 

Via Programmer

]]>