大数据分析 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Tue, 07 May 2024 15:04:43 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 中国风景名胜区协会:2024年中国风景名胜区高质量发展大数据分析报告 //www.otias-ub.com/archives/1695319.html Tue, 07 May 2024 21:00:14 +0000 //www.otias-ub.com/?p=1695319 根据本报告数据提供单位的数据统计分析,2023年1月到12月期间,部分国家级风景名胜区单月客流量走势基本一致。其中,大多 数风景名胜区单月客流量峰值出现在暑假期间(7 月、8 月),可见 学生群体是风景名胜区客源的主力军;其次是 10 月和 5 月,反映出 “五一小长假”“十一黄金周”等节假日对客流量有显著的带动作用 。

据本报告数据提供单位的数据统计分析,在本组数据中,2023年1月到12月期间,青城山-都江堰风景名胜区客流量最多,超过 1000 万人次,其次为泰山风景名胜区、崂山风景名胜区、玉龙雪山 风景名胜区、衡山风景名胜区、嵩山风景名胜区和峨眉山风景名胜区, 均超过 500 万人次。年总客流量排名前六的风景名胜区均为山岳型, 由此可见其对游客具有较大吸引力。

根据本报告数据提供单位的数据统计分析,2023年1月到12月期间,北上广深一线城市以及重庆、成都、武汉、杭州、南京等新一 线城市是国家级风景名胜区的主要客源地,其中上海市在众多客源地 中排名第一。由此可见,一线城市和新一线城市的居民在国家级风景 名胜区的出游意愿更为强烈、出行活跃度更高。

]]>
大数据公司云计算巨头的耦合:神策数据与亚马逊云科技相互加持 //www.otias-ub.com/archives/1253126.html Thu, 27 May 2021 23:54:45 +0000 //www.otias-ub.com/?p=1253126 不同业务、不同背景、不同文化的两家技术型公司,如何达成深入合作?国内大数据分析和营销科技服务商神策数据与亚马逊云科技或许给了业界一个成功的范例。

脱胎于百度大数据部门的神策数据,成立于2015年,刚刚度过其六周年生日。目前公司成员已达900多人,大部分为技术人员,是一个高速发展的中型技术公司。

创始团队在2008年-2015年期间在百度为百度贴吧、百度知道等产品做用户数据相关的分析、洞察和管理等工作。2015年公司创立,服务重点行业包括互联网、金融、零售、汽车等,为企业提供数字化营销和经营决策的数据基础,包括数据驱动的营销策略的自动化工作。

大数据时代,企业在数字化运营以及数字化转型落地过程中会碰到很多难点和挑战。如大多数企业数据基础可能相对薄弱,尤其对于线上全渠道多触点的数据采集,比如小程序、app、H5、快应用等,多渠道的用户行为的数据的采集和用户ID如何打通。有了数据以后,应该怎么去构建指标体系,进而支持在业务链条上的各个环节的决策。神策数据的技术优势给客户带来很多价值,帮助企业实现数据跟业务之间的闭环。

大数据分析公司与云计算巨头的安全体系融合

大数据分析公司与云计算厂商有着天然的结合点。神策数据与亚马逊云科技的合作始于两年之前。一开始,神策数据与亚马逊云科技合作的契机在于其上云客户的数据需要有良好的保障和性能的支持。而亚马逊云科技提供丰富的组件来满足各个环节当中对数据的存储、管理、容灾备份、计算上的有力支撑。

在神策数据副总裁王桐看来,安全是双方合作的重要基础。安全是一个系统工程,而不是一个单点解决的问题,必须在整个链路当中都能够得到有效的解决,才能够做到真正的安全。

神策数据拥有众多的银行类客户,银行类客户对安全的要求非常高。王桐举例到:“比如从底层的资源层到数据的存储层,还有网络的通讯层。尤其现在大家都用手机银行,银行内部的员工也都是这种移动办公,实际上也要通过员工的设备去访问银行内网的一些系统。这中间是用VPN还是用什么加密的方式,走什么样的专网,银行都需要去建设和考虑。“不同的角色、不同的部门的银行员工,对应的不同的用户和不同的数据维度的访问权限、使用权限。权限管理实际上在银行是比较复杂的。因为包括总行、分行、支行,有各种不同的部门,谁有权限对哪一类的客户去调取数据标签,以及做运营相关的工作,需要有严格的权限的管控。仅仅管控还不够,还需要做到事前有管控,事中有流程审批。

谈及安全机制的建立,王桐表示平台和应用类的产品是神策提供的,这部分的数据安全体系,是神策擅长的。偏基础设施层的产品是亚马逊云科技提供的,这部分安全体系是亚马逊云科技擅长的。“为满足客户的业务需要,两家公司的安全体系从技术层、业务层都做了充分的融合。“

从技术到业务优势互补

作为全球云计算的领导者,亚马逊云科技除了拥有丰富的技术解决方案外,同时也拥有众多的行业客户资源。

在中国,亚马逊云科技融合全球与本地的丰富客户实践,帮助各行各业的传统企业快速拥抱云,带动传统行业转型。深耕金融、制造、汽车、零售与电商、医疗与生命科学、媒体、教育、游戏、能源与电力等行业,通过亚马逊云科技在各垂直行业端到端全产业链方面的丰富经验,加速海外客户落地、中国本地客户转型和创新,以及本地行业的升级。

王桐认为,涉及到跨国、跨大区以及在很多更复杂的场景上,亚马逊云科技在全球积累了更多的经验,这个经验转化成面向客户的价值,主要会体现在两点。“亚马逊云科技的成熟度和专业度会更好。同时,它不仅仅是一个提供基础资源的平台。因为亚马逊云科技遇到的客户问题和需求场景会更加多元化和丰富化,所以它提供的底层的基础组件的数量和种类也更丰富,基础设施这一层会提供相对更加丰富的组件,帮客户解决在不同环节当中的问题。我觉得这个是亚马逊云科技自己的优势和特点。“

目前,神策数据和亚马逊云科技基于双方联合的解决方案,共同面向多个行业的市场,做客户推广。比如跨境电商、零售品牌、金融、游戏等行业合作较多。

王桐表示,未来双方会在一些新领域如汽车行业展开合作。因为汽车是自身痛点比较强的一个行业。“整个汽车行业的盘子已经相对比较饱和,所以行业现在从获客进入到了抢客这个阶段,以前都是获客,现在必须要做抢客了,抢客就得拼谁更懂用户。否则光有产品营销没有用户购买是不成立的。所以汽车品牌必须要做更好的客户的洞察,要更加懂客户。当80、90后是购车的主力人群,这些人群活跃于各种线上平台,可能根本不到线下平台上去流动。所以汽车品牌的营销动作、内容、表现形式,都必须是线上化的。汽车行业做数字化转型,这部分的压力和动作,我们确实看到从去年开始是越来越明显的。“

未来将在技术、行业领域展开合作

在王桐看来,企业的数字化转型客户是分阶段建设的。最开始客户会先做数字化转型的基础设施,比如做一个APP、做一些线上的触点、H5的活动管理平台等,这些都是在打造一些基础设施。积累了一定的用户量之后,需要做用户的洞察,神策为客户提供分析云、数据分析平台服务。对用户做了洞察以后,需要做用户的分层次的精细化运营,神策数据提供营销云平台服务。

在做营销云初期,靠人工来给一些规则的建议,把运营的策略构建好,并不用十分复杂。但人工的规则做完以后,接下来下一步要做的要通过机器学习来帮它用算法去生成一些营销的规则,靠人工来构建运营的规则,只是有限的一部分。人工运营的策略一定是可穷举的,但不是全部,还有很多人没有发现的或者还暂时不理解的用户特征,需要靠算法和机器学习去定向的生成一些新的策略,作为一个更加精细化的强有力的补充。

王桐认为,数字化转型因为疫情而加速,一些比较前沿的客户,已经到了AI的阶段。神策数据开始探索怎么用好机器学习的能力,包括有一支人工智能团队在投入其中。

目前,全球数以十万计的客户选择亚马逊云科技运行机器学习工作负载。在中国,亚马逊云科技机器学习服务医疗健康、教育、出行、工业智能、游戏、新媒体等各个行业客户。完全托管的机器学习服务Amazon SageMaker也已落地中国区域一周年。

神策数据与亚马逊云科技未来在技术、行业等领域将有更多的合作基础。

正如亚马逊云科技大中华区云服务产品管理总经理顾凡所说,“Amazon SageMaker落地中国区域一年以来,我们见证了中国各个行业各种类型客户积极应用亚马逊云科技服务进行机器学习创新,我们希望通过将更多服务落地到中国区域,并坚持‘授人以鱼不如授人以渔’,甚至更进一步‘扶上马,送一程’的方式,帮助客户更快应用机器学习技术,把机器学习的能力交到每一位构建者手中,加速人工智能和机器学习的普惠。”

]]>
景远研究|“金科新区”新政解读之“金科十条” //www.otias-ub.com/archives/1110073.html Mon, 31 Aug 2020 11:03:26 +0000 //www.otias-ub.com/?p=1110073 来源:本文来源:199IT&景远资管商业地产研究中心

北京作为国际化大都市,产业结构以金融、信息、科技为主,逐渐弱化制造业、批发市场、低端产业的占比,加速经济转型。目前已形成以“中关村为科技互联网重地”、“金融街为金融中心”、“国贸为专业服务”、“东二环为央企大道”、“燕莎为外企集群”的五大产业区域格局,而“金科新区”刚好处于中关村与金融街的连廊区域,具有天然的“金融科技”产业的定位优势。

“金科新区”作为国家级金融示范区,含着金钥匙出生,在襁褓中就已经出台了强有力的扶持政策,吸引金融科技企业入驻,让优秀的企业得到实实在在的资金和政策支持。

因此,本期重点解读西城区政府联合中关村管委会共同为“金科新区”量身定制的扶持政策之“金科十条”。

一、支持对象的认定

A、支持对象包括:金融科技企业、创新服务平台、专业服务机构、楼宇运营机构。

1) 金融科技企业:大型金融机构、总部型企业/科技龙头企业衍生设立的金融科技公司;从事金融科技领域人工智能、庄闲网络娱乐平台进入 、云技术、信息安全、大数据、5G及其他前沿技术研发和应用的企业;

2)创新服务平台:金融科技领域孵化加速平台;金融科技产业联盟;金融科技领域研发中心、创新中心、实验室等创新平台;

3)专业服务机构:应用人工智能、庄闲网络娱乐平台进入 、云技术、大数据、5G等前沿技术为金融科技企业提供信息、法律、财务、征信、信用评级、知识产权、管理咨询、云计算、展示交流等专业服务的机构;

4)楼宇运营机构:空间实体在“示范区”范围内、为金融科技企业和专业服务机构提供物业等服务的楼宇产权方或投资运营主体。

其他要求涉及两点:1)新设立或新迁入企业(机构)是指2018年1月1日(含)以后注册成立或由西城区行政区以外迁入的金融科技企业或专业服务机构;2)注册和税务登记须在示范区范围,假如注册、税务登记在示范区范围外的重点项目经认定后也可参照执行西城区政府实施的有关条款。

B、认定机构:由分管副区长牵头设立的“示范区政策兑现工作组”。

C、认定材料:申请书、上年度财务审计报告、证明承接过金融机构技术服务的材料、承诺函。

D、受理机构:中关村科技园区西城园管理委员会。

二、资金补助条款

A、实收资本补助

1)补助标准:新设立或新迁入企业,自实缴完成年度起进行资金补助,分三年按照40%、30%、30%比例支付。已设立金融科技企业(机构)实收资本增资的,实收资本增资1亿元(含)-10亿元,且对区综合贡献达到500万元的,实收资本缴纳完成后给予一次性100万元补助;实收资本增资10亿元(含)以上,且对区综合贡献达到5000万元的,给予补助1000万元,自实收资本缴纳完成年度起,补助资金分三年按40%、30%、30%比例支付。

B、购租房补贴

1)补贴标准:获得购房补贴的办公用房原则上5 年内不得对外出售、出租或改变用途。经评定的重点企业和专业服务机构按照实际房租的50%给予补贴,《示范区企业名录》中重点企业和专业服务机构之外的按照实际房租的30%给予补贴。租房补贴期限不超过三年。

C、金融牌照补助

1)执行中关村管委会制定的标准。

D、“突出贡献企业”奖励

1)按西城区政策执行。

三、创新支持条款

A、重大成果转化和产业化项目支持。

B、科技研发项目配套。

C、自建研发机构支持。

四、示范应用条款

A、先行先试政策试点。

B、重大示范应用支持。

五、人才保障条款

A、人才称号奖励。

B、高级管理人员及核心骨干奖励。

六、交流合作条款

A、国际交流合作项目支持。

B、重大活动支持。

C、示范应用奖励。

七、融资支持条款

A、按照《北京市西城区鼓励和支持企业上市发展办法》(西行规发〔2018〕4号)实施。

八、专业服务体系建设条款

A、硬科技孵化平台支持。

B、基础设施平台支持。

C、西城区高新技术产业孵化和加速基地支持。

D、专业服务应用示范项目支持。

九、楼宇提升条款

A、改造升级补贴

1)申报项目要求为总建筑面积在3000平方米(含)以上的商务写字楼、城市综合体、老旧厂房、科研楼、商场、宾馆和酒店等楼宇建筑,不包括行政事业单位自用房、医院、学校等建筑。2)申请主体为项目产权单位或经产权单位授权且取得十年及以上经营权的运营主体;3)补贴资金原则上在项目工程验收完成且总投资全部支出后开始兑现,分三年按照40%、30%、30%比例支付。

B、产业提升奖励

十、工作流程

A、由中关村科技园区管理委员会实施的条款按照中关村科技园区管理委员会发布的政策申报通知执行。

B、由西城区政府实施的条款,企业按照西城区政府各相关部门发布的政策申报通知执行,中关村科技园区西城园管理委员会(以下简称“西城园管委会”)负责受理企业申请材料。

本次政策的实施,充分结合了金融街关于金融政策引导和中关村打造科技示范区的成功经验,由副区长牵头,自上而下落实,可见金科新区地位的重要性。同时,对于金融科技企业的认定要求高标准,也配套了的资金、政策、产业的扶持政策,力争打造成一“金融+科技”为优势的产业集群。

从目前北京的产业区域格局来看,“金科新区”是金融科技类企业较为理想的入驻区域。

如您对“金科新区”的产业政策有兴趣,请联系邮箱:jy@jyuancap.com 联系方式:18600103146 微信:jyzg0718 地址:北京市朝阳区北京嘉汇中心B座7层

]]>
高和资本| 房地产的历史、生态图谱和地产科技 //www.otias-ub.com/archives/1109145.html Fri, 28 Aug 2020 03:56:15 +0000 //www.otias-ub.com/?p=1109145

地产科技1.jpg

自1998年房改以来已逾20余年,中国的房地产行业也经历了从黄金、白银到现在的青铜演变。而这20年也是中国互联网大爆发的20年,过去看似并行的两个行业也在融合交织。

目录

01 房的历史

02 房地产与互联网

03 房地产营销生态图谱

04 房地产与地产科技

05 海阔凭鱼跃,天高任鸟飞

我们的结论

1.房地产整体市场未来增速将放缓,部分区域存在结构性上涨空间,房地产开发企业集中度将进一步上升,头部房企盈利水平亦存在差异

2.供应、产业、人口是房地产行业发展的三大要素

3.数据智能和网络协同是未来房地产智能化转型的两大螺旋支柱,线上化是数据智能和网络协同的基础,通过革命性技术降低行业准入门槛,吸引增量重塑行业

4.部分复杂场景房地产科技企业可能需要长时间的行业积累以实现量变到质变

 01 房的历史

全国住宅市场历史

房地产“黄金时代”、“白银时代”、“青铜时代”成为房地产业界、乃至经济界的流行词。事实上,经过2000年至今的楼市演变历程,通过统计数据我们能够进行较为清晰的划分

地产科技4.jpg

资料来源:国家统计局 高和资本 地产科技基金团队整理

黄金时代特征(1998年-2010年)

供需:商品住宅销售面积增速在2000年-2007年以极高速度增长,平均增速在23.34%,虽然经历2008年金融危机当年增速负增长,但2009年增速暴增至45.39%,而后在2010年之后增速除2016年外再未超过20%

价格:2000年-2004年商品住宅销售价格保持低速增长,并在2004年进入快速增长通道。2004年-2009年如果剔除08年经济危机影响,平均增长率在15.28%。而在2010年之后的5年,增长率平均在5.91%,大幅低于2009年之前增长率

利润:2000年-2014年规模房地产开发企业营业利润率呈持续增长趋势,由2000年的1.6%增长至2014年的14.2%。在2010年之后营业利润率有一定下滑

白银时代特征(2010年-2015年)

供需:2010年-2015年,房地产销售面积增速持续低迷,2014年甚至出现负增长;与此同时,商品住宅待售面积持续增长,并与商品住宅待售面积/商品住宅销售面积比例同时在2015年达到峰值,房子更加难卖了

价格:从2010年开始,房价涨幅下了一个台阶,直至2013年平均保持7%上下的中速上涨,2014年则基本持平

利润:2011年-2015年规模房地产开发企业营业利润率呈下降趋势,由2011年13.0%下降至2015年的8.8%。虽然2013年量价均有所回升,但改变不了整体下降趋势

青铜时代特征(2015年-至今)

供需:在2015年商品房住宅库存达到最高点之后,国家政策有所放宽,2016年商品住宅销售面积增速达到22.35%。2016年之后国家严控房地产市场,同时持续去商品住宅库存。商品住宅销售面积增速逐步下降,由2017年的5.27%下降至2019年的1.61%;商品住宅待售面积/商品住宅销售面积比例也在逐步下降至2013年水平

价格:销售价格平均增速由2010年-2015年平均7%的中速增长上升至9%左右,保持稳定增长

利润:实际上规模房地产开发企业营业利润率呈逐步上升趋势,但分化趋势越加明显。Top 50房地产企业销售集中度由2015年的30%左右,上升至2019年的60%左右;Top 100房企集中度数据由40%上升至75%,加速中小地产商出局。

地产科技5.jpg

2015-2019年行业集中度趋势 资料来源:亿翰智库

房地产发展的驱动因素

房地产行业发展始终离不开三个因素

供应 产业 人口

供应:有商品住宅供应才有市场

产业:有产业才能吸引人口

人口:有人口才有需求

 2020年上半年在整个房地产市场受疫情影响普遍萎靡的情况下,深圳、杭州和成都引领了一波上涨风潮。这波上涨风潮实际上也是有迹可循的。我们选取了北上广深和部分发达二线城市数据进行了分析

地产科技6.jpg

资料来源:国家统计局 高和资本 地产科技基金团队整理

本轮房价上涨的如深圳2018年GDP爆发性增长达27.9%,2019年GDP增速虽有所回落达9.1%,但仍高于全国GDP增速;人口也是高速净流入状态,2018年和2019年人口增速平均达11.8%

杭州2019年GDP增长率接近2018年水平,同时2019年常住人口增长率超过2018年水平

当出现双高情况时(GDP增速高于去年同期、人口增长率高于去年同期),是房地产价格正向上涨的信号

未来房地产行业将如何发展

总量上,仍有广阔上升空间,但整体增速将放缓

中国城镇化率由2000年的36%上升至2019年的61%,增长了25%。但上述数据对比发达国家仍有差距,以发达国家的城市化率来看,美国、英国、日本、德国、法国、澳大利亚、加拿大的城市化率分别已经达到 82.26%、 83.40%、91.62%、 77.31%、 80.44%、86.01%和81.41%,整体城市化率差距仍有近20%的增长空间

中国的城镇化率快速增长是在近20年GDP的高速增长下形成,2000年-2011年GDP呈平均15.5%的增长,而2012年-2019年GDP平均增速放缓至9.2%,且呈下降趋势。房地产行业未来整体行业增速将保持稳定低速增长。

地产科技7.jpg

资料来源:国家统计局 高和资本地产科技基金团队整理

分地区,强二线城市如重庆、长沙、宁波等将随着经济水平发展和持续的人口吸附,将是下一个活跃的市场

如重庆,GDP在2018年和2019年快速上涨,虽城市常住人口未有大幅度增加,但城镇化水平明显低于同等GDP水平的强二线城市,预测未来房地产市场将有较大的上升空间

地产科技8.jpg

资料来源:国家统计局 高和资本 地产科技基金团队整理

注:一线城市:北京、上海、广州、深圳

发达二线城市:天津、重庆、苏州、武汉、成都、杭州、南京、青岛、长沙、宁波

房地产开发企业集中度将进一步上升,头部房企盈利水平亦存在差异

2016年-2019年规模房地产开发企业营业利润率由2016年9.6%上升至2018年的16.4%,表面上看房地产开发企业又开始赚钱了,但实际上

1.房地产开发企业销售集中度在上升,中小地产商生存空间逐步被压缩。Top 100房企集中度数据由2015年的40%上升至2019年的75%

2.头部房地产开发企业营业利润率水平高于规模房地产开发企业平均水平,但头部企业内部盈利水平亦存在差异

3.即便是规模房地产开发企业叫苦已经进入青铜时代,但与工商企业平均5%左右的营业利润率相比,还是属于暴利的

地产科技9.jpg

资料来源:公开网络信息 公司年报

总结

供需:房地产行业整体增速放缓,局部市场活跃

价格:国家“房住不炒”的方针下,整体房价水平维持稳定上涨趋势,局部市场可能存在较大幅度增长

利润:房地产开发企业集中度将进一步上升,头部房企盈利水平亦存在差异

02 房地产与互联网

2014年伊始,从房多多在万科演讲,到花样年房子免费模式讨论,腾讯入股乐居,再到中介联合抵制搜房乐居股价下跌,贝壳找房美股上市58同城美股退市,阿里投资易居中国;从社会化营销,到智慧社区,再到智能家居,房地产俨然成了中国互联网化行业改造的急先锋。

但实际上互联网对房地产行业的渗透率仍旧很低,与世界最大企业软件解决方案市场美国相比,软件解决方案在中国房地产产业链的渗透也差距巨大。2019年中国房地产产业链软件解决方案市场渗透率为 0.10%,远低于美国市场的1.55%。下图按所占国内生产总值的百分比列示中国及美国各行业的软件解决方案渗透率及市场规模。

地产科技11.jpg

资料来源:明源云招股说明书

为什么互联网没有大规模的渗透进入房地产行业,应当从互联网和房地产两方的特性去结合思考这个问题

房地产行业:长链条、高门槛、大集团

互联网行业:数据智能和网络协同

地产科技12.jpg

资料来源:明源云招股说明书

从行业存量参与者角度看,由于房地产行业的长链条和高门槛,同时加之我国历史因素,导致大的房地产开发集团单一主体独立完成从建造到销售和运营的全链条交易闭环。

而全链条交易闭环始终是内部的自循环,即使是互联也只是以自我为中心的对外连接,而非真正的网络协同。对外表现就是什么东西都要自己研发,或者即便聘请了外部团队也是要外部团队根据自己的业务流程进行软件开发和部署,闭门造车的结果可想而知

从行业增量参与者角度看,由于房地产行业极度的专业性和复杂性,通过目前互联网技术能力和渗透性暂时无法为房地产行业降低准入门槛,也就无法吸引更多的参与者进入到行业,也就没有办法通过新进入者的力量重构行业。但在某些环节,如营销等,由于准入门槛较低,互联网渗透的较为彻底

地产科技13.jpg

资料来源:高和资本 地产科技基金团队整理

即便是形如腾讯阿里等互联网巨头,如果按照空间三段论的理论进行分类,其近年来投资的房地产企业也鲜有涉足最为专业和复杂的空间营造领域,即便是进入了也只是在后建造环节如装修领域进行布局。

腾讯阿里更多布局的空间管理和空间运营领域,而这两个领域的行业门槛相较于空间营造是较低的,能够通过互联网对存量参与者和增量参与者的影响,进而改造整个行业 地产科技14.jpg

03 房地产营销生态图谱

为什么房地产行业在营销环节的互联网渗透率会更高,应该有如下三点原因

1.房地产营销领域进入门槛较低,互联网企业较容易切入

2.房地产行业整体增速放缓背景下,房地产企业的现实需求

3.互联网网民规模增量红利见顶,互联网企业向垂直领域发展的必然之路

如下是我们总结的互联网企业如何在营销环节与房地产行业结合的营销生态图谱

地产科技15.jpg

资料来源:高和资本 地产科技基金团队整理

直销

1.营销代理

模式:房地产行业最老牌的营销方式,为客户开发房地产项目制订和执行营销与销售策略,向有意向买者推广项目并促成销售。制订营销计划—为案场配备经培训的销售人员直至大部分单元售出为止

收费:营销代理费用一般为销售GTV的1%

(房地产开发企业新房营销费用一般是GTV的6%,贝壳平台新房的收费一般是GTV的2.5%-3%,感叹渠道的力量)

(详细可阅读我们上篇连载文章 房的江湖(中)| 58 贝壳 易居的对比 中易居中国部分)

优点:较为成熟的体系和模式

缺点:传统的营销计划和广告渠道宣传,难以与时俱进。部分代理机构采用直播卖房等新颖的营销方式实际上换汤不换药,其核心的协同模式依旧是代销人员和客户的简单二元协同

地产科技16.jpg

资料来源:易居中国招股说明书 高和资本 地产科技基金团队整理

2.业主直销工具

模式:购房人和卖房人在平台直接发布房源进行买卖交易

收费:抽取平台服务费

优点:去中间化,降低交易成本,符合移动互联网时代的网络协作方式

缺点:需要较强的平台公信力和专业服务能力;由于房产的非标性,如果房源规模难以起量,则平台价值将大打折扣

分销

3.非房流量平台

模式:流量基数庞大,用户需求非房地产垂直领域需求,向房产领域导流收费

收费:CPC CPM或CPA等广告费模式

优点:流量基数庞大,覆盖面广

缺点:粗放的流量导流模式,无效的做功较多,匹配效率低

4.房产流量平台(端口费模式)

模式:流量基数虽逊于非房流量平台,但用户需求集中在房产垂直需求,目的性强

收费:端口费和营销增值模式(购买显示房源条数套餐、提前房源排名等方式)

优点:流量基数庞大,覆盖面广;垂直领域平台,营销效率能够有一定提升

缺点:仍为粗放的流量导流模式,真房源等问题频出,匹配效率低

5.房产流量平台(一二手联动)

模式:基于新房去化背景和中国庞大的小B二手房中介群体情况,通过平台集合庞大小B二手房中介,与房地产开发商签订有利的新房分销协议,进行一二手联动

收费:与开发商按GTV比例结算分销佣金,分销佣金比例在2.5%-3%之间,支付小B二手中介分销佣金

优点:加速了房地产开发商库存去化,为小B二手房中介开拓了新房渠道,提升了行业协同效率

缺点:由于新房代理营销佣金和一二手联动佣金存在剪刀差,导致出现渠道案场截客等乱象丛生。从开发商角度看本来案场的客流被渠道截留白白增加了营销费用,但实质上移动互联网的普及,使得全民营销成为不可逆的进程,通过老旧的营销代理式的二元网络协同营销模式,难以调动最大的积极性使得获客成本大幅度降低

地产科技17.jpg

6.房产交易平台

模式:通过构建房源共享、经纪人按角色按劳分配的平台体系,增强网络协同;以最终交易为核心的分配模式使得平台参与人更加注重数据的分析,以及其匹配效率的提升

收费:佣金比例抽成或平台服务费形式

优点:多元的网络协同使每个参与者在实现自己的价值的同时,也在为行业贡献和扩大价值

实际上上述从1-6的模式变化,也体现了互联网逐步改造房地产营销行业的演进过程

通过互联网技术(线上化等)降低门槛,虽然在初期可能没有大量的营销主体进入线上市场,但随着互联网网民数量的不断增加,部分先进入者吃到了螃蟹,会逐步使营销主体进入到房地产营销行业,以增量带动存量重塑行业,形成初步的平台与营销主体的网络协同关系

协作方式:平台和营销主体的二元互动(营销主体为增加曝光度自动线上录房)

解决问题:扩大平台房源规模,解决信息不对称问题

表现方式:房地产流量平台(58的分类信息流量平台、房多多通过线上技术集合小B中介)

随着平台规模的逐步扩展,营销主体内部、营销主体与购房人、购房人之间的数据逐步在平台沉淀。通过智能数据分析,将逐步发现平台内部营销主体之间(ACN、易居房友)营销主体与购房人(精准匹配)的网络协同价值(生态)。通过构建房地产交易平台,提升行业管理和匹配效率,更进一步促进网络协同

协作方式:平台、营销主体、购房人内部和之间的多元互动,最终走向全民营销的模式

解决问题:行业匹配效率问题

表现方式:房地产交易平台(贝壳、易居、M+)

地产科技18.jpg

04 房地产与地产科技

中国的房地产产业链涉及一系列复杂业务场景下房地产开发和资产管理整个周期的各类参与者,包括房地产开发商、房地产销售代理、供货商、资产管理公司、房地产运营商以及房地产产业链上的其他产业参与者。

而在众多的参与者中,房地产开发商代表了整个房地产行业增长的主要驱动力,并将产业链上其他参与者链接起来。美国房地产业参与者高度专业化且具有明确分工和专业知识,与美国不同,中国的房地产开发商则全面参与房地产的整个生命周期,我们刚才讲到的营销生态图谱,也仅仅是房地产整个生命周期的很小一部分

地产科技19.jpg

资料来源:明源云招股说明书 高和资本 地产科技基金团队整理

伴随国内市场竞争日益激烈(2019年房地产开发商超过3万家)实现可持续和可盈利增长,降低经营成本、提升管理效率及透明度及更好地管理客户关系变得越来越重要。

特别是,近期中国政府管理房地产市场增长政策的变化进一步促使房地产开发商专注于提高运营效率及降低成本

实际上,已经有不少地产科技企业参与到了房地产全周期产业链上,对行业进行赋能改造,但为什么渗透率依旧很低,也没有诸如微信、阿里巴巴这种垂直领域的超级独角兽出现呢,这个问题还是要从科技企业改造产业的双螺旋来看

生产力决定生产关系,生产关系反作用于生产力

新的生产力:在第四次工业的浪潮下,大数据人工智能云计算5G芯片等技术的发展,极大化的提升了计算和存储的效率,数据成为新的生产资料,是新的生产力

新的生产关系:中国已经进入移动互联网时代,2016年手机网民占比达95%以上。移动互联时代追求极致的体验感,要求网络协作是多元的,在线的,实时的,精准的,是新的生产关系

双螺旋逻辑:科技赋能于产业,首先的通过生产力的提升(蒸汽机、计算机、互联网、数据智能等),而后带动生产关系的变革(雇佣关系、远程协作、机器决策),生产关系的变革进而促进生产力的提升

举例如淘宝

线上化:将商品和店铺线上化

科技手段:通过互联网技术构建线上商场,大幅降低了开店门槛

多元网络协同:口碑传播吸引更多参与者;参与者内部分工细化,形成协同生态(代运营、线上模特等)

这时候让我们回过头看科技渗透房地产领域较低的原因

首先,线上化水平不足,没有完整的线上化就更不用谈数据的积累和智能分析,也就不用谈网络协同

其次,即便是在线上化基础较为领先的环节,尚未出现革命性的科技手段,能够较大幅度对本环节进行降本增效。革命性的科技手段产生带来两个效果1.存量生产关系的改造;2.降低行业门槛,通过新增量生产关系改造原存量生产关系,进而重塑行业

再者,由于存量参与者改造动力不足,又没有新的生态参与者,导致网络协同依旧是二元互动,难以产生网络化多元协同生态。我们也能够看到近年来房地产开发公司通过自研或者外聘等方式,开发了众多软件提升内部协同和外部互动。但实质上仍旧是单线连接的二元协同模式,非网络化协同

地产科技21.jpg

但我们也应当注意到在部分领域也有地产科技企业初步的改造了行业,如酷家乐和贝壳

酷家乐(2011年成立)

线上化:设计图纸

科技手段:相较于复杂的3Dmax,酷家乐降低了设计师出图门槛,吸引大量设计师使用软件从而增量重塑存量行业

多元网络协同:设计师、家装企业、制造商等通过线上平台网络协同

贝壳(链家2001年成立)

线上化:链家在线2010年成立,房源和数据上网

科技手段:中介的行业非标,暂不具备革命性科技手段,但通过自营和德佑等加盟商业模式积累了参与者基数

多元网络协同:ACN模式,共享和分工协作

酷家乐切入的设计场景较贝壳的房产交易场景其目标驱动因素较为明确,所以通过科技手段能够有效的降低门槛,而贝壳也通过自己的手段积累了平台参与者基数,二者最终也都达到了增量重塑存量的结果

如果对比二者成立的时间,在部分复杂场景的房地产科技企业,可能需要较长时间积累才能从量变达到质变

05 海阔凭鱼跃,天高任鸟飞

随着科技不断发展以及房地产开发商及其他产业参与者对进行数字化、精简化及最优化运营的需求日益增长,房地产产业链软件解决方案市场展现出巨大的增长潜力。中国房地产行业的软件解决方案渗透率预期由2019年的0.10%快速增长至2024年的0.30%。如按照2019年国内生产总值99万亿计算,增长0.2%相当于近2000亿元的市场

房地产行业整体增速放缓背景下,营销科技成为房地产企业的现实需求。市场已经从卖方市场转变为买方市场,营销的手段也将从粗放转为精细。但实际上无论多么精细的营销手段,如果产品无法满足购房人日益增长的个性化的需求,那交易闭环就无法达成

如果我们跳出头痛医头脚痛医脚的单循环思路,当客户能够被确实触达,其需求能够被确实的感知,最终的营销方式应当是C2B的定制化模式,即根据客户的个性化需求定制房屋(户型、材料、装修等)

所以需要改造和赋能的并不仅仅是营销科技、也包括房地产规划环节和建造环节

房地产科技企业也会更加多的渗透进空间建造、空间管理和空间运营的各个细分领域,赋能房地产行业,未来将大有可为!

]]>
晤桥亚洲:国内首家金融地产大数据、数字化BI管理、资产战略咨询平台 //www.otias-ub.com/archives/1106650.html Mon, 24 Aug 2020 09:18:21 +0000 //www.otias-ub.com/?p=1106650 晤桥亚洲是地产界兼具高度和深度的金融科技服务团队,我们的服务包括:

  • 投资与估值大数据SaaS平台
  • 投资与投后数字化BI管理系统
  • 金融地产管理咨询与资产方案

晤桥亚洲团队结合资本与地产双视角,长期为企业搭建与优化与国际接轨的资产管理体系, 通过国际先进的AMSS资产管理BI系统进行投资与投后管理体系落地,实现数字化转型。 AMSS大数据SaaS平台协助金融与地产客户即时获取项目投资与估值分析数据,驱动企业走向大数据AI管理。 晤桥亚洲长期为万科地产、招商蛇口、宝龙地产、阳光新业、高和资本、中粮地产、复星等国内地产和金融企业服务。

产品一:投资与估值大数据SaaS平台

AMSS大数据:

随时随地
智能提炼
捕捉项目相关大数据
高价值资产投资与估值数据

城市画像大数据
分析城市产业结构特征
城市画像大数据让我们洞悉城市发展潜力与风险

地段画像大数据
资产价值离不开周边车流、人流活跃程度、基础配套设施、商业生态、建筑和人口密度等因素
地段画像大数据让我们挖掘地段价值和潜力

项目画像大数据
项目评估、租金定价与开发成本和经营数据对标
项目画像大数据让我们知己知彼 ,精准分析项目指标

大数据 Cap Rate
AI机器学习分析城市风险,地段风险、项目风险等因素,智能分析、量化大数据
CapRate提供资产估值依据

5G超级高速公路时代
企业数字化装备必不可少
大数据驱动数字化智能管理快车

产品二:投资与投后数字化BI管理系统

数据化BI管理

1. AMSS 投资与投后数字化BI管理系统对接整合各类企业数据
实现回报指标平台化管理

2. AMSS 投资与投后数字化BI 系统-实现地产金融多业态覆盖


核心模块下有多个次级模块,涵盖了购物中心、写字楼、酒店、长租公寓、销售和综合体六大板块。


AMSS智能资产管理体系通过多个独立模块的组合,实现了轻便灵活的顶层管理体系,可分业务板块或分项目阶段灵活与企业现有管理体系进行数据对接,实现管理指标监控。

3. AMSS 投资与投后数字化BI管理系统-企业数字化BI全链条管理规划

服务三:金融地产管理咨询与资产方案

资产战略

资产战略
资产管理是轻资产战略的基础。与资本市场紧密结合的轻资产战略,回报管理和风险控制是关键。

资产管理体系
轻资产企业更受资本市场青睐。 企业通过轻资产提高资产效率和回报,成长性更强。

项目回报优化
让资产价值最大化。从资产价值最大化的角度出发,对项目进行精细定位、合理定价、方案优化。

1. 资产战略架构

2. 资产管理体系搭建


如您对金融地产大数据、数据化BI管理以及咨询、资产方案感兴趣,请联系邮箱:jy@jyuancap.com  联系方式:18600103146 微信:jyzg0718  地址:北京市朝阳区北京嘉汇中心B座7层

]]>
晤桥亚洲:一线城市广州和深圳为什么难以吸引大批投资者? //www.otias-ub.com/archives/1106624.html Mon, 24 Aug 2020 04:55:04 +0000 //www.otias-ub.com/?p=1106624
沙龙主题:

深圳 VS 广州城市演化趋势与投资潜力

讲师:Allan Wu

近期,大湾区的概念吸引了很多投资者。而广州和深圳作为大湾区中的热门城市,却让很多机构投资者和投资人举棋不定。

本期沙龙透过大数据视角,聚焦投资者关注的广州、深圳写字楼市场和资产配置问题。

• 资产配置是资产管理的核心功能之一• 深圳、广州、北京、上海CBD企业生态比较• 晤桥亚洲亚太城市新体系• 珠三角与长三角城市结构比较• 经济发达的深圳和广州为什么难以吸引大批机构投资者?
案例分析与大数据论证,请点击下方视频观看沙龙回放。

深圳 VS 广州城市演化趋势与投资潜力

点击观看:30分钟精剪版本

AMSS大数据SaaS平台:https://amssdata.com.cn/ 

]]>
【重磅】晤桥亚洲线上沙龙-大数据透视中国8大建设中CBD新城 //www.otias-ub.com/archives/1103992.html Thu, 20 Aug 2020 06:41:11 +0000 //www.otias-ub.com/?p=1103992 沙龙主题:大数据透视中国8大建设中CBD新城—谁是机会?谁是坑?

8大CBD:上海虹桥CBD、杭州钱江新城、广州南站商务区、深圳前海、珠海横琴新区、天津于家堡金融区、武汉王家墩CBD、南京河西新城

沙龙大纲:1、为什么中国商务新城成功案例不多?

2、商务新城规划5大核心规律

3、新城投资分析量化体系

沙龙时间:8月20日(周四)20:00

分享平台:ZOOM

分享嘉宾:Allan Wu

嘉宾介绍:晤桥亚洲创始人|CFA、CPA

          麻省理工学院(MIT)房地产硕士

          德克萨斯大学奥斯丁分校会计硕士

          北京外交学院学士

]]>
大数据分析:为什么年轻人不爱买车了? //www.otias-ub.com/archives/860998.html Thu, 11 Apr 2019 17:44:48 +0000 //www.otias-ub.com/?p=860998 年轻用户被不少车企视为“救命稻草”,但目前年轻用户购车萎靡,2018年25岁及以下、26-30岁下滑高达21.93%、16.81%,给了中国品牌等当头一棒。为什么年轻人就不爱买车了?

一、2018年中国乘用车年龄越大消费越坚挺,“高龄用户”抗寒能力明显强于“年轻用户”

2018年中国乘用车出现近一二十年来的第一次下滑,终端零售降幅高达7.75%,且越年轻下滑幅度越大。其中25岁及以下、26-30岁下滑高达21.93%、16.81%。46岁及以上“高龄用户”表现坚挺,增长0.75%,不惧严寒、独领风骚。随着 “高龄用户”快速成为车市新增长点,对当下以“年轻用户” 为核心的多数车企的产品定位、研发设计、市场营销、网点建设、售后服务等多数既定规划都会提出严峻挑战。

 

二、2003-2017年“高龄人口”助推车市消费年龄“持续上移”

2003-2017年46岁及以上“高龄人口”数量占比30.68%飙升至40.21%,25岁及以下“年轻人口”由35.04%下滑至28.36%,“高龄人口”与“年轻人口”占比一路此消彼长,且前者强势反超后者。再加2018年中国基本实现两个家庭拥有一辆汽车,意味着 “高龄人口”与“年轻人口”的此消彼长走势,会更直接作用于车市,助推车市46岁及以上“高龄用户”购车占比,强势反超25岁及以下“年轻用户”。

三、2016-2018年房价飙升与房租上涨,加剧年轻用户生活负担

2016-2018年“受惠于”大规模的去库存政策,中国出现全国性的房价上涨潮,北京、上海、深圳等一线城市,武汉、成都、杭州等省会城市,蚌埠、湛江、聊城等地级城市的房价纷纷“翻倍增长”。高房价也刺激了一二线大城市的房租上涨。2018年以21-30岁为主的90后、95后占租房市场68%、占购房群体38.5%,意味着2016-2018年房价飙升与房租上涨,会大幅增加年轻用户的生活负担。

 

四、2016-2018年高负担“年轻用户”推动车市年龄“持续上移”

2016-2018年快速飙升的房价,进一步提升房产占中国家庭资产的比例,2017年升至77.7%,远高于美国2016年34.60%的水平。也让中国居民的生活负担更沉重,且年龄越小负担越大。2018年80后、90后购房贷款比例高达90.7%、85.2%,但26.5%的90后月供收入比高达50-75%,8.3%超75%,即过半收入都得还房贷,势必会大幅挤压“年轻用户”第二支出——购车,推动车市消费年龄“持续上移”

五、2013-2018年“低婚低育”推动车市消费年龄“持续上移”

2013年中国结婚率达到新高9.9‰,结婚对数达1347万,之后一路下滑,2018年降至7.2‰,结婚对数降至1011万。同时生育年龄重心“持续上移”,一胎集中的25岁及以下生育率“持续走低”,向26-30岁转移,二胎集中的31-40岁生育率也“持续走低”,向41岁及以上转移。在中国绝大多数地方,结婚、生孩与买车、换车高度相连,结婚与生育的降低与推迟,势必会推动车市消费年龄“持续上移”。

六、2015-2017年高学历人口加速提升,助车市年龄“持续上移”

拥有大专及以上的高学历人口由2003年6704万人飙升至2017年17914万人,占6岁及以上总人数比例由5.49%飙升至13.87%,其中2015-2017年上升尤其明显,人数突破1.7亿人,占比突破13%。同时大专及以上人口与25岁及以下人口的比值,由14.81%飙升至45.44%,2015-2017年上升同样明显,意味更有可能推迟购车的高学历人口与更有可能提前购车的年轻用户此消彼长,共同助车市年龄“持续上移”。

作者简介:周丽君 易车研究院首席分析师  来自: 君临车市

]]>
长寿的秘诀:大数据分析 //www.otias-ub.com/archives/814627.html Thu, 27 Dec 2018 09:37:42 +0000 //www.otias-ub.com/?p=814627 美国老年医学专家Thomas Perls教授,在经过大量数据的严格论证后,将各类寿命影响因素进行了量化分析,是目前寿命研究领域最全面的分析之一,可作为客观理解各类因素对寿命实际作用的重要参考。

一、延长寿命的因素量化分析

除遗传外,运动、心理、医疗及饮食因素对延长寿命的作用较为明显。父亲或母亲寿命 95岁及以上均将增加寿命3年,说明了遗传对于超长寿命的重要性。运动方面,每周锻炼5天将增寿2.3年;心理方面,对人生衰老乐观增寿2年;医疗方面,定期体检并筛查癌症增寿1.9年;饮食方面,健康饮食辅以适量的酒、茶可延年益寿。此外,高HDL(高密度脂蛋白)、良好的卫生习惯、紧密的人际关系及高等教育也对增寿有益。

二、减少寿命的因素量化分析

吸烟、不良饮食、生活高压力对减少寿命的作用最为明显。

从单因素来看,每天吸烟1-2包将减寿8年,远高于其他因素,酗酒和生活高压力分别减寿4.2年和3.3年,仅次于吸烟。

从整体来看,不良饮食的减寿作用最大,而社会化因素需引起注意。饮食方面,酗酒、红肉、暴饮暴食的减寿作用最为突出,值得注意的是,补铁已被证实在青少年时期有助于生长发育而在中老年阶段则导致老年痴呆症并缩短寿命,酒、咖啡及茶的大量饮用会缩短寿命,但适量饮用则无影响甚至会增寿。健康状态方面,三高、肥胖、失眠具有减寿的风险。社会化因素方面,过多的压力、高强度的工作具有较强的减寿作用,婚姻方面的不良状态也将减寿,但主要针对男性,女性则无影响。其他方面,吸烟的减寿作用最为明显,空气环境及排便习惯也可影响寿命。

三、重视生活方式和社会化因素对寿命的影响

遗传决定了寿命的天花板,但生活方式和社会化因素决定了能否到达天花板。因此,生活方式及社会化因素更具有实际意义,尤其是人们容易忽视的社会化因素。

生活方式方面,避免不良嗜好并注重饮食调节。吸烟、酗酒等不良嗜好对健康有害是现代医学的共识,而热量限制已被证实是除遗传操作外最有效的延长寿命方法,因此食量控制、健康饮食、避免不良嗜好均有助于健康提升和寿命延长。

社会化因素方面,努力建立归属感和成就感。斯坦福大学心理学家推孟博士主导的一项历时80年的追踪调查显示,长寿人群在自己的人生道路中具有显著的特点:参与大的社会网络、回报社会、喜欢并促进自己的职业发展、良好的婚姻和朋友关系,此外他们在经历人生困境后能够走出来,人生道路充满意义。

来自: 泽平宏观

]]>
大数据分析:最难的不是分析,而是大数据 //www.otias-ub.com/archives/614339.html Wed, 19 Jul 2017 07:26:18 +0000 //www.otias-ub.com/?p=614339

每一个企业需要将他们的基础数据进行分析和甄别,在此基础上,对数据进行不同层次和结构的分类。原因如下:

数据深度融入在商业的各个环节

现代企业逐渐意识到,纷繁复杂的数据固然重要,而这些数据是否真的被企业职工运用,并对其工作产生了相关性的影响,才是企业领导所看重的。不同的层级岗位和职位角色都需要做出正确的决策,而良好的决策必须是基于用户数据所提出的。因此,不仅仅是数据科学团队,从产品部门到客户服务部门,再到销售等各个部门都应该获得这些数据资源和信息。

在现代企业中,对数据的处理还仅仅是在每个月的全体会议上查看各项指标还远远不够。组织必须要将数据驱动纳入到决策制定中。以现代营销团队为例。营销人员有大量的丰富的数据可供他们自由支配,尤其是在智能手机,平板电脑,社交媒体平台爆炸式普及的今天,这样,一个品牌可以远距离地与观众互动,并了解顾客的相关信息。如果所有的这些数据被收集到一个中心位置,进行数据分析,那么对客户的长期行为分析并进行消费预判则成为了可能。同样地,根据这样的方法,其他部门,如销售、产品和客户服务部门也能获得前所未有的数据量。

零碎数据共同形成宏观趋势判断

如今,数据在各个行业和企业扮演着越来越重要的角色,企业应该将数据视为机会。每个数据集——CRM、CMS、ERP、营销软件,都包含大量信息和基础数据。现在或许看起来很微小,可是对数据深入的挖掘和分析将会给企业带来巨大的财富。而在现实生活当中,由于不可能预先知道哪些数据很重要,所以企业需要收集尽可能多的数据,这样即使市场环境发生大的改变,企业也能够做出合理的预判和尽可能贴近市场的决策。

基础数据和数据分析同样重要

数据质量是重中之重,倾斜的数据会导致错误的结果。如果你的判断来源于不完整的数据基础,你的决策便会产生一定的偏差甚至产生错误,而这最终将会侵蚀在数据驱动文化背景下人们对数据分析的信心。因此,简洁、完整和正确的数据是有效决策产生的必要前提。

2016年美国总统大选的预测分析,很好地证明了数据质量的重要性。在当时的预测中,大多数数据是基于州级和国家级的电话投票进行的。但是电话调查中很容易出现无人接听的现象,而各州无人接听的占比率也存在着很大的区别,这会很大程度上影响选举团的预测(选举团制度是美国特有的一种选举方式, 选民在大选日投票时,不仅要在总统候选人当中选择,而且要选出代表50个州和华盛顿特区的538名选举人,以组成选举团。当选的选举人必须宣誓在选举团投票时把票投给在该州获胜的候选人。美国总统由选举团选举产生,并非由选民直接选举产生,获得半数以上选举人票者当选总统),结果就是,倾斜的数据产生错误的预测。

如今,机器学习已经受到了大量的炒作。而机器依据大数据分析出来的预判,是否真的能符合事实情况,很大程度上决定于是否拥有坚实的数据基础:一个将数据驱动纳入到组织文化的企业,采集到的简介、完整和正确的数据。”数据驱动”一词已存在多年,但在今天快节奏和迅猛发展的数字经济中,它将成为当代企业的文化使命。

来自:灯塔大数据

]]>
从萧山警匪案看大数据分析预测能力如何创造价值 //www.otias-ub.com/archives/491248.html Sun, 03 Jul 2016 17:22:49 +0000 //www.otias-ub.com/?p=491248 海量数据源是大数据的基础,最终通过大数据技术实现对个体或用户的解读并产生价值才是目的。企业可以运用大数据解析目标用户来提升销售转化与商业价值, 政府部门也可以利用大数据提高工作效率,今天我们要说的是大数据应用于政府职能部门的案例。

1467566523-7174-3417eb9bbd5918e021c1051467566523-7768-3417eb9bbd5918e024f81a

  运用大数据,政府职能部门作业效率如虎添翼

  近年来政府运用大数据的例子越来越多,大数据可以帮政府掌握舆情数据,实现舆情预判,舆情引导,从而提高政府的监管创新能力,此外 政府职能部门还可以利用大数据侦破案件,打击犯罪,近日萧山派出所一出警匪博弈案就充分证明了大数据的力量。

  事件的经过是这样的: 5月30日上午,一对母女到浙江省杭州市萧山区北干山游玩后失踪,萧山警方接警后连夜组织搜山,次日凌晨,警犬搜寻到母女俩的遗体,身上均有锐器伤。两名受害人来自贵州, 25岁母亲和5岁女儿。随后,专案组利用大数据分析寻找线索,并凭借严密的“网格化”防控模式,于6月5日晚,将犯罪嫌疑人高某响抓获归案,萧山“5·31”北干山命案成功告破。那么问题来了?警方是如何在这么短时间内破案?大数据提供了哪些帮助?

  利用大数据分析锁定关键线索

  5月31日凌晨,萧山派出所派出10多条警犬和20多名训导员,连夜搜山。警犬循着几滴血迹,在北干山一厕所旁,先后找到了刀鞘和血衣 ( 后证实是嫌疑人所留 ) 。天亮时分,两名受害人的遗体被发现,然而凶手不知去向。接下来的几天,大规模的警犬搜山持续了好几天,把北干山来回走了个遍,直到确定嫌疑人肯定已经离开山上。

  萧山警方迅速调集一切能调集的侦查警力,成立专案组展开侦查。负责现场勘验的民警在山上的密林中来回穿梭,提取可疑物品寻找线索。很快,民警在一处隐藏于密林中的厕所里发现了血迹,并在附近发现了一只掉落的男鞋和鞋垫。结合现场勘验情况及外围调查,警方确定这只鞋子正是嫌疑人所留。通过进一步鉴定和大数据分析,警方发现,36岁的安徽籍男子高某响有重大作案嫌疑。

  监控团队300多名视频操控员展开大数据分析

  警方的视频作战团队同步上案, 300多名视频监控操控员随案跟进,萧山在 2010年以来,新增近万个监控点,相当一部分都是高清探头,这为监控作战提供了良好的平台支撑。最重要的是,现在的每一个重要案件,监控团队都已经有一套成熟的大数据分析机制,可最大限度追踪对象。很快,根据监控大数据分析,警方还原了嫌疑人案发前一日的行踪。根据警方掌握的情况,嫌疑人于5月30日上午,从杭州城区乘坐公交车进入萧山境内,辗转公交和步行后,从萧山区博物馆附近上北干山,直至案发。结合现场勘验、监控分析及严密布控,警方推断:嫌疑人已受伤,他走不远。

  网格化布阵,让罪犯无路可逃

  随后,公安路面交警、特警、治安等警力联动,围绕北干山周边,布置多层卡点和巡逻警力,城区主要出入口由民警把守,一张大网悄悄撒开。

  嫌疑对象身份明确后,萧山警方发出“网格化”巡查指令,“网格民警”拿着嫌疑人照片,在调查访问的同时,要求所有网格员,尤其是案发中心现场附近的网格员积极行动起来,警方的大网进一步搜寻嫌疑人可能落脚的地方。

  在北干辖区,有一批特殊群体“北干望望”,他们可以是社区干部,也可以是公交司机、药店店员、环卫工人、小吃店主等,他们活跃在各自网格的微信“望望群”,也活跃在街头路面,随时准备给警方提供一线线索。最终一名药店的“北干望望”陈先生,于6月5日傍晚,发现一名衣衫不整的男子,徘徊几趟后进店买了一盒止痛药,匆匆离去。陈先生及时给网格民警杨委打电话通报,随后,值班警力赶赴现场,后在萧山刑警大队增援警力及铁路火车南站派出所警力的协助下,在中誉网格附近的一草丛中发现并逮捕了嫌疑人。

  本案件中充分体现了互联网与大数据分析技术对刑侦破案的关键节点给予最核心支持,利用互联网及大数据,将是未来政府职能部门提升创新力及核心竞争力的关键。

  此外,大数据应用于企业市场推广也可以发挥纠察功能。

  大数据可以帮政府职能部门分析预判罪犯信息并锁定罪犯行踪,也可以帮企业在市场推广中找到作假数据,通过建立用户数据关联信息进行真实与虚假用户识别。说到造假,本月在央视曝光的游戏行业渠道刷量造假的新闻刷爆了朋友圈,游戏行业推广渠道的造假数据在 40% 以上,这意味着企业大量投入打水漂了,渠道刷量造假套取企业大量媒体投放费用。而且造假手段非常之高明,可以模拟成真实用户数据,最为明显的是移动端 APP 推广,比如时下最火的互联网 APP 、游戏 APP 、直播 APP 等都是被严重爆刷的目标。如果从传统视角来讲,企业根本无从辨别真假用户数据,只能任由宰割,但是从大数据的视角来解决问题,就变得迎刃而解了。大数据可以利用自己独特的技术去识别判断用户作弊,将作弊手段纳入特征库,并且利用机器学习来不断学习与更新,利用信息指纹技术来精准判别,一旦用户到达,真假用户就自动解析并落入不同数据池,真实用户和虚假用户 10 分钟内就可以完成识别,其实背后是复杂的大数据运算和解析过程,但是大数据所呈现出来的界面及操作又是傻瓜型的,极其简单易操作,且高效快速,因为从企业来讲,实效性可能在某种程度上决定了企业的市场反应速度和营销效果。所以这样的工具被很多企业青睐,帮企业省钱的事儿何乐不为呢。目前在这一块深耕的大数据公司并不多。如果说到专业的话,量江湖是目前国内首个专注于 APP 推广反作弊的先行者。识别渠道造假也体现了大数据纠察、判断的功能。

  结语

  大数据概念近些年炒得比较火,但是很多企业对于大数据的认知依然模糊,而运用大数据的企业或政府,却在持续的提高创新能力和竞争力,大数据还可以深度作用于政府各个领域,除了警察办案,还有交通协管、公共安全等, 2016 年李克强先后多次在大数据论坛峰会中致辞,并倡导企业与政府关注并运用大数据。而大数据服务公司也被推到聚光灯下,大数据所显现的能量印证了马云说过的一句话:未来最大的能源不是石油而是大数据,可以想象,大数据将是未来企业与政府提高竞争力的突破口。目前最大的问题是政府与企业对大数据有着极大需求与缺口,而掌握核心大数据技术的综合型服务公司比较少,目前国内领先的有 talkingdate 、比邻弘科等,比邻弘科不仅有对企业的解决方案,还有针对政府的解决方案,但还远远不够,这些大数据服务公司在服务现有客户的同时,还要更多地研发满足政府或企业需要的大数据产品与应用,让大数据的潜力真正被挖掘出来,利用起来。

]]>
白酒消费大数据分析 //www.otias-ub.com/archives/603066.html Wed, 29 Jun 2016 13:37:58 +0000 //www.otias-ub.com/?p=603066 白酒作为一种特殊的消费品,在丰富人民生活、繁荣市场方面一直扮演重要角色。在我国更是历史悠久,从宋代开始,白酒就逐渐代替黄酒,成为主要的酒饮。随着历史的发展,不断积淀浓厚的文化和艺术价值,甚至成为一种极具时尚的收藏。

据统计,2016年5月中国白酒产量为105.5千万升,同比增长4.1%。2016年1-5月中国白酒产量为542.7千万升,同比增长6.8%。其中,以“中国白酒金三角”的川贵地区扛起中国白酒产业的半壁江山。

长江上游和赤水河流域的贵州仁怀、四川宜宾、泸州三角地带有着全球规模最大、质量最优的蒸馏酒产区,其白酒产业集群面积5.6万平方公里,有一批世界知名白酒品牌如茅台、五粮液、泸州老窖等,白酒产量占全国的五分之一。

报告对酒水垂直门户酒仙网中川贵地区的白酒消费数据进行采集分析,从而对互联网白酒消费市场情况进行探索。

品牌销售额

近年,白酒行业调整导致产品价格下调,五粮液、茅台价格下调约600元,泸州老窖国窖1573降至650元附近。而这一调整也变相提升了消费者购买力,拉动个人白酒消费增长。下图为酒仙网2016年上半年累计销售额排名前十的白酒品牌。

从图中可以看出,茅台酒、五粮液、泸州老窖三大品牌基于其强大的品牌力与大众消费者体量,以绝对优势占据约80%的市场份额。其中由于茅台、五粮液品牌中存在极端价位商品,也使得其整体销售额偏高。

品牌销量

在2010-2015年时间里,高端酒在目前的价位和销量上已经实现了均衡。

泸州老窖以其特有的工艺特点营造出“无色透明、窖香幽雅、绵甜爽净、柔和协调、尾净香长”风格特点的“国窖•1573”和“窖香浓郁、饮后尤香、清洌甘爽、回味悠长”浓香正宗的泸州老窖特曲。深受广大消费者爱戴,在酒仙网平台上品牌销量突破80万,占据品牌销量榜首。

白酒香型消费倾向消费

目前被国家承认的只有5种:即酱香、浓香、清香、米香和其他香型。川贵白酒香型多浓香型和酱香型白酒,而消费者更倾向于浓香型白酒,其消费比例高达78.9%。

浓香白酒销量最高的原因大致归为三点:

  • 价格低,更适合大众群体消费;
  • 产量高,基酒储存丰富,成品酒生产周期快;
  • 品牌辨识度高,在市场上更加容易流通。

泸州老窖作为“浓香鼻祖,酒中泰斗”,其销量庞大也正是因为找准了消费者的胃口。

白酒酒精度消费倾向消费

目前,我国清香型白酒的酒度一般为60°-65°,浓香型白酒大多为38°-52°,酱香型白酒一般为52°-55°。据统计,消费者更倾向于购买52°的白酒,其比例高达64.5%,其次为53°白酒,消费比例约为9.5%。

消费者在选择白酒时大多依据个人喜好口感,数据显示,消费者更倾向于购买酒精度数为52°-53°的降度酒。这是因为,在52°-53°度之间,酒类分子与水分子的亲和力最强,酒的醉和度好,酒味最协调,这也是出名的白酒都是在52°-53°左右的原因。

白酒规格消费倾向消费

报告对消费者购买瓶装白酒的容量数据进行统计分析发现,近81%的消费者,都会选择容量为500ml的瓶装白酒。

500ml包装白酒,适合2-3人饮用,且不会导致醉酒,更适合人们日常宴饮,因此也是市场最为常见的白酒容量类型。

白酒价格分段

大众消费者对于产品的价位是敏感的,同时作为拉动白酒销售额上升三大因素之一的消费价位,一直都是厂家及消费者关注的重点。报告对酒仙网中的白酒价位消费数据进行整理分析,发现白酒的大众消费价位主要分布在200元以下,约占总量的60.4%,而800元以上的高端酒品消费最少,只占总量的9.8%。

将白酒价位与品牌进行对比分析发现:800元以上价格区间,茅台以其全国性高端特色品牌一家独大,傲视群雄;200至800元价格区间,五粮液、泸州老窖平分秋色,地位难以撼动;200元以下价格区间,竞争格局多变,众多厂家必争之地,不仅存在诸多省级品牌,许多大品牌更是在此类价位段中推出知名单品。

以泸州老窖为例,就曾提出自己既是“名酒”又是“民酒”的概念,推出“老窖世家”系列,将主力消费人群定位在中低端大众消费市场。对比白酒产品销量,不难发现泸州老窖作为畅销品牌在低端价位区拥有很强大的市场占有率。

这也正符合其金字塔的营销战略,顶端是作为形象产品的“国窖1573”,强调高度;老窖特曲为塔柱,强调强度,“量价平衡”;作为塔基的其他品牌则强调宽度,“以量为主”,竞争市场占有率。

大家都在说

有什么样的生活,就有什么样的白酒。生活方式决定了人们对白酒的评价标准,而人们的评价也引导着白酒行业发展。报告采集了酒仙网中消费者对所买酒类的评论数据,绘制成词云图,来看看消费者在购买白酒时更爱关注哪些点。词云图数据显示,“包装给力”、“有档次”、“名牌名酒”这些标签说明用户购买用于送礼时比较关注;而“正品”、“酒仙独有”、“价格便宜”这些标签说明用户对酒仙网这一购买渠道的认可;而“后劲大”“酒味纯正”属于饮酒用户对酒的评价。

]]>
美国大选进入“白热化” 为何政治选举能与大数据分析联系在一起? //www.otias-ub.com/archives/480694.html Sun, 05 Jun 2016 03:14:23 +0000 //www.otias-ub.com/?p=480694 1465096357-7932-021130259zao

在过去的两个总统大选中,有人认为奥巴马竞选团队有效利用大数据分析的能力就是他赢得其他对手的其中一个原因。但是今年像奥巴马那种优势几乎已经不会存在了,TargetSmart的首席执行官Tom Bonier说,值得一提的是,TargetSmart同时给国家民主党派和州民主党派以及他们的同盟提供大数据分析和服务。

“与过去相比,现今的总统选举在利用大数据分析这一块更加旗鼓相当”,Bonier告诉 Datanami。“2008年,民主党在利用大数据分析领域比共和党聪明太多,而且更有远见,但在这个年代不是这样。现在,对参选者来而言,在选举进行的创新性这一方面是一个更加公平的游戏。”

Deep Root Analytics,给国内和州内的共和党及其从属团队提供数据分析,它们的分析和产品创新的主管,David Seawright 也同意上述观点。

“从2012年的失败中我们吸取的最大教训就是我们需要在大数据分析上努力,而且我们需要我们的分析变得得更好。”Seawright这么说。“所以这方面已经有很大的投资,不仅仅提供给党内平台,而且也用于帮助Deep Root以及像我们一样的公司真正地在这一领域进行深度挖掘并且提供这些服务给我们的客户。”

现在这类服务正在快速增长。由于新数据来源的结合,先进分析的大众化,可接受的大规模计算能力增长,2016年的政治运动尽情享受数据分析带来的便利,放到过去来看,这是极其不可能的。从全国性的政治运动到州内和当地的政治竞争,大数据分析正在我们的国家政治上留下很大印记。

将数据作为武器

1465096357-7719-02112218rx6m

Deep Root是在共和党的努力下成立的,用来更有效地与民主党在大数据分析领域进行竞争。这家公司本质上是共和党的大数据武器,以给共和党人参选提供数据和分析服务,上至总统选举,下到州立法机关选举。

“我们喜欢用的一个词是武器化,行动化——实施某个行动”,Seawright 说道,“我们能够提供这种服务,而且能够同时洞悉很多不同活动,洞悉很多不同阵营在选票上的上下变化。利用大数据分析将不再是一张豪华机票——它是一种任何人都能做到而且应该做到的东西。”

Deep Root和TargetSmart都是利用Alteryx的软件来帮助他们容纳,净化,混合以及分析来源不同的大规模数据。这种分析软件以一种最有效的方法来使用,它分析所有选民的年龄结构,根据不同年龄段来分段并且打分,然后利用这些信息来优化他们在媒体上的花销,特别是在非常重要的电视广告上。

Deep Root利用它的分析模型来告诉参选者在他们的已有电视预算的条件下,哪些地方他们能获得最大的收获。正如Seawright解释的那样,数据分析在每天的决策过程中起着很重要的作用。

“我们的数据将会指示我们客户该将他们的竞选广告放到哪才能让他们的目标人群最有可能看到。”他说,“我们也会提示他们花销的记录,通过让客户在情景中能够意识到这个问题,不仅仅提供他们所做的与目标人群相关的理由,而且也会说明你的竞争对手或者同盟所做的对你的目标人群的影响,这就允许他们能够对他们正在进行的分配任务具有策略性,并且对广告投放更聪明——把广告投放在最不显眼而又最高效的地方,同时在根据其他人或组织的行动来及时做出反应方面也会让他们更加机灵。”

TargetSmart提供相似的分析服务。但是通过利用数据来优化行动不仅仅只是在电视广告投放上,也在客服中心活动,传统邮件花费,以及社区拉票,TargetSmart在它的360度投票者联系技术上比他们的老对手共和党走得更远。

一对一政治

传统上,相较于其他席位的竞选,总统竞选吸引了更大数额的资金。但是由于2010年的联合公民决定,解除竞选运动委员会在广告投入上的限制,今年的总统竞选看起来会将电视开销提升到一个全新水平。竞选行动委员会的资金与有力的分析工具形成竞选中的有力武器,能将信息以一种较以前更精细的方式传达出去(尽管他们必须躲避协调用力的出现)。

Bonier曾经通过2012年建立的慈善运动实验室参与过奥巴马的连任竞选活动,按照Bonier的说法,对目标分析的利用是非常新奇的,“利用大数据分析是那种你随处都可以感受到的东西”,他说,“但是如果你回顾一下2012年的竞选活动,它真的只是帮助目标广告购买而已。奥巴马竞选活动的总体预算的一小部分才花费在目标广告上,在今年,将不会是这种情况。我会说几乎全部的广告投放,至少总统竞选水平,他们的发生都会经过大数据目标分析过程。”

多亏了正在进行的先进分析软件的普遍化,竞选活动有各种预测手段和统计模型可以使用,Alteryx的总裁George Mathew如是说,“你从政治图谱的两侧所听到的,其实这就是新常态,” Mattew说道。“创新性,人们更加被隐藏于大数据分析中的能力,它们就是在政治图谱两侧持续发展的东西。”

广泛增加的有技巧的大数据实践者在这当中也扮演者重要角色,Seawright说道,“除了这些被采用和被接受的事物的文化变化,随着新的数据来源的变化,新的可以用来解决问题的技术和软件的出现,在市场上也会发生实践转向。”他说,“当然那些变化的某些部分会伴随着人类增加的天赋而来,这就使我们能够干好这些工作并且利用它们服务我们客户。”

下一步:社会分析

两家大公司都正在越过电视领域来到类似社交媒体的数字媒介来探险。但是这种尝试是非常艰难的,因为数字媒介上的数据更概略,并且通过媒体分析并不容易知道你所要到达的目标人群。正如古典的老New Yorker卡通所说,“在互联网上,没人知道你是一只狗。”

Bonier认为,“数字导向分析在大家看起来显然不可靠,你不知道你正在接近你需要去谈话的人群,所要竞选运动几乎从未在数字媒介上花费类似在广播电视和其他沟通形式上的投入。”

TargetSmart 在这一领域正在做一些创新性的工作,以希望能影响2016年的总统大选。通过利用个人可识别信息,这家公司将2.55亿国内投票者资料与类似Facebook,Google,Yahoo,以及MSN等数字平台上用户匹配。

他们已经取得一些进展,Bonier希望2016年的大选会是一个突破口。“我们不能够将每个推特用户与注册的投票者相匹配,但是你能得到一个内部可以利用的相当规模的数据”,他说,“如果你按正确的方法来做这事,它就会注入你的模型。拥有类似Alteryx的以一种进行时和动态的方法利用那些信息的能力和工具是非常具有决定性和重要的进步。那将是这次选举一个重要的副产品。”

Deep Root 也在社交媒体上努力探索,Seawright说,“我们正处于一个不断有新的数据来源加进来的市场。”他补充道,“具体地我们能够利用社交媒体数据来帮助我们更广泛地理解人们消费方式,还有人们与社交媒体连接的方式,这对于我们而言将会更有价值。”

从目前来看,很显然大数据分析现在是大型政治选举的桌面筹码。如果有金钱花费在电视广告上——这排除了类似图书馆管理员和社区捕狗者等的竞争——那么当需要帮助政治家尽可能有效的花费这些钱时,大数据分析就必不可少。
来源:数据分析网

]]>
大数据分析:年轻用户增速缓慢 大众廉价车如何吸引90后? //www.otias-ub.com/archives/472327.html Tue, 17 May 2016 06:15:59 +0000 //www.otias-ub.com/?p=472327 1.  扭转90后用户增速缓慢,大众廉价车责无旁贷

2.  廉价车涉及多方利益,更得兼顾南北大众的均衡发展

3.  不应孤立廉价车战略,实惠才是大众的普世价值

4.  廉价车战略可能会是大众在华的又一个拐点

廉价车战略对大众在中国的发展至关重要,包括扭转90后用户增速缓慢、确保南北大众均衡发展,以及宣扬大众普世价值等。

一、扭转90后用户增速缓慢,大众廉价车责无旁贷

廉价车品牌宝骏目前正吸引着大量90后年轻用户,从2015年的上牌量来看,在90后的购车中,大众品牌占了13%,下滑7%,也低于大众在车市13.81%的整体占比。宝骏虽然仅占3.23%的90后用户,但增长了138.27%,也高于宝骏在车市2.34%的整体占比。

1463465710-6706-yxHuAWY8H4yduU2h7bVmJ5apvu6A

从车企上牌量在各年龄段的分布来看,大众和宝骏都集中于70后和80后,增长主力都集中于80后和90后,但廉价车型品牌宝骏的增速大幅领先于大众,宝骏的90后用户占比增长了268.39%,大众仅增长43.78%,且落后于行业54.61%的平均水平。

1463465710-2385-JzMRGJyZv0VibXoBgocxjFaKI4jA

在给90后纷纷打上时尚、运动、前卫等标签时,千万别忽略了一个最根本的现实因素,那就是经济能力相对有限,这将促使90后的消费,更加理性与务实。所以,能否争取到更多的90后用户,廉价车至关重要。

如何更好玩转廉价品牌,目前也有不少成功案例。对比苹果、三星,小米手机本质上就是廉价手机,但在用户体验,品牌宣传等方面,彰显科技与活力,给用户非常好的感受,争取了大量年轻用户,也成就了自己一举成为中国,乃至全球的知名手机制造商。目前舆论对大众廉价车的直观感受,就是便宜,以及简配,几乎没有好感,大众已经输在了起跑线上。

 

二、廉价车涉及多方利益,更得兼顾南北大众的均衡发展

如何争夺更多的90后用户,是大众一个比较现实的问题,如何确保南北大众的均衡发展,也是大众一个很非常现实的问题。

大众在中国存在一条不成文的规律:南北大众各自为政时,销量往往会下滑,如2003-2005年,分别推出高尔、开迪,但都很快退出市场;南北大众被牵着鼻子走时,销量往往会上升,如2008年的新宝来与朗逸、2012年的新迈腾与新帕萨特,很快重夺紧凑型轿车与中型轿车市场的话语权。但大众在华的廉价车战略,似乎正透露出一个危险信号,南北大众开始各玩各的了。

根据目前的消息来看,大众廉价车将落户一汽大众,先期上市的可能会是两款廉价SUV,极有可能会推出新品牌,当然,最后不排除收购夏利品牌的可能;上汽大众的廉价车,虽然目前还没有任何字面上的正式报道,但不排除斯柯达逐步拉大与大众品牌价差,填补廉价区的可能,并集中发力SUV。

按上述判断演变,南北大众的均衡发展将被打破,大众中国也可能会减弱对南北大众的把控。这是否有利于大众在华的发展,暂不在此篇论证。但有点可以肯定,大众目前在华取得的成就,很大程度上是建立在南北大众均衡发展,以及大众中国对南北大众有效把控的基础上。

毫无疑问,捷达、桑塔纳如升级为独立的廉价车品牌,是对南北大众均衡发展策略的最好延续。届时,捷达廉价车的核心对手,依旧会是桑塔纳廉价车,而其它廉价车或将被甩得很远。

1463465710-2586-6qX8HdLJMZ4g6M5O3bC2BG8zEB2g

 

三、不应孤立廉价车战略,实惠才是大众的普世价值

廉价车战略不仅能触及大众在华如何争取90后用户、如何兼顾南北大众均衡发展等现实问题,还能触及大众的企业价值或理念等更重要的问题。

如果将廉价车理解为一款“实惠”的车,那其与大众的普世价值是一脉相承的。大众汽车的德语为Volkswagen,其中的Volks意为国民,Wagen意为汽车,全名即国民汽车(简称VW)。为国民造车是大众汽车一直坚持的普世价值,该价值观在中国市场尤为珍贵。

“实惠”的车,不仅能与新能源、车联网/无人驾驶、南方市场、SUV等大众在华的其它战略更好融合,而且还能成为多个子战略的母战略,由具体战术升级为指导思想:大众想在SUV车市挑战哈弗,需要更“实惠”的车;大众想在南方市场挑战日系,需要更“实惠”的车;大众想在新能源车市挑战丰田,需要更“实惠”的车……

 

1463465710-8132-w8QKv3KtnX9DUydvNmZ7KoibS7qw

四、廉价车战略可能会是大众在华的又一个拐点

从目前各种资料来看,大众高层对廉价车战略,还没有太清晰的决断,显得很纠结;廉价车战略还是被孤立看待,极有可能新设立品牌单独推进;也没有任何将捷达、桑塔纳作为廉价车品牌的迹象,缺乏对现有庞大资源的整合;更没有对大众在中国的价值观进行反思与提升,在遭遇几次重大舆论危及的背景下,这非常危险;给人感觉最强烈的,依旧是如何获得最大利润,更好弥补因排放事件造成的几百亿损失……

这样一种孤立和急功近利的思维模式,让笔者有点担心,如果大众2016年在华销量继续下滑,可能会让大众的廉价车战略变得更加孤立与激进,不仅会造成更多资源的浪费,也难以达到压制通用、创造利润等目标。但换一个角度理解大众的廉价车战略,其实它还是蛮可爱的,捷达、桑塔纳等都还年轻,与90后一样,都是小鲜肉,再基于大众的技术实力等,在车市复制“小米模式”并非不可能。所以,车子廉价点其实并不可怕,可怕的是企业的价值与使命越来越廉价。

文/周丽君  行业分析师

]]>
大数据分析在智能交通中的探索与实践(PPT) //www.otias-ub.com/archives/465402.html Sat, 23 Apr 2016 14:57:44 +0000 //www.otias-ub.com/?p=465402 1461423419-4967-3417eb9bbd901881801b01

1461423418-2631-3417eb9bbd901881801b02

1461423418-2830-3417eb9bbd901881801c03

1461423418-2707-3417eb9bbd901881801c04

1461423418-5873-3417eb9bbd901881801d05

1461423418-4896-3417eb9bbd901881801d06

1461423420-5364-3417eb9bbd901881801e07

1461423420-9890-3417eb9bbd901881801e08

1461423420-2287-3417eb9bbd901881801f09

1461423420-8545-3417eb9bbd901881801f0a

1461423420-1042-3417eb9bbd90188180200b

1461423420-9164-3417eb9bbd90188180200c

1461423421-7322-3417eb9bbd90188180210d

1461423421-1256-3417eb9bbd90188180210e

1461423421-8296-3417eb9bbd90188180210f

1461423421-2026-3417eb9bbd901881802210

1461423421-3733-3417eb9bbd901881802211

1461423421-6079-3417eb9bbd901881802312

1461423422-7431-3417eb9bbd901881802313

1461423422-8006-3417eb9bbd901881802414

1461423423-6453-3417eb9bbd901881802515

1461423422-3603-3417eb9bbd901881802516

1461423423-9057-3417eb9bbd901881802517

1461423422-4061-3417eb9bbd901881802618

1461423423-9339-3417eb9bbd901881802619

1461423424-7928-3417eb9bbd90188180271a

1461423423-4878-3417eb9bbd90188180271b

1461423424-9805-3417eb9bbd90188180281c

1461423424-1143-3417eb9bbd90188180281d

1461423424-1827-3417eb9bbd90188180291e

1461423425-8846-3417eb9bbd90188180291f

1461423425-4065-3417eb9bbd901881802a20

1461423425-4084-3417eb9bbd901881802a21

1461423425-2770-3417eb9bbd901881802b22

1461423425-7107-3417eb9bbd901881802b23

1461423425-8802-3417eb9bbd901881802c24

1461423426-9863-3417eb9bbd901881802c25

]]>
点球成金——运动中的大数据分析 //www.otias-ub.com/archives/456882.html Wed, 30 Mar 2016 14:25:09 +0000 //www.otias-ub.com/?p=456882 迈克尔·刘易斯(Michael Lewis)的畅销书《点球成金》(Moneyball)改变了人们思考运动的方式,特别是对那些有最大既得利益的产业所有者、管理者和运动员来说。他的书掀起了一场革命,人们从此可以以事实为依据去评价一名运动员的表现,而不是像以前那样只是凭借传闻或者感觉。

1459347843-6325-OqDqmGxAHJM5VicSQYHUAerHyEhw

从那时起,运动科学家开始尝试在篮球、足球和橄榄球等运动中复制这种方法。现在科学家有能力在比赛进行过程中收集关于运动员和比赛本身的海量数据,这也促进了这门科学的发展。

然而,对很多运动来说,收集数据的能力和处理分析数据的能力并不匹配。由此就带来一个有趣的问题:运动科学在有效地处理数据方面面临着哪些挑战?在这个快速发展的领域内还有哪些有待解决的问题呢?

如今,多亏了澳大利亚悉尼大学的乔基姆·古德蒙德森(Joachim Gudmundsson)和迈克尔·霍顿(Michael Horton),我们有了答案。他们回顾了这个领域的发展,同时列出了研究者们在有效分析数据方面所面临的挑战。

他们所考虑的比赛被称作“侵略游戏”(invasion game)。这些比赛共同的特点是,两支队伍在比赛场地内争夺一个球的的控制权。每支队伍的目标都是通过把球送进对方的球门来得分,同时要阻止对方得分。比赛最后得分最多的球队就是胜利者。

具有这种特点的运动包括足球、篮球、冰球、曲棍球、英式橄榄球、澳式橄榄球和美式橄榄球等。然而,绝大部分的比赛数据都来自职业的足球和篮球比赛。这是因为研究人员有资源去收集这些比赛的数据。

这个数据通常包括整个比赛过程当中的运动员和球的运行轨迹,以及对传球、射门和铲球等特定数据的记录。古德蒙德森和霍顿表示:“现在的追踪系统可以提供运动员时空轨迹的高分辨率、高频率的记录,这反过来也促进了横跨各领域的多样化研究,研究人员从这些轨迹中可以获得新的灵感。”

运动科学中最大的挑战就是运用这些数据来获得有竞争性的优势,无论是在比赛过程中,还是用来帮助提示训练水平、做好赛前准备或者完成更明智的签约。但是在研究人员已经取得重大进展的同时,这个领域内还是有很多重要的障碍需要去克服。

其中重要的一点涉及到理解运动员们如何止控制球场上自己周围的区域。在运动科学中,运动员的优势区域(dominant region)指的是他/她可以先于其他人到达的区域。计算优势区域的一种简单方法就是画一张沃罗诺伊图(Voronoi diagram),这个图可以把球场分成紧靠每个运动员的多个区域(如图所示)。

1459347842-5799-FRtZSsmsYKyNpIhdxl5xaO50gYJQ

这样一张图还可以借助其他信息来加以修正,比如我们观察到进攻一方的优势区域要比防守一方更大一些。

然而,计算球场上每名运动员的沃罗诺伊图却非常复杂。没有人在实际比赛中做到过这一点,即使是在机器人足球世界杯中。

 

研究人员取而代之的是去计算一个不同的性质——在一个给定时间每名运动员可以到达的区域——然后再去寻找重叠的部分。这样就使计算速度增加到原来的1000倍,不过在准确性上也会比原来降低10%。

但即使那样,这个过程还是忽视了很多关键的因素。也许其中最重要的一点就是没有将运动员们的动量(momentum)考虑在内。一个运动中的选手很明显会比一个静止的选手控制更大范围的区域。

这样会使球场变成复杂的细分网格。当运动员A向着静止的运动员B跑去的时候,每个人可能有不止一个优势区域,而这些优势区域可能又不是彼此相接。举个例子,动量使得B身后的部分区域成为A的优势区域,但却不是全部。

因此在运动科学中一个重要的有待解决的问题就是如何计算比赛过程中真实的优势区域。

另一个挑战是算出一名运动员是否可以接到传球。这就意味着要确定是否存在某一速度和角度使得一名特定的运动员比其他人先碰到球。

这个很明显与运动员的优势区域有关。考虑优势区域的精确定义,可以直接算出落在这个区域内的直线传球。目前的工具也确实是这样做的。

但问题是只有某些特定的轨迹符合直线传球的标准。例如,轨迹在空中的传球就不是直线传球。现在还没有可以处理这些轨迹的工具,包含球的自转的更加复杂的运动就更没办法处理。这也是运动科学中有待解决的一个问题。

当一名运动员减少其他运动员周围的活动空间时,他/她就会给他们施以压力。这个应该如何被测量并在模型中加以考虑呢?

运动分析中一个正在变得日益重要的领域包含了网络科学。这种方法把每一名运动员都当作一个节点,并且当球在两人之间传递的时候,就在两人之间画一条线。这是一个成果丰硕的研究领域,因为研究人员已经发展出很多种数学工具来分析网络。

 

例如,使用一种被称作“中心度”(centrality)的测量标准就可以直接算出网络中最重要的节点。在足球中,守门员和前锋的中心度最低,而后卫和中场球员的中心度最高。

网络科学还可以把网络分成不同的群(cluster)。这样我们发现一些队员也许只是相互传球,而另一些则可以更好地配合。

然而,网络科学的问题在于测量中心度和划分群有很多种方法,而且一种方法为什么比另一种方法更好的原因也往往并不清楚。因此另一个有待解决的问题就是系统地评价和比较这些不同的方法,以确定它们的效用和价值。

 

另一类问题来自对比赛玩法数据的分析。比如说,我们是否有可能根据对比赛过程中一段时间内运动员运动轨迹和特定事件的记录,来确定这支队伍的类型——例如足球比赛中的4-4-2阵型,或者是防守一方的策略——例如篮球比赛中的全场紧逼或者区域盯人?

在某些运动的一段时间里,这是可以做到的。但是达到或者超过解说员或者专家的分析水平仍然是前进的目标。

古德蒙德森和霍顿还描述了其他一些有待解决的问题,以及在足球和篮球这样的运动中发展起来的思想如何可以有效地应用到其他的运动中,比如曲棍球和手球。

但是完善可以解决这些问题的算法只是一方面,接下来研究人员需要考虑的是这些工具怎样帮助提升运动员在场上场下的表现。它们能被用来当作衡量运动员表现和价值的标尺吗?它们能确定一个在某支队伍取得成功的运动员也可以在另一支队伍同样取得成功吗?它们能够在真实的比赛过程中发挥作用以帮助教练决策和观众欣赏比赛吗?

在接下来的几年里这个领域很有可能会有显著的进展,运动中的数据分析也会有更加光明的前景。

来自:麻省理工科技评论

]]>
大数据分析的几个极佳用例 //www.otias-ub.com/archives/444485.html Fri, 04 Mar 2016 10:18:03 +0000 //www.otias-ub.com/?p=444485 时至今日互联网每天新增的数据量达2.5*10^18字节,而全球90%的数据都是在过去的两年间创造出来的。举个直观的例子来说明一下互联网的数据量:假设大西洋里每一升海水代表一个字节的数据,那么整个大西洋存储的数据也只能到2010年就满了。

从外行的角度看来大数据是个挺了不起的东西,它也确实了不起,不过有一个前提就是我们能够有效地处理数据。怎样从海量数据中找出有用的信息才是最重要的。

本文中我们会讲一些大数据的用例比如分析促销行为、诊断交通状况等。我们还会谈一谈大数据的收集方法以及处理的过程。

1457086661-3131-

网上促销

现在一个公司想取得商业上的成功,在线促销已经成为了很重要的手段。不过如果没有进行实时的数据分析那么可以说是干了相当于白干。成功的促销行为应当依据之前收集的数据来决定此次促销所应使用的文案、设计、界面以及针对的人群等。

因为这些数据可以帮助我们理解客户的需求以及市场的动向和机遇。如果想要充分利用这些数据,还需要做到高效地整合数据、打造一个低延迟的分析系统并为分析人员提供一些统计数据直观的图标来进行辅助。

在促销开始之前,我们先要订立一个业绩上的目标。为此我们应该清楚促销针对的客户群和市场。然后将销量和流行度指数这样的业绩目标进行量化。我们可以收集的数据包括销售报表、客户反馈、网站统计等等。

从多个数据源进行分析的好处是它能够为未来的发展提供更多的认识,这是单一的销售量所无法比拟的。单纯的销售量无法体现出消费者和环境的变化因此很难作为预测未来的可靠保障。

大数据在促销上的好处可以总结成下面几点:

  • 富有针对性:这意味着钱能够真正地花在刀刃上,所以看似要多投入但其实能够节约开支。
  • 及时反馈:大数据实时分析意味着可以针对市场的变化迅速调整打法。
  • 为以后的市场决策打下基础。

交通疏导

比如你早上有重要会议,结果却被堵在路上不知道什么时候才能到公司,这时你可能除了干着急也没什么能做的。你不能,大数据分析可以。借助大数据分析,、你可以找出拥堵不严重的路甚至通过实时疏导来解决整个城市的拥堵问题。

在这方面做得比较突出的是谷歌地图。谷歌通过收集安卓用户的位置和运动等信息来预测交通状况并给予用户建议。

不过现在这项服务效果还不是特别好因为谷歌再怎么收集信息也很难知道用户此时使用的是什么交通工具,而开车和骑电动车对于交通的影响是很不一样的。

航班和车队管理

大数据分析在航班管理上可以帮助我们减少花费并节约时间。从每一架飞机或汽车收集的数据燃油消耗、负载、速度、路面状况和航线等。

航班如果计划得不好的话肯定费用会上升,这就意味着赚的钱会变少,这就是物流公司钟情于大数据提升运输效率的原因。数据分析可以帮助物流公司减少空驶的情况并优化行驶的路线。这么一来不光是效率能够提升,对保护环境也能做出一定的贡献。
航班车队管理还能够与交通疏导结合起来为车辆寻找最合适的行车路线,进一步提高效率降低开销。

总结一下大数据分析为航班和车队管理所带来的益处:

  • 实时数据分析可以减少燃油的使用并降低尾气排放。
  • 优化路线减少空驶率。
  • 为车辆提供可视化辅助。

智能新闻聚合

现在已经有很多新闻应用可以根据用户的兴趣来聚合相应的新闻提供给用户。大数据在媒体的生产、归档和聚合上也能够发挥出作用。

单论新闻每天产生的数据量就以PB论而且还在迅速增长。在媒体领域大数据分析的目的是实时地识别、分类、结构化、翻译、分析和管理媒体内容。分析的结果则是为每一个用户单独提供的新闻聚合。

大数据分析为智能新闻聚合带来的益处包括:

  • 高效的信息管理。
  • 提高趋势和数据的即时性。
  • 自动化的搜索和低延迟查询所带来的经济性。

除了这里提到的用例,大数据分析还有无穷的前景留待大家去发掘。

原文作者:Sandro Saitta
原文地址:Unusual Big Data Use Cases (guest post)
文章译者:刘旭坤

]]>
2016年银行理财产品大数据分析 //www.otias-ub.com/archives/430446.html Sun, 17 Jan 2016 14:03:54 +0000 //www.otias-ub.com/?p=430446 EAcc-fxnrahr8350260-12016银行理财产品大数据分析报告

在经济基本面低迷的背景下,央行祭出多种宽松政策,多次降息后利率持续下行,市场整体流动性比较充裕。另一方面,“资产配置荒”问题凸显,可投资的优质资产减少,资产端风险加大,银行议价能力下降。 可以说,2015年银行理财陷入了尴尬境地,其所面临的环境与2014年相比有着天壤之别。受多重因素的影响,银行理财产品收益率下降,“年末行情”也并未如常出现。

2016银行理财产品大数据分析报告 为了让投资者进一步了解银行理财市场的发展状况,继2015年1月发布“2015银行理财产品管理能力白皮书”,并在业界引发关注热潮、成为千万名银行理财客户遴选理财产品的标准参照之后,2015年12月中旬至2016年1月上旬,标点财经研究院再度联袂《投资时报》,耗时数周,对7.45万条2015年(截至2015年12月11日)发行的人民币理财产品大数据展开深度分析,绘制出“2016银行理财产品大数据分析报告”,力图从银行理财产品整体发行能力、收益水平、现状及未来趋势等多个维度,勾勒出这一市场的全貌。 我们根据银行理财产品的6项指标进行评分,最后按照权重计算总分并排名(满分100分),推出“2016银行理财实力榜”,为投资者遴选理财产品提供参考。

银行理财市场现状 2014年11月以来,央行6次降息并伴随多次降准,利率水平持续走低。与此同时,经济增速放缓、优质资产稀缺,银行理财资金陷入“缺资产”的窘况。2015年,银行理财产品发行数量增幅大幅下降,短期化趋势进一步加剧,而预期收益率则呈现明显的下滑之势。

1.1发行情况:增幅急速放缓 尽管银行理财产品的发行数量依然在攀升,但增长速度已急速放缓。据Wind资讯提供的数据,2014年全年银行发行的理财产品为66512款,同比增长46.76%。2015年全年发行的数量上升至77860款,但同比增幅只有17.06%,远低于往年的增幅。在2015年发行的理财产品中,人民币产品占比达到98.05%(图1)。

J6sN-fxnqrkc6478245-1银行理财数量同比增幅

分类型来看,非保本型产品依然占了最大的发行比例,该类产品2015年共发行了54063款,同比增长19.78%,在全部产品中的占比近七成。保本浮动型产品共16260款,同比增长18.33%,占比为20.88%。而保本固定型产品的数量则较2014年出现下降,2015年发行了7537款,同比下滑了1.3%,在全部产品中占比不足一成(图2)。 从产品期限上来看,一年期以下的中短期产品,在数量增加的同时占比继续提高,而一年期以上产品的数量则大幅减少。其中,1个月以内的产品数量大增,由2014年的3109款增加至2015年的4494款,同比增幅达到44.55%。1-3个月期的产品仍是市场上的中坚力量,共有45462款,同比增长16.76%,在所有期限的产品中占了58.39%。3-6个月期的产品数量为18009款,同比增长18.47%,占比为23.13%。而12个月期以上的产品只有804款,与2014年相比下降了17.28%,占比也从2014年的1.5%降至2015年的1%(图3)。

事实上,2011年,银监会在第四次经济金融形势通报分析会上要求,原则上不允许发行1个月及其以下期限的理财产品。1个月期以下产品逐渐销声匿迹,开放式和滚动型理财产品开始大行其道。在2015年发行的1个月及其以下期限的理财产品中,开放式和滚动型产品担任起了重要角色。随着银行理财业务的转型,开放式理财产品和净值型理财产品将得到大力发展。

1.2收益水平:下行趋势明显 在2015年的最后一周,虽然临近年末,但预期收益率在6%以上的人民币非结构性理财产品依然少之又少,这与往年的情况大相径庭。 据银率网统计,2015年12月,人民币非结构性理财产品的平均预期收益率为4.35%,较前一月仅小幅增加了0.01个百分点,人民币结构性产品的平均预期收益率为5.05%,较前一月下降0.35个百分点,面临“破5”。从2015年全年来看,银行理财产品的收益率走出了明显的下行趋势:前四个月尚且稳定,之后开启接连下跌模式(图4)。

可见,银行理财产品的收益水平在2015年发生了翻天覆地的变化。据Wind资讯统计,在2015年发行的银行理财产品中,收益率超过5%的产品同比下降了17.16%,占比也较2014年下降了近20个百分点。发行数量增幅最大的是收益率在2%-3%(含)之间的产品,由2014年的770款增加至2015年的1822款,增幅达到136.62%。其次是收益率在0%-2%(含)之间的产品,同比增长123.37%。收益率在3%-5%(含)之间的产品数量增幅也较大,同比增加91.6%,这类产品的占比由2014年的28.73%大幅提高至2015年的47.04%,几乎占了半壁江山。

银行理财管理能力 虽然收益率在下行,但银行理财依然是资产配置中的一个重要组成部分。在刚性兑付潜规则打破前,投资银行理财产品风险相对较小,本金安全度较高。与此同时,银行理财产品收益率要高于存款利率,因此,从某种程度上来说,银行理财产品是存款的一种替代。

对投资者而言,在挑选银行理财产品时,除了追求较高的收益外,能否如期兑付以及期限适当也是不可忽略的因素。因此,要评判银行在理财产品上的实力,需要考察其产品预期收益率的高低、实际收益率是否达标、产品数量以及期限的多样性,其中发行数量的多少和期限是否多样关系到投资者的选择空间。

根据Wind资讯和部分银行提供的数据,《投资时报》研究院对超过7.45万条2015年(截至2015年12月11日)发行的人民币理财产品信息进行了梳理,从发行能力、收益能力两个方面对银行理财产品的竞争能力进行综合考量,独家推出“2016银行理财实力榜”。其中收益能力综合考虑了1-3个月(含)、3-6个月(含)、6-12个月(含)、1年期以上这四类期限产品的平均预期收益率以及实际收益率的达标率。剔除发行数量不足10款的银行后,共有321家银行被纳入榜单。

2.1综合排名:全国性银行整体领先 不同的银行之间,理财产品管理能力可谓千差万别。那么,哪家银行更具竞争力? “2016银行理财实力榜”得分最高的前十家银行分别是平安银行、盛京银行、华夏银行兴业银行中信银行、渤海银行、重庆银行、南京银行、东莞银行以及苏州银行,股份制银行和城商行各占5席。这些银行的理财产品无论在发行能力上还是在收益能力上普遍有着不俗的表现,尤其是收益率普遍较高(表1)。

得分最低的十家银行分别是山东寿光农商行、浙江平阳农商行、江苏启东农商行、江苏靖江农商行、赣州农商行、江苏泗阳农商行、山东禹城农商行、德州市德城区农信社、朔州市朔城区农信社以及东营农合行,均是农村银行。这些银行的理财产品不仅发行数量少,而且期限极为单一,供投资者选择的产品十分有限。

整体来看,包括国有银行、股份制银行在内的全国性商业银行的平均得分最高,其次是城商行。 其中全国性商业银行在发行能力上占有绝对优势,18家银行中,产品数量超过千款的有11家,在发行能力前十强中,全国性商业银行占了9席。

城商行的发行能力逊色于大型银行,但各期限的平均预期收益率却要高于全国性商业银行及农村银行。如1-3个月期产品的预期收益率,112家城商行平均为5.07%,全国性商业银行及农村银行均不足5%,分别为4.82%、4.92%。不过由于部分城商行缺乏达标率数据,拉低了收益能力方面的得分。

2.2全国性商业银行:发行能力最强 统计显示,全国性商业银行的发行能力在所有类型的银行中最强。18家银行共发行47890款人民币理财产品,占市场总量的一半以上。平均每家银行发行产品2660款,远高于其他类型的银行。正是这种无可比拟的发行优势,很大程度上提升了全国性商业银行的理财实力。 细分来看,股份制银行在理财产品方面的综合实力要强于国有商业银行。一方面,部分股份制银行的发行能力并不逊色于五大行,另一方面,由于国有商业银行拥有庞大的网点和客户数量,有较强的理财产品定价权,因而股份制银行的理财产品收益率普遍要高于国有商业银行。

18家全国性商业银行理财能力得分由高至低排名为平安银行、华夏银行、兴业银行、中信银行、渤海银行、光大银行、工商银行、广发银行、交通银行、中国邮政储蓄银行、农业银行招商银行浦发银行建设银行民生银行、浙商银行、恒丰银行、中国银行,有13家银行进入总榜单的前50名。其中平安银行、华夏银行、兴业银行、中信银行、渤海银行进入总榜单的前十强。

理财产品竞争力最强的是平安银行,在总榜单中居于榜首。据Wind数据统计,该行发行产品2195款,在所有银行中排名第11。旗下产品的预期收益率较高,其中1年期以上产品的平均预期收益率高达7.2%。但由于部分结构性理财产品的实际收益率未能达到最高预期收益率,收益能力得分受到一定的影响。

紧随其后的华夏银行在总榜单中排名第三位。在我们的统计中,该行发行的理财产品数量最多,达到7076款,且全部达到预期收益。遗憾的是,该行1-3个月期的理财产品收益率略低,平均只有4.66%。

全国性商业银行中排名第三的是兴业银行,在总榜单中居第四位。该行发行理财产品813款,在上榜银行中排在第16位。其各期限产品的平均预期收益率均超过5%,其中1年期以上产品的平均收益率更是达到6%。该行公布了实际收益率的产品均全部达到预期收益率的上限。

五大国有行中得分最高的是工商银行,在总榜单中排名第16,在18家全国性商业银行中排名第7。其次是交通银行,在总榜单中排名第20,在全国性商业银行中排第9位,该行产品数量多达6952款,在所有银行中仅次于华夏银行。

2.3城商行:收益率更突出 尽管在体量上难以与全国性商业银行相抗衡,但城商行在理财产品方面依然有不容小觑的优势。一方面,从发行数量上看,虽然单家城商行的理财产品数量并不多,不能媲美于动辄上千款产品的大型银行,但城商行群体较大,因此整体数量较多,抢占了很大一部分市场。另一方面,从产品收益率来看,城商行较其他类型的银行更胜一筹。

进入榜单的112家城商行共发行了2.64万款人民币理财产品,市场份额达三成。平均下来每家城商行发行的人民币产品为235款,较大型银行仍有不小差距。不过,依然有部分城商行的发行能力不输大型银行。有三家城商行的产品数量超过千款,产品数量最多的是南京银行,达到2722款。其次是江苏银行,发行了1603款。上海银行则以1012款产品排名城商行第3。此外,青岛银行、杭州银行、宁波银行、锦州银行、徽商银行、浙江稠州商业银行、盛京银行以及温州银行的产品数量也均在500款以上。

在收益率上,与其他类型的银行相比,城商行有一定的优势,往往通过较高的收益率来抢夺客户。如东营银行有近98%的产品预期收益率均达到7%,平均预期收益率为6.93%。宁波东海银行各期限产品的平均预期收益率均高于7%,整体平均达到7.03%。

从综合发行能力和收益能力来看,有29家城商行进入总榜单的前50名,其中5家进入前十强。排名最靠前的是盛京银行,在总榜单中排第二名。该行发行的理财产品达534款,各期限产品的平均预期收益率均高于行业平均水平,且150款公布了实际收益率的产品全部达标,收益能力甚至强于榜首的平安银行。

重庆银行在城商行中排名第2,在总榜单中排名第7。该行1年期以上理财产品的表现最为突出,平均预期收益率达6.75%,远高于行业平均水平。 南京银行在城商行中排名第3,居总榜单的第八名。除亮眼的发行能力外,该行各期限产品的平均预期收益率均在行业平均水平之上,但有多款结构性产品的实际收益率未能达到预期收益率的上限,这主要是由于产品设计所致。如该行旗下的“聚鑫”多空分级1501期8人民币理财产品,其多空两级收益分配挂钩“沪深300(3118.730, -102.84, -3.19%)指数”在到期日前一个交易日的收盘价。2015年12月8日沪深300指数收于3623.02,大于3500点,那么该产品于2015年12月9日按以下收益分配方案兑付:其中多级年化收益率为5.765%;空级年化收益率为3.465%,表现为低于最高预期收益率。多空分级理财产品设计较普通非结构性产品复杂,投资者须谨慎选择。

城商行排名第4至10位分别是东莞银行、苏州银行、浙江稠州商业银行、包商银行、珠海华润银行、青岛银行以及长沙银行。其中青岛银行发行的产品数量较多,达788款,在城商行中居第4位。其不同期限的产品均有所覆盖,且有实际收益率的42款产品也全部达标。不足的是,该行6至12个月、1年以上这两个期限的产品平均收益率均低于行业平均水平,拉低了整体得分。

有人欢喜有人愁。城商行中得分最低的十家银行分别是遂宁市商业银行、景德镇市商业银行、曲靖市商业银行、晋中银行、邢台银行、济宁银行、青海银行、抚顺银行、厦门银行、平顶山银行。这些排名靠后的银行发行的产品数量普遍较少,从期限上来看产品线不全,基本缺少1年期以上产品,且收益率相对较低;此外,还缺乏实际收益率数据。 2.4农村银行:大多排名殿后 由于发展滞后,包括农商行、农合行和农信社在内的农村银行在理财管理能力上整体殿后,主要是在产品数量、期限覆盖面等方面难以与全国性商业银行、城商行相抗衡。

从发行数量上来看,上榜的181家农村银行共发行13732款人民币理财产品,平均每家银行发行75款,远不及全国性商业银行及城商行的发行量(图5)。其中发行产品数量超过100款的只有45家,最多的是北京农村商业银行,达到563款,而多数农村银行的产品数量在50款以下。此外,大多数农村银行在实际收益率等信息的披露上仍有待加强。

得分最高的农村银行是宁波鄞州农村合作银行,在总榜单中排名第21位。该行发行产品335款,期限覆盖较为全面,收益率也相对较高。更为重要的是,该行有214款产品披露了实际收益率,全部达到预期收益率的上限。

厦门农村商业银行在农村银行中排名第二位,在总榜单中居第22名。分类榜单第三名是上海农村商业银行,在总榜单中排名第31位。青岛农村商业银行、江苏吴江农村商业银行、无锡农村商业银行、佛山农村商业银行以及吉林九台农村商业银行也跻身总榜单前50强,居细分榜单的第4至8位。细分榜单前十位还包括广东南海农村商业银行、宁夏黄河农村商业银行。

农村银行更多是排在总榜单的榜尾位置。得分最低的50家银行中,农村银行占了92%。而得分最低的10家银行则全被农村银行包揽,分别是山东寿光农村商业银行、浙江平阳农村商业银行、江苏启东农村商业银行、江苏靖江农村商业银行、赣州农村商业银行、江苏泗阳农村商业银行、山东禹城农村商业银行、德州市德城区农村信用合作联社、朔州市朔城区农村信用合作联社、东营农合。从Wind提供的数据来看,这10家银行的产品数量均不超过35款,且只发行3个月期以下的产品,产品线很不完善。

2016银行理财产品大数据分析报告 2016趋势展望 2016年初,A股经历四次熔断后不止下跌之势,失守3000点关口,刺激了部分资金回流理财市场。对投资者而言,要追求稳定的回报,银行理财产品是现阶段比较稳健的投资选择,不过,投资者对收益率不宜抱有太大的期望。

海通证券认为,低利率时代已经到来,零利率将是长期趋势。国内资产回报率下降趋势已经开始,居民可选投资品种回报率全面下降。理财收益率下行开启,高投资回报率时代不再。

鉴于监管层面的重要性是引导,银行理财产品也在不断创新,市场格局有所调整。一些银行的理财产品正从封闭逐渐向开放式转型,净值型产品占比提升,并将成为未来银行理财产品的一大发展趋势。净值型产品是类似于基金的运作模式,没有预期收益,定期披露净值,投资者在开放期内可进行申购赎回,收益与产品净值有关。可见,净值化理财产品具有“买者自负”的特点,是银行理财解决隐性担保和刚性兑付的一个有效办法。

投资者在选择银行理财产品时需了解产品的运作特点,同时还要注意避免风险。如2015年有多家银行披露理财产品提前终止公告。银率网分析师认为,由于银行提前终止理财产品,投资者面临一定的再投资损失。如果没有及时发现,理财本金和收益到账后只享受活期利息,对于投资者的收益损失更大。

]]>
大数据分析:从感性决策到理性决策 //www.otias-ub.com/archives/408914.html Mon, 23 Nov 2015 03:57:36 +0000 //www.otias-ub.com/?p=408914 自人类有史以来,从未像现在这样积累如此多的数据,也从未如此繁重的数据分析工作。我们都知道,挖掘大数据背后的价值能给的决策带来预测和指导,但是如何挖掘数据、掌控数据,就成了摆在眼前的难题,

价值隐藏于数据之后

在商业活动中,无时无刻不在产生大量的数据。但大多数时候,这些数据是零散的、不规律的,这就是我们常说的原始数据。原始数据本身并不具备价值,需要对其进行整合和进一步处理才能得到我们想要的数据。

无数案例的经验告诉我们,具有决策指导意义的数据就隐藏在这些看起来杂乱无章的数据之中。大数据对于未来的预见性和科学性使得这些数据具有价值,我们分析大数据其实就是想要得到能够“预见未来”能力。

大数据分析与科学决策

在过去的商业决策中,管理者凭借自身的经验和对行业的敏感来决定企业发展方向和方式,这种决策有时候仅仅参考一些模糊的数据和建议。而大数据和大数据分析工具的出现。让人们找到了一条新的科学决策之路。

m3

大数据主义者认为,所有决策,都应当逐渐摒弃经验与直觉,并且加大对数据分析的倚重。相对于全人工决策,科学的决策能给人们提供可预见的事物发展规律,不仅让结果变得更加科学、客观,在一定程度上也减轻了决策者所承受的巨大精神压力。

大数据分析工具,科学决策指南针

在大数据分析工具出现之前,参与决策指导的数据一般都是人工分析得出的。科学的决策需要科学的数据,人工分析数据并不能保证数据的绝对真实和客观。这意味着在大数据分析工具的使用中,数据必须确保真实与可靠。

国内有些数据分析工具在性能上已经能比肩国外同类技术。国云数据的新锐产品大数据魔镜,作为国内领先的数据分析工具,能为用户提供完整的数据分析。随着数据市场和云BI等功能的开放,大数据魔镜有望成为新的数据分析平台。

m4

大数据价值体现在服务人类,大数据和大数据分析工具都是为人服务的,这在大数据魔镜的功能中被体现地淋漓尽致——人性化、智能化服务于用户。数据分析工具的作用取决于人们的需要,而不是数据本身。

在大数据的帮助下,我们将会越来越清晰地看到这个世界的本来面目,也会越来越清晰地认识人类自身。而大数据分析工具,就是探索大数据与现实世界之间联系的放大镜和启明灯!

]]>
CDA:数据分析师职业发展白皮书(2015版) //www.otias-ub.com/archives/398756.html Thu, 29 Oct 2015 14:17:04 +0000 //www.otias-ub.com/?p=398756 数据分析师职业发展白皮书(2015版)

目 录

一、是技术也是艺术——CDA研究院和业界前沿公司和对数据分析的认识

二、数据分析师职业发展历程

1.国外数据分析行业发展历程

2.国内数据分析师职业发展

三、数据分析师人才行业现状

1.人才模型/岗位划分

2.国内数据分析师人才薪资水平

3.国内数据分析师人才分布

4.国内数据分析师人才需求

四、数据分析师人才职业规划

1.目前人才职业现状

2.数据分析人才学习路径

3.总结

五、CDA数据分析师培训及认证

1.考试简介

2.为什么选择CDA等级认证考试?

3.如何成为一名CDA数据分析师?

4.人大经济论坛CDA优势

六、数据分析师行业发展前景

1.优势、劣势

2.展望

七、数据分析师行业对《促进大数据发展行动纲要》的响应

1.知识分享氛围的培养

2.人才培养体系的建立

3.从业人员自律文化的形成

八、附录

附录1. 经管之家(原人大经济论坛)发展历程

附录2. 国内重要大数据相关政策行动梳理

一、是技术也是艺术——CDA 研究院和业界前沿公司对数据分析的认识

数据是指以时间为轴,记录人物、地点、事件和方法等生活各个维度的数字字符。数据会随着时间不断累积,也会随着科技、生活观念等变化而呈现出不同的特性。消费者去商场用现金支付的方式购买了一件心仪的衣服,商店的日销售报告中记录了此次交易的金额、数量、款式和型号。当消费者采用的是刷卡的支付方式时,银行的日流水单以及商店的 Pose 机刷卡记录就产生了一笔时时交易数据。如果该消费者还是这家商店的会员,那么该商店就拥有了该消费者部分基本信息以及多次购买产品的交易记录。 随着互联网、自动化科技的发展, 消费者更多的参与了 线上交易,那么线上交易平台会产生消费者常用地址、联系方式、 偏好产品、产品型号、消费额度和消费频率等全面而及时地消费数据。

在传统的商业和社会环境下,人们对于数据的利用是非常有限的。企业和商家们利用自身的营销数据汇编成财务报告、信息披露报告,用来为管理层或者潜在投资者?供企业经营状况的参考资料。政府各个机构拥有的人口、宏观指标、地区发展、部门业务发展等各方面的数据为定期政府报告等特定事项提供数据服务。数据成为我们衡量过去发展状况和业绩水平的一种度量衡。 传统意义上对于数据利用存在的缺失是不可忽视的。

首先,传统意义上对于数据的利用形成了无数个数据孤岛。宏观数据、调研数据、社会化数据和企业数据之间存在数据孤岛,而政府内部和企业内部同样存在数据孤岛。 各个政府部门、甚至每个政府部门内部都有自身因专门的业务内容而产生专项数据,但是这些专项数据仅仅在服从专项需求时才被局部调用。企业内部也是这样,除了必要的信息披露之外,企业各部门之间的数据也是缺乏协同和共享机制的。数据孤岛的存在比我们想象得还要多而广泛,也极大地降低了对数据的利用。

其次,传统数据存在缺失和错误的比率较大。商务系统和互联网尚未发展的情况下,企业和社会运营的数据很多是通过人工的方式进行记录的,因此就很容易存在数据缺失和数据失实的情况。更重要的是,很多数据的产生需要大量的人力、物力去完成,在不可估量商业价值的情况下,数据的累积往往具有很强的延时性。

再次,数据的价值被低估, 缺乏专业的数据分析人员对数据的商业和社会价值进行分析。我们会发现,传统意义上的数据管理是基于某些特定的目的和需求,例如定期的信息披露,盈余管理和预测等。但是这些目的和需求都不是为了能够创造价值而设立的,更多的是一种业务和管理层面的辅助。在缺乏商业利益动机的前提下,也就没有专业数据分析师存在的必要。

近两年国内 市场对数据分析师职位的需求逐步涌现。 根据猎聘网数据显示,全国中高端职位中数据分析师职位由 2014 年初的 200 多个职位逐步增长到接近 3000 个职位,数据分析师职位无论从绝对数到相对数量而言都出现了快速增长的态势。就地区发展而言,数据分析师职位主要分布在北京、上海、杭州、深圳和广州的一线城市,二线城市目前对于数据分析师的需求相对滞后。分析师职位主要集中在互联网、金融、消费品、制药和医疗等行业,其中互联网和金融行业的分析师职位数超过了 80%。 目前数据分析师的薪酬水平高于行业平均水平,体现出数据分析师以及数据的价值正在逐渐被市场所认可。

数据分析师职位的大量涌现和对数据分析师市场价值的认可主要是基于数据分析3.0时代的到来。1954-2005年,电脑设备广泛应用,数据库的初步形成;2005-2013年,互联网蓬勃发展,互联网公司为了解决自身数据量较大、数据复杂的问题引入了解决数据问题的分析工具;2013 年至今, 传统行业开始引入互联网行业中运用的数据分析方法,数据分析3.0时代开启。2013年至今,数据相关企业迅速发展,包括为数据?供分析、服务、软件和硬件相关的商业化和开源公司。鉴于互联网行业对于大数据分析成功的经验,市场开始重视数据和数据分析对创造商业价值的重大潜力。

大数据时代我们拥有的数据是足够大的。在互联网的世界里,每分钟 Facebook平均有600次的访问量,并有新增用户28万;Amazon 每分钟销售高达8.3万美元;全球 IP 网一分钟能够传输639TB的数据;你需要花费5年的时间才能看完互联网上一秒钟传输的视频。同时,大数据时代的数据开始逐步走向多元化的趋势。 数据来源包括移动数据、店面交易、网络行为、定位信息、电商、用户调查、社会网络以及企业CRM 等。大数据时代可视化趋势明显,开始重视展示数据的在线动态模式以及分布形态。 数据可视化是一种新的数据分析手段、一种叙事手段,并且包含了思考和批判的思维。通过数据可视化的方式,我们能够探查数据之间的关联。随着技术的发展,可视化将推动数据时时动态,以及自动化更新和发布的发展。

但是无论数据的形态和体量发生了何种变化,缺乏数据分析的数据本身是不具备商业价值的。数据分析能够为大数据时代带来质的飞跃。SAS 公司将数据分析分为了八个等级,分别是常规报表、查询、多维分析、警报、统计分析、预报、预测建模和优化。常规报表、查询、多维分析、警报,这数据分析的前四个等级都只能展示已经发生的历史状况,但是数据分析不仅仅如此。 统计分析能够帮助我们找到触发事件发生的相关因素、 确认最为有效的潜在交易方案。 预报可以告诉我们未来股市预期变动或者是企业未来盈利水平预期。 预测建模可以帮助金融机构预测新的金融产品的潜在客户。 运筹优化能够帮助企业在限定的条件下把握最优的业务机会。

数据分析的核心思路就是要与实际业务、商业目的和运营目标相结合,进而为社会、经济和个体创造价值。 数据分析与业务流程相结合可以体现为五个基本步骤,包括认知、运营、交互、销售和维护。商业运营要与数据分析的关键指标紧密联系,用数据提高产品市场营销效率和推广效率。大数据的维护和累积能够为商业运营描绘完整的企业画像、客户画像。大数据画像包括了了解企业或者客户的基本信息、需求倾向、用户行为等等。通过追踪核心的数据指标,进一步完善企业或者客户画像,进而将其转化成为产品元素和营销战略。通过数据分析,我们可以知道通过什么渠道、以最小的成本将竞争对手的客户 转化为自身的客户, 进而创造营业收益。 通过大数据与运营维护的结合可以很大程度上提高客户满意度,降低客户的流失率。

目前数据分析实践的运用主要体现在物联网、定位服务、客户制成以及反欺诈领域。首先是物联网领域。以 UPS 为例, UPS 每天通过 5 万台快递车派送约 1630 万个包括。 UPS 在每台快递车上都安装了传感器,并且通过传感器传输数据分析,制定每天每台车少跑一英里的运营战略,该战略为 UPS 每年实现了约 3000 完美元的盈利。其次是定位服务。以美洲银行为例,美洲银行为其客户?供汉堡王的优惠券。该优惠券以美洲银行客户刷卡记录数据为基础,判断汉堡王潜在竞争对手的客户,并对这些客户进行了定向、定位的优惠券推送。该项营销战略既维护了美洲银行客户,也为汉堡王实现了创收。再次是客户支撑。通过文本挖掘、自然语言处理、情感分析等手段,对客户评论、客户投诉、海外舆情、媒体报道数据进行分类处理, 进而充分掌握客户潜在的需求,达到及时有效维护客户的商业目的。最后是反欺诈领域。最典型的例子就是保险公司骗保。我们都过神经网络分析等多元的数据分析方法及时识别和判断已有的欺诈模式和潜在的欺诈人群,进而有效的进行客户管理,确保企业运营和效益。

在传统的数据分析模式下,我们通常是先提出假设检验,后带着问题去进行数据分析。在大数据时代下,我们更重要的是关注小数据完善和收集的同时,构建完善的数据交互平台。在先有数据的基础上,在数据中找寻新的思路和创新机遇,进而实现价值的飞跃。在数据爆炸和新媒体时代的背景下, 文字、图片、 视频、 网络数据等新兴的数据模式使得我们需要掌握和运用全新的数据处理方式。 同时, 我们还需要对数据进行生命周期的管理, 对非结构数据进行筛选和标签化。数据分析看重的是数据的多元性和数据的质量,我们需要构建起大数据谱系, 同时结合数据的特性采用不同的数据分析方法、分析工具和分析模型。因此,数据分析需要较为综合的思维和能力。

综上可知,数据分析是一门技术也是一门艺术,数据分析起源于生活,也为生活创造着新的价值。 从事数据分析师需要累计多元化的知识和素质,包括统计学、机器学习、工程、可视化、深刻行业知识、强数据库能力,炼精炼信息的能力、运筹学等。数据分析师还需要具备怀疑态度以及创造能力,才能将数据的技术和艺术相结合,使得数据分析能够业务相结合,更加贴近我们的生活。 多元化的学识背景以及对于生活的感知能够造就一名优秀的数据分析师。 大数据时代已经来临,数据分析行业的急速扩展必然给数据分析师们带来广阔的发展空间。数据分析师是一门需要掌握多元数据分析技术,是拥有生活感知、经济分析能力的高端人才就业岗位。

目前,数据分析师行业仍然处于发展的初期阶段,也就存在着发展初期必然有的一些问题。数据分析整体的发展区域集中在几个少数的一线城市,发展和就业机会相对还是比较有限的。数据孤岛仍然在很大程度上未被消除,需要政府和政策上进一步对此进行扶持和推动。数据分析全自动化流程尚未形成,半自动化的数据环境下,数据分析还是存在时间延迟和残缺等一系列的问题。 上述几个方面都需要政府相关部门、行业领军人物以及数据分析浪潮的每个参与者共同努力。

二、 数据分析师职业发展历程

数据分析师,是指在互联网、金融、电信、医疗、旅游、零售等多个行业专门从事数据的采集、清洗、处理、分析,能够利用统计数 据、定量分析和信息建模等技术制作业务报告、进行行业研究、评估和预测,从而为企业或所在部门提供商业决策的新型数据分析人才。

1. 国外数据分析行业发展历程

2015 年 2 月 ,美国白宫正式命名DJ Patil担任首席数据科学家和制定数据策略的副首席技术官。 DJ Patil曾在LinkedIn、 eBay、 PayPal、 Skype和风险投资公司Greylock Partners等诸多硅谷知名公司工作过,积累了丰富的经验,在上任之后将会扮演负责政府大数据应用开发专家的角色,尤其是针对奥巴马的医疗改革方案。美国政府正在用实际行动告诉全世界, 其已经意识到要充分利用其他们的数据。

IDC(互联网数据中心)预测,目前每年数据的生产量是8ZB,2020 年将达到40ZB。属于大数据的时代已经到来。

1

图 1. 全球数据年产量

数据生产量“ 拐点” 已至,将开始爆发式增长。我们正处在一个数据量爆发增长的时代,当今的信息产业呈现出前所未有的繁荣,新的互联网技术不断涌现,从传统互联网的PC终端,到移动互联网的智能手机,再到物联网传感器,技术革新使数据生产能力呈指数级提升。

在欧美日等发达国家,数据分析行业不仅仅在企业的运营管理中起到举足轻重的作用,也在政府的社会治理等方面发挥着重要作用。2012年的美国总统的大选中,奥巴马就利用数据分析武器,来了解不同选民的需求,设计并策划合理有效的“自我营销”亊件,最终在选举中击败劲敌罗姆尼赢得违任,此案已经传为“数据分析”致胜的佳话。

数据分析行业在发达国家,不仅仅在企业中有大量的从业人员,并且发展出很多具有规模的专业性服务机构。这些专业的服务机构有的来源于信息技术公司,如 IBM、惠普、微软;有的则来自数据库软件公司,如甲骨文;更有的来自传统行业如亚马逊、沃尔玛;当然也有一些新兴的专业咨询企业,在投资公司和私募基金的资金支持下,获得飞速的发展,如: Mu Sigma, TeraData 等。其中美国有近万家专门从事数据分析的服务公司,年营业额达到几千亿美元,英国有三千多家,日本有一千多家,瑞典也有五百多家有影响的数据分析服务公司。

从数据分析师职业来看,数据分析行业在国外从业人群众多。在美国,几乎所有大中型企业里都有专业的数据分析人才从事相关的数据分析工作,数量有数百万之多,日本有十五万多,瑞典也有十万多名数据分析专业技术人员。数据分析高端人才的需求这几年仍在迅速扩张和增加,数据分析人才的供应量远远赶不上需求量,缺口很大。

IDC(互联网数据中心)发布预测报告称,2017年大数据技术和服务市场将增至324 亿美元,实现 27%的年复合增长率。此外还预测基于大数据的决策解决方案将开始取代或影响知识工作者角色,这势必引发人才转型。

2. 国内数据分析师职业发展

数据分析行业在国外历史已久,伴随着互联网技术、信息技术、通信技术的发展,目前已经非常成熟,并远远领先国内的发展水平,据估计,这一差距至少要有5-10年。

自改革开放以来,随着国内经济的快速发展以及在各大行业与国际接轨的步伐不断扩大,国内的数据分析行业从 2003 年开始觉醒和渐热,如今已经过 12 年的发展。这期间数据科学相关职业从少到多、认证协会从无到有、数据分析挖掘工作从模糊到清晰。如今,中国的数据分析行业经过十多年的磨砺,正迎来辉煌灿烂的井喷式发展期。

2004 年至 2006 年是数据分析行业的起步阶段;从 2006 年到 2010 年,数据分析行业已经全面成型,相关的培养方案和课程体系进一步完善,全国性行业协会的申请工作正式开展。我国数据分析师人数从零起步,猛增至近万人。数据人才的分布领域也从最初的分析评估业和金融业,迅速扩展到会计师、投融资机构、政府审批和企业管理等众多领域,涉及的行业从银行保险等金融行业到分析服务业、制药业、石油和天燃气行业以及 IT 行业,数据分析师迅速成为国内炙手可热的职业之一。

2011 年,“云计算”的概念风靡世界,并开始在全国推广,国内一些大型互联网公司如阿里巴巴等建成了一大批以“云计算技术”和“云存储技术”为概念的“云计算中心”,并投资开发多个开发区。这为数据采集后的存储、处理、传输和分析提供了基础。数据分析师职业有了更加具体的应用方向。

自2012年开始,“大数据”一词横空出世,国外的一些行业领导者开始提出“大数据时代”的概念。“大数据”一开始就不止步于理论,它对大量和复杂数据的处理,在技术上提出了新的拓展思路和方向。随着互联网技术的提速、第四代移动互联网的广泛应用、社交媒体的移动化,各行各业在数据的内容、结构、复杂程度和数量方面都呈现出几何倍增的特征。很多企业的数据分析师对如何更好地利用海量数据为政府管理、企业运营等决策提供了科学的依据。这也为“数据分析师”这一职业的快速发展开拓了巨大的空间。 CSDN 的一项调查报告指出,国内的大数据应用目前多集中在互联网领域,并且有超过 56%的企业在筹备和发展大数据研究。未来5年,94%的公司都需要数据分析专业人才。

埃森哲一项分析报告曾指出,数据分析人才价值倍增的原因在于业务分析法已经从企业的辅助角色跃升至核心地位,并能够帮助企业制定许多重要的决策和流程。对处于这一发展趋势最前沿的互联网行业而言,分析法已经成为一项企业战略性能力。即便是在分析法仍处于起步阶段的电子和高科技等行业,分析人才也是企业未来高速发展的关键所在。在报告中,在所调查的包括分析服务业、银行业、石油天然气行业、通信技术行业等七大传统行业内,新增的数据分析就业机会在中国的发展速度仅次于美国,在2015年将增加30500人, 74%的新增数据分析专家工作将会出现在中国、印度和巴西;尽管美国提供供了最多的数据分析就业机会,但是,中国、印度和巴西的数据分析职业发展速度更快,并且只需要短短十年,中国和印度就将在这些行业中雇用近一半的数据分析人才。

2

图 2. 数据分析相关人才职位数调查预测

不难看出,美国提供了最多的数据分析相关人才就业机会,但是中国、印度和巴西的相关职位发展速度更快。

如今,我们已经进入了企业发展日新月异的“互联网+”时代—一个用数据说话的时代,也是一个依靠数据竞争的时代。目前在世界 500 强企业中,有 90%以上都建立了数据分析部门。 IBM、微软、 Google 等知名巨头公司都在积极投资数据业务、建立数据部门、培养数据分析团队。各国政府和越来越多的企业意识到数据和信息已经成为企业的智力资产和资源,数据的分析和处理能力正在成为企业日益倚重的技术手段。我国在互联网行业热钱涌动的又一波浪潮下,对数据分析方面人才的需求更加迫切,培养力度更是空前。

三、 数据分析师人才行业现状

1. 人才模型/岗位划分

在国内,大数据的应用才刚刚发芽,人才市场还不那么成熟。很多公司根据已有的资源和短板,招聘能和现在团队互补的人才。有的强调统计学知识,有的突出数据库操作,有的要求算法编程经验,有的则要求有咨询公司或者投资银行相关的经验,所以“职称”众多,诸如数据分析师、数据挖掘工程师、大数据分析师、数据工程师等。

针对 SAS、 Tableau、 钱方银通、民生银行、和堂科技、星图数据等公司 的调研,我们了解到:一些大的互联网、金融等公司,及专门的数据公司均设有数据部门,

部门拥有完整的数据采集、数据存储、数据分析挖掘、数据可视化等整套体系。而一般的企业多数只需要数据分析师,提供决策辅助和咨询。所以,繁多的“职称”背后,万变不离其宗的是数据相关职位的职能,按照职能我们可以分为四类,对应的专业和职责如表 1 所示:

职业 专业要求 岗位主要职责
[1].数据分析师 统计学,数学,计算机,信息管理 运用工具,提取、分析、呈现数据,实现数据的商业意义
[2].数据挖掘工程师 计算机,数学,统计学 机器学习,算法实现
[3].数据工程师 计算机,数学,统计学 开发运用简单数据工具,实现数据建模等功能,对业务有较好理解
[4].数据科学家 计算机,数学,统计学 高级算法设计与优化,数据相关系统设计与优化,对行业有较深的理解

表 1. 数据分析相关人才职位表

1.1 数据分析师相关职位:

首先,来看下数据分析师的情况。这个职位的主要技能是[1](数据分析) ,附带[2](数据挖掘) ,有少量的[3](运用已有工具建模) 的需求。因为企业对这个职位的要求是作为业务部门的参考与辅助,因此希望是多面手。“职位”包括数据分析专员 /分析师、数据运营主管等

数据分析师招聘要求样本如下:

样本一(美团网) :

招聘岗位:数据分析专员

工作经验: 1-3 年

月薪范围:¥6000-8000

学历要求:本科及以上

岗位职责:负责移动平台产品的日常数据统计、整理,为产品运营?供日常数据支持;负责移动平台产品数据分析,定期完成日、周、月、季报等数据报告工作;负责产品数据分析与数据挖掘的分析体系的构建;负责用户调研、及用户行为分析等数据商业价值挖掘工作;负责数据统计平台的维护、优化、升级

岗位要求:本科及以上学历,统计学、应用数学相关专业优先考虑;一年以上互联网数据分析经验(移动互联网优先);具备一定的文档能力,能够独立完成数据分析报告的撰写;具有一定的数据挖掘、数据建模能力,能够熟练使用统计工具软件者优先;熟练使用 Excel、 PPT 以及相关办公软件

样本二(京东金融):

招聘岗位:数据分析师

工作经验: 3-5 年

月薪范围:¥15000-30000

学历要求:本科及以上

岗位职责:分析与设计业务风险控制规则,建立风险识别、监控与预警机制;建立风险监测指标体系,对业务线进行日常监测与运营分析,提供运营分析报告;对可疑交易/账户进行预警分析与问题定位,提供有价值的结果,提高运营有效性;建设业务相关的数据库表,并能固化到指定的数据库中,提高查询效率;建立针对欺诈行为的风险管理策略,构建欺诈行为识别与侦测机制;将研究成果转化成风控规则并跟进落实,协调产品、研发、运营团队,推动风控规则与风险模型的实施。最终部署在控制决策系统中;其他工作,参与完成各类分析报告、报表等其他指定的工作

岗位要求:本科及以上学历,数学、统计、计量经济学、金融等相关专业优先; 3年以上相关工作岗位经验,具有支付机构、金融机构、风险管理相关经验者优先;能够熟练使用 Hive、 SQL、 R、 SAS、 SPSS 及其他数据查询统计软件者优先;曾经参与过完整的数据采集、整理、分析工作;具有一定的交易风险规则设计、风险模型开发经验;精通 Excel、 PPT、 WORD 等办公软件;具备较强的数据分析能力、逻辑思维能力、对内外组织沟通能力、执行能力和团队精神;有诚信、愿意分享和承担责任,勇于探索与坚持创新。

1.2 数据挖掘相关职位:

数据挖掘相关岗位更多的分布在一线城市互联网、 金融行业,合格的数据挖掘工程师通常需要有 3 年以上工作经验,主要技能为[2](数据挖掘) ,有少量的[3](运用已有工具建模) 。

相关招聘要求样本如下:

样本一(人人车):

招聘岗位:数据挖掘

工作经验: 1-3 年

月薪范围:¥15000-30000

学历要求:本科及以上

岗位职责:负责人人车数据挖掘的算法改进及策略研发;通过数据挖掘、机器学习等方法,深刻理解数据本质,进行核心策略的研究及开发;参与和负责数据仓库基础设施和平台的搭建、开发及维护工作;优化数据存储和计算平台,确保数据平台的可靠运行

岗位要求:具有较强分析问题和解决问题能力、良好的团队合作意识、沟通能力;熟练掌握数据挖掘、机器学习相关算法及工具;熟练使用 Linux 系统,具有非常扎实的数据结构和算法基础,至少会写一门脚本语言;有文本分析、自然语言处理或者大数据分析工作经验优先

样本二(百度):

招聘岗位:数据挖掘

工作经验: 3-5 年

月薪范围:¥20000-40000

学历要求:硕士及以上

岗位职责:针对百度知识系产品,开展数据挖掘、文本分析、用户行为建模等工作;深化用户与内容分类,属性挖掘以及体系建设;整体?高产品的用户体验;跟进业界相关技术进展并进行策略技术到产品的落地

岗位要求:计算机或相关专业硕士以上学历;良好的逻辑思维能力,能够从海量数据中发现有价值的规律;良好的团队合作精神,敢于接受挑战;精通C\C++,PHP,PYTHON 等至少一门常用语言,对数据结构和算法设计有较为深刻的理解;熟悉大规模数据挖掘、机器学习、自然语言处理、分布式计算等相关技术,并具备实际工作经验;具有互联网公司内容挖掘、推荐、检索相关工作经验者优先

1.3 数据工程师相关职位:

数据工程师的相关职位名称相对较多一些。但是总结起来,都是在已有平台和工具的基础上实现开发和运用。大部分我们见到的“数据**师”其实都归属此类。技能要求为[3](运用已有工具建模) ,其次是[1](数据分析) 和[2](数据挖掘) 。以最常见的职称——数据工程师为例。

相关招聘要求样本如下:

样本一(广发证券):

招聘岗位:数据开发工程师

工作经验: 3-5 年

1月薪范围:¥20000-30000

学历要求:本科及以上

岗位职责:对公司的基础数据层进行规划、梳理、优化与扩展性开发,范围涵盖所有业务数据;公司内外数据的汇集开发、基础数据层的持续开发与完善;各类业务项目的数据支撑开发、各类数据集市的开发。

岗位要求:计算机、应用数学、数据科学等相关专业;有大型数据仓库的规划/开发/分析经验,熟悉金融数据体系架构,有丰富的数据建模实践经验;技术上精通关系数据理论、深刻掌握 SQL 及相关技术,对企业数据模型有深刻的认知和理解;至少掌握: Java、 Python、 Perl 等一门编程语言;能够积极创新, 乐于面对挑战, 勇于承担工作压力;优秀的团队合作精神;诚实, 勤奋, 严谨,敬业。

样本二(人人车):

招聘岗位:数据开发工程师

工作经验: 5-10 年

月薪范围:¥20000-30000

学历要求:本科及以上

岗位职责:负责业务数据分析和数据模型设计,设计实现关系型数据库、数据仓库、实时数据库、内存数据库、分布式数据库和分布式文件系统等存储方案,构造最优的数据库模式,负责设计、评估及审核,主导开发和实施;与业务方沟通,用数据支持业务,改善运营

岗位要求:超过 5 年以上的数据模型分析设计、数据仓库建设和数据集成经验;熟悉大型互联网产品的架构,对大数据量的互联网产品有丰富经验,熟悉大规模数据处理的机制和框架;强 coding 能力;强工程实践经验;熟悉 MySQL 等关系数据库。

1.4 数据科学家相关职位:

最后我们来看看数据科学家,这是整个数据产业上的顶端职位。这个职位,要求是[4] (软件工程技能在多数统计学家之上;高级算法设计与优化;数据相关系统设计与优化;需要有垂直行业经验) 。既要懂行业,又要技术资历(最少 3 年,一般 5-10年),该职位相对上述三种职位来说需求量相对较小,但是空缺量巨大。

企业的招聘要求样本如下:

样本一(某知名电商):

招聘岗位:数据科学家

工作经验: 5 年以上

年薪范围:¥500000-700000

学历要求:博士

岗位职责: 规划和管理全公司数据使用,指导数据工程师构建数据仓库、分析流程和应用。基于分布式计算系统,处理和分析 PB 级别移动互联网数据; 应用统计建模和机器学习方法建立模型解决实际问题; 与业务部门沟通合作,将数据模型应用于实际业务; 支持数据的对外发布和合作

岗位要求: 2 年以上数据相关工作经验 ; 热爱数据工作,相信数据的价值; 扎实的计算机和数学背景,有机器学习基础优先; 具有较好的商业敏感度,深入理解数据处理过程和业务场景; 熟练掌握至少一门编程语言,具备分布式计算系统( Hadoop/Spark)开发经验 ; 擅长与商业伙伴的交流沟通,具有优秀的跨部门协调和沟通能力; 优秀的合作精神和团队管理能力

样本二(某大型互联网金融公司):

招聘岗位:数据科学家

工作经验: 5 年以上

年薪范围:¥600000-900000

学历要求:硕士及以上

岗位职责: 根据具体业务和产品对数据模型进行统一分析和规划; 深入理解产品业务的方向和战略,通过数据分析、 挖掘,为产品和运营?供决策支持; 应用统计建模和机器学习方法建立模型解决实际问题; 与业务部门沟通合作,将数据模型应用于实际业务; 指导数据工程师、分析流程和应用

岗位要求: 研究生以上学历; 扎实的计算机和机器学习背景; 熟练掌握 Python或 Java 等语言; 具有商业敏感度; 深入理解数据处理过程和业务场景; 5 年以上工作经验

综上所述,数据相关的职位,指向的是数据采集、数据分析、数据挖掘、数据结构四大技能,即使初级职位,要求也是一专多能。高级职位则要求每个模块都有理解,对统计、编程、行业理解都要求很高。对分布式系统原理有较深的理解,理解数据库相关理论及操作;有数据分析和挖掘经验者优先,有在互联网公司或海量数据处理工作经验,有系统开发经验者优先。

2. 国内数据分析师人才薪资水平

2.1 不同岗位薪资水平比较

从上面的人才结构中,我们大体可以看出数据科学相关人才的薪资待遇平均水平对于其他行来说是较高的。下面我们根据过去几年的统计观察, 得到不同岗位的薪资水平, 如下:

3

图 3. 不同岗位薪资

上图显示,在全国范围内 ,数据分析师的平均薪资大约为8100元,数据挖掘工程师的平均薪资为13900元,数据工程师的平均薪资为13700元,而数据科学家的平均薪资为42000元。

智联招聘在 2015 年春季发布的《2015 年春季中国雇主需求与白领人才供给报告》中列出了2015年春季求职期十大高薪职业, 其中前三名分别是高级管理、 IT管理/项目协调、证券/期货/投资管理/服务,对应薪资分别为13555元、 9450元、 8085元。由此可见,数据分析师岗位的平均薪资排在十大高薪职位里面的上游水平。未来10年,互联网将在中国 GDP 增长总量中贡献 7%到 22%,而移动设备、云计算、自带设备办公、 SNS、大数据将推动整个行业。大数据分析和预测技术人才备受追捧,云计算、可穿戴设备领域人才需求变热。不仅仅是薪水, 互联网企业员工持股计划提速,更多企业强化长期激励及个性化的福利,而传统 IT 领域相对式微。

与此同时, 薪资水平随时间的变化如下图:

4

图 4. 数据相关岗位薪资变化

可以看出, 近几年数据相关岗位平均薪资的变化。不难看出,2012 年之前,数据相关岗位平均薪资较低,在 6800-8500 之间, 而且每年增长幅度不大。2012年,维克托迈尔舍恩伯的书籍《大数据时代》一书的出版, 标志大数据时代的到来,大数据的概念也是从2012年开始火热起来, 更多企业开始意识到数据分析对于企业决策的重要性, 企业对于相关人才需求增加,相应的薪资待遇也逐年增加, 且增加幅度相对之前几年较高。

2.2 薪资水平的不同维度比较

2.2.1 薪资水平与工作经验的关系

O’Reilly Media 公司在报告《2014 Data Science Salary Survey》 中指处,根据他们的模型预测,数据相关职位每积累一年的工作经验,年薪将会增加1400美元左右;对于数据分析师和数据工程师而言, 即使没有技术等方面的改变,该模型预计他们每年的工资也会增加 2500 美元左右。

在国内 ,数据相关职位薪资亦会随工作年限的关系,如下图:

5

图 5. 数据相关职位月薪与工作经验关系

数据相关职位会随着工作年限的增加而增加,而且工作经验越丰富,在进入下一阶段时的薪资涨幅越大。数据分析专员 一般要求1-3年工作经验,数据分析师、 数据挖掘工程师及数据工程师一般要求3年以上工作经验,而数据科学家则要求5年以上经验。

2.2.2 不同应用工具的价值体现

事实上,不止现在数据工程师需求缺口严重,根据国外的情况,未来这块仍有很大缺口 。美国人才招聘市场的数据分析领先者 Wanted Analytics 最近的报告指出,过去几年大数据相关工作岗位上需求增长最快的三项技能分别是:Python, Linux 和SQL。

反观国内 ,根据我们做过的一项调查了解到,在数据科学相关工具(包括但不限于: 统计学软件、编程语言、 BI 商业应用、 数据库、大数据平台、可视化软件、 操作系统)中,使用率最高的 10 种工具是 Windows、 SQL、 Excel、 SPSS、 SAS、 Python、 R、Linux、 Java、 Hadoop。

然而,薪资最高的 5 种工具中, 有四种是大数据相关平台,分别是 Hbase、 Spark、Pig、 Hadoop,这四种平台使用者的平均月薪在 13500 元以上; 我们分析,大数据从业者作为数据科学领域的前沿实践者, 在数据科学领域拥有较强的知识基础、经验与能力,通过不断的学习来?高自己的技术水平,走在领域的前沿,所以相应的也会获得一份较高的薪水;而 R 软件由于经常用于数据挖掘工作, 所以所对应的使用者的平均薪资也是较高,平均在 10000 元以上。

6

图 6. 从业者薪资与使用工具的关系

3. 国内数据分析师人才分布

易观智库在针对大数据市场行业的一项研究报告显示,2014年中国大数据市场行业投资结构中,金融、通信、零售为前三大行业,投资占比分别为 16.0%、 15.6%和 13.9%。

政府、医疗、旅游投资比例分别为 12.7%、 9.0%和 4.1%。六大行业占比 71.3%。其他行业包括教育、制造、能源、媒体、互联网等,累计占比 28.7%。

7

图 7.2014 年中国大数据市场行业应收结构

不过,数据科学相关工作岗位集中分布在金融、互联网、通信三大行业,三大行业提供了近 60%的岗位。尤其是金融和互联网行业, 前者银行、互联网金融类公司对于数据科学相关岗位的需求最多;而后者则由于积累了大量数据,更多价值信息等待挖掘,所以对于数据科学相关人才有很大的需求,对应的人才分布相对较多。

在已统计的数据相关企业中,北京、上海、广东( 主要是深圳) 和浙江( 主要是杭州) 的占比达 92%,其中北京处于遥遥领先的地位,全国占比接近 60%;在北京的大数据企业或产品中,海淀区又占有绝对的优势地位,占北京大数据企业的 63%,在全国来看占比在三分之一左右。

8

图 8. 大数据企业地区分布

包括百度、阿里巴巴、腾讯在内的很多互联网公司及数据相关企业分布在北京、上海、 深圳、 杭州等地, 在很大层面上决定这些省份城市的数据相关人才分布较为集中。

4. 国内数据分析师人才需求

埃森哲的之前的一份报告预测, 2010 年至 2015 年,在发展中国家,分析类专业服务和制药业将创造出最多的数据科学相关就业机会。而在发达经济体中,保险和银行业提供最多的数据科学相关职位。

9

图 9.2010-2015 年新增数据科学相关就业机会在调查所覆盖各国的分布情况

(注: 黄色的单元格代表了 每个国家新增数据科学相关职位占比最高的行业)

目前看来,在未来五年,互联网、金融及医疗行业将会创造大多数的数据科学相关职位。互联网行业将积累大量的数据,传统金融行业转型面临巨大的数据科学相关职位的缺口;对于医疗行业来说“ 3521 工程”,即建设国家级、省级和地市级三级卫生信息平台,加强公共卫生、医疗服务、新农合、基本药物制度、综合管理 5 项业务应用,建设健康档案和电子病历 2 个基础数据库和 1 个专用网络建设,当前全国有数十个个省份在搭建省级的信息化平台、 100 多个城市在不同程度上搭建市级平台,以及区域医疗建设和医联体等,都会积累大量的数据,而且未来利用大数据解决医疗问题是面临的急需解决的问题。

根据对阿里巴巴、星图数据、钱方银通、和堂金融等公司的访谈及调研,并根据这些数据做出的预测显示,到 2018 年,数据分析师的职位空缺将达到近40000人,而且各行各业均会对数据科学相关岗位产生很大的需求。

四、 数据分析师人才职业规划

1. 目前人才职业现状

目前国内企业招聘的数据分析师这一职业所要求的所有技能,包括统计知识、软件应用( SPSS/SAS/R 等)、数据挖掘、数据库、报告撰写、项目经验等。一名合格的数据分析师需要胜任企业不同层次的数据分析工作。

1.1 数据分析师职业发展方向

概括来说,数据分析师的发展方向主要有三个:政府机关、企业以及各类研究机构。

方向一:政府机关

主要有两类,第一类是计委、经委、国家及地方统计局等一些经济综合管理部门所设置的调研处和研究处。统计部门还分别成立了城市调查组与农村调查组,经常开展社会和市场调研工作,为政府的决策?供支持。第二类是商业、粮食、物资、银行等经济主管业务部门设置的信息中心或调研室,从本系统、本部门的业务出发进行专业性调研,提供支持本部门的市场信息。

方向二:企业

目前在通信、互联网、金融、 零售、旅游等这些行业每天都会产生巨大的数据量(长期更是积累了大量丰富的数据,比如客户交易数据等等)。据预测到 2020 年,全球每年产生的数据量将达到 3500 万亿 GB。随着软件工具、数据库技术、各种硬件设备的飞快发展,使得我们分析海量数据成为可能。而数据分析也越来越受到企业领导层的重视,借助报表告诉用户什么已经发生了,借助可视化工具等分析工具告诉用户为什么发生了,通过监控告诉用户现在在发生什么,通过预报告诉用户什么可能会发生。数据分析会从海量数据中?取、挖掘对业务发展有价值的、潜在的知识,找出趋势,为决策层的?供有力依据,为产品或服务发展方向起到积极作用,有力推动企业内部的科学化、信息化管理。很多大的企业像百度、 腾讯、联想、宝洁等都会有专门的数据分析职位。这些职位按分析层级分,有数据调查员、数据分析助理、数据分析专员、项目经理、研究主管、研究经理、研究总监等;按分析内容分,有投资分析、战略分析、媒介分析、信用分析、网站流量分析、财务分析、客户分析等。

方向三:研究机构

第三种方向是去专门的研究机构,比如市场研究公司、咨询公司、证券公司、投资公司、广告公司、研究院等等。

这些研究机构基本是专门以数据分析为业务,比较重视员工的专业素养的提高,往往会给员工提供参与项目和参加培训的机会。通过项目和培训,会高强度地强化从业者的能力,使对方能够在 2~3 年的时间里就掌握数据分析的基本流程、方法模型和工具操作, 比较知名的公司有埃森哲、毕马威、德勤等。

1.2 数据分析师职业生涯发展

1) 数据分析师职位体系:

10

图 10. 数据分析职位体系

2) 数据分析师职位层级:

层级 1:助理数据分析师

业务分析能力:

● 在一定的指导下准确识别问题

● 在一定的指导下完成分析规划

● 提取简单数据、了解分析方法

● 能够形成报告并传递分析结果

● 完成业务需求并?出建议

● 合理分配和安排,完成分析任务

分析方法要求:

● 数据预处理、检验和清洗

● 各种常用统计检验方法

● 描述述性统计分析

● 对比分析

● 简单的多元统计分析方法

● 数据库知识

层级 2:数据分析师

业务分析能力:

● 能够独立清晰地识别问题

● 明确范围并做好分析规划

● 熟练提取数据并应用分析方法

● 展现演示时条理清晰、逻辑清楚、表达明确

● 能够提出建议并推动建议被采纳

● 作为核心成员控制项目进度和质量

● 推动建议被采纳,跨团队沟通协调

分析方法要求:

● 除助理分析师要求掌握的分析方法之外,还需熟练掌握及应用结构分析、趋势分析、关联分析等

层级 3:资深数据分析师

业务分析能力:

● 发现问题并转化为分析目标

● 提炼问题并做好分析规划

● 熟练提取数据、指导员工分析数据

● 做演示时结论突出清晰,能够指导员工

● 能够提出有效建议,并且独立主动

● 能够领导跨部门项目、寻求资源

● 具备一定影响力和判断力

分析方法要求:

● 与数据分析师相比增加数据挖掘模型这一分析方法,例如:回归、聚类、因子分析、神经网络、时间序列、关联规则、决策树、 支持向量机等

层级 4:数据分析专家

业务分析能力:

● 识别问题并推动解决问题

● 提炼问题并做好分析规划

● 熟练推取数据并指导员工分析

● 做演示时结论突出清晰,能够指导员工

● 能够提出有效建议,并且独立主动

● 能够完成影响力大的复杂项目

● 具备较强的影响力和判断力

分析方法要求:

● 与资深数据分析师相同

层级 5:高级数据分析专家

业务分析能力:

● 思考数据的价值并规划推进

● 提炼问题并做好分析规划

● 熟练提取数据、指导员工分析

● 做演示时结论突出清晰,能够指导员工

● 能够提出有效建议,并且独立主动

● 能够独立主动完成影响大的复杂项目

● 在公司层面具有影响力

分析方法要求:

● 与资深数据分析师相同

层级 6:资深数据分析专家

业务能力要求:

● 提出对业务发展的前瞻性建议

● 提炼问题并做好分析规划

● 熟练提取数据、指导员工分析

● 做演示时结论突出清晰,能够指导员工

● 能够提出有效建议,并且独立主动

● 能够独立主动完成影响大的复杂项目

● 在专业领域有一定的影响力

分析方法要求:

● 与资深数据分析师相同

3) 数据分析师的级别:

① 数据跟踪员:机械拷贝看到的数据,处理数据较少

虽然这个工作的人还不能称作数据分析师,但是往往作这样工作的人还都自称是数据分析师,这样的人,只能通过企业应用的数据系统看到有限的数据,并且很少去处理数据,甚至不理解数据的由来和含义,只是机械地把自己看到的数据拷贝出来,转发给相应的人。这类人发出来的数据,是否有意义,怎么解读,他自己并不清楚。

② 数据查询员 /处理员:数据处理没问题,但缺乏数据解读能力

这些人可以称为分析师了,他们已经对数据有一定的理解了,对于大部分数据,他们也知道数据的定义,并且可以通过监控系统或者原始的数据,处理得到所需数据。他们精通统计学方法,对统计学的工具用起来也得心应手,能够胜任因子分析和聚类等问题,在各类检验的操作上可称炉火纯青。他们的不足在于:如果不告诉他们命题,那么他们就不知道该应用什么样的方法去得到结论。虽然对于数据的处理没问题,却没有很好的数据解读能力,只能在统计学的角度上解释数据。

③ 数据分析师:解读数据,定位问题?出答案

数据分析师这群人,对于数据的处理已经不是问题,他们的重点则转化到如何去解读数据。同样的数据,在不同人的眼中有不一致的内容。好的数据分析师,是能通过数据找到问题,准确地定位问题,同时准确地找到问题产生的原因,为下一步的改进找到机会点的人。往往科班出身的人,欠缺的不是在处理数据上,而是在解读数据上。至于将数据和产品结合到一起,则是其更缺少的能力了。

④ 数据应用师:将数据还原到产品中,为产品所用

“数据应用”这个词很少被?到。但是应用数据被?及的次数很多。分析大量数据之后,除了能找到问题以外,还有很多数据可以还原到产品中,为产品所用。典型的是在电子商务的网站中,用户的购买数据,查看数据和操作的记录,往往是为其推荐新商品的好起点,而数据应用师就是要通过自己的分析,给相应的产品人员一个应该推荐什么产品,购买的可能性会最大的一个结论。国内能做到这个级别的数据人员目前人数尚少,而真正意义上的能数据应用师,可以用数据让一个产品变得更加地简单高效。

⑤ 数据规划师:走在产品前面,让数据有新的价值方向

数据规划师在业务水平上不一定比数据应用师高很多,但却是另外一个让数据有价值的方向。因为在实际的应用中,数据往往是有其生命周期的,用来分析和应用的数据也是,这一点在互联网公司表现得尤为明显。一个 APP 版本的更新,可能导致之前的所有数据都在一定程度上失效。数据规划师能够在一个产品设计之前就已经分析到这个产品应该记录什么样的数据,这些数据能跟踪什么问题,哪些记录到的数据可以应用到 APP 中去,以及这些应用可以对产品产生什么样的价值。

2. 数据分析人才学习路径

2.1 大数据方向学习路径

1) 基础课程

● 大数据的 Java 基础

● 大数据的 Linux 基础

● 大数据的网络基础

● Python 网络程序开发

● 大数据的统计学基础

● 大数据的矩阵计算基础

● Scala 语言入门

● 大数据的 C++基础

● 深入 JVM 内核——原理、诊断与优化

● 深入理解 Linux 内核

2) 大数据平台架构方向

● 搜索引擎构建与爬虫技术

● 高并发大数据平台架构设计

3) Hadoop 方向

● Hadoop 数据分析平台

● Hadoop 应用开发实战案例

● Mahout 机器学习平台

● Hadoop 源代码导读

● Hive 数据仓库实践

4) Spark 方向

● Spark 大数据平台

● MLLIB 机器学习平台

5) NoSQL 方向

● 数据库引擎开发

● HBase 架构、管理与应用

● MongoDB 架构、管理与应用

● Neo4J 图数据库应用实践

● Redis 实战

● Nodejs+MongoDB 快速开发实战

6) 虚拟化方向

● Openstack 云系统

● Cloudstack 云系统

● 云桌面实战

7) 高性能计算方向

● CUDA 从入门到精通

● MPI 并行计算框架

8) 流数据实时分析方向

● Storm 数据实时分析平台

2.2 数据挖掘方向

数据挖掘的含义:

数据挖掘(Data Mining) 就是从大量数据中发现潜在规律、提取有用信息的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases, KDD) ,就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。

广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来,数据挖掘就是 BI(商业智能)。但从技术术语上说,数据挖掘(Data Mining) 特指的是:源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的?炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知识的过程。

数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测或支持决策。

数据挖掘的主要功能

1) 分类:按照分析对象的属性、特征,建立不同的组类来?述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。

2) 聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将保险申请人区分为高度风险申请者,中度风险申请者,低度风险申请者。

3) 关联规则和序列模式的发现:关联是某种事物发生时其他事物随之发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来?述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。

4) 预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展增速的判断。

5) 偏差的检测:对分析对象的少数的、极端的、特例的?述,以揭示其内在的原因。例如:在银行的 100 万笔交易中有 500 例欺诈行为,银行为了稳健经营,就要找出这 500 例欺诈行为的内在因素,减小以后的经营风险。

需要注意的是:数据挖掘的各项功能不是独立存在的,它们在数据挖掘中互相联系,共同发挥作用。

数据挖掘的方法及工具 :

作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,或者有复杂的数据结构、维数大。最后,数据挖掘是许多学科的交叉运用,它综合了统计学、计算机科学、数学等学科的技术。以下是常见和应用最广泛的算法和模型:

1) 传统统计方法:

① 抽样技术:通常在数据挖掘的过程中我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,因此需要在理论的指导下进行合理的抽样。

② 多元统计分析:如因子分析、聚类分析等。

③ 统计预测方法:如回归分析、时间序列分析等。

2) 可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中会运用许多?述统计的方法。可视化技术面对的一个难题是高维数据的可视化。

数据挖掘的具体流程

第一步:数据准备:( 70%时间)

● 获取数据(爬虫,数据仓库)

● 验证数据

● 数据清理(缺失值、孤立点、垃圾信息、规范化、重复记录、特殊值、合并数据集)

● 使用 python 进行文件读取 csv 或 txt 便于操作数据文件( I/O 和文件串的处理,逗号分隔)

● 抽样(大数据时。关键是随机)

● 存储和归档

第二步:数据观察(发现规律和隐藏的关联)

● 单一变量:点图、抖动图;直方图、核密度估计;累计分布函数

● 两个变量:散点图、 LOESS 平滑、残差分析、对数图、倾斜

● 多个变量:假色图、马赛克图、平行左边图

第三步:数据建模

● 推算和估算(均衡可行性和成本消耗)

● 缩放参数模型(缩放维度优化问题)

● 建立概率模型(二项、高斯、幂律、几何、泊松分布与已知模型对比)

第四步:数据挖掘

● 选择合适的机器学习算法(蒙特卡洛模拟,相似度计算,主成分分析)

● 大数据考虑用 Map/Reduce

● 得出结论,绘制最后图表

数据挖掘方向职业能力要求

1) 基本能力要求

数据挖掘人员需具备以下基本条件,才可以完成数据挖掘项目中的相关任务:

① 专业技能

● 硕士以上学历,数据挖掘、统计学、数据库相关专业,熟练掌握关系数据库技术,具有数据库系统开发经验

● 熟练掌握常用的数据挖掘算法

● 具备数理统计理论基础,并熟悉常用的统计工具软件

② 行业知识

● 具有相关的行业知识,或者能够很快熟悉相关的行业知识

③ 合作精神

● 具有良好的团队合作精神,能够主动和项目中其他成员紧密合作

④ 客户关系能力

● 具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对数据挖掘的误解和过高期望

● 具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力

2) 进阶能力要求

数据挖掘人员具备如下条件,可以?高数据挖掘项目的实施效率,缩短项目周期:

● 具有数据仓库项目实施经验,熟悉数据仓库技术及方法论

● 熟练掌握 SQL 语言,包括复杂查询、性能调优

● 熟练掌握 ETL 开发工具和技术

● 熟练掌握 Microsoft Office 软件,包括 Excel 和 PowerPoint 中的各种统计图形技术

● 善于将挖掘结果和客户的业务管理相结合,根据数据挖掘的成果向客户提供有价值的可行性操作方案

数据挖掘方向应用及就业领域:

当前数据挖掘的应用主要集中在电信(客户分析)、零售(销售预测)、农业(行业数据预测)、网络日志(网页定制)、银行(客户欺诈)、电力(客户呼叫)、生物(基因检测)、天体(星体分类)、石油化工、医药健康等行业领域。目前它能为企业解决的典型问题主要是:数据库营销 (Database Marketing) 、客户群体划分(Customer Segmentation & Classification) 、背景分析(Profile Analysis) 、交叉销售(Cross-selling) 等市场分析行为,以及客户流失性分析(Churn Analysis) 、客户信用记分(Credit Scoring) 、欺诈发现(Fraud Detection) 等等。数据挖掘已经在许多领域得到了成功的应用。例如,当你访问著名的亚马逊网上书店(www.amazon.com) 时,会发现当你选中一本书后,会出现相关的推荐书目“买了这本书的顾客也购买了其他的书” (Customers who bought this book also bought) ,这背后就是数据挖掘技术在发挥作用。

数据挖掘的对象是某一专业领域中积累的数据,其挖掘过程是一个人机交互、多次反复的过程,挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“ Business First, technique second”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售、财务、机械、制造、客户中心(call center) 等领域的工作经验,通过学习数据挖掘,可以提升个人职业层次,在不改变原行业的情况下,个人的职业发展可以从原来的事务型角色向分析型角色转变。从上世纪 90 年代末的初露头角到近十几年的广泛应用,以数据挖掘为核心的商业智能(BI) 已经成为 IT 行业及其它传统行业中的一个新宠。

2.3 业务决策方向

1) 数据为王,业务是核心

● 了解整个产业链的结构

● 制定业务的发展规划

● 确定用以衡量的核心指标

无论在哪个行业里,巨量的数据必须和业务分析相结合才能为企业带来收益。在应用数据分析进行业务决策时,首先需要摸清楚所在企业产业链的完整结构,以期对行业的上游及下游的经营情况有一个大致了解。然后根据当前的业务需要,制定处发展计划,再由此归类得出需要整理的数据。最后在进行业务分析时需要详细地列出数据核心指标(KPI) ,并且对几个核心指标进行更细致的拆解,同时要具体结合相应的业务属性来处理,从而找出那些对指标影响幅度较大的影响因子。另外,前期的资料收集工作以及业务现状的全面掌握也非常关键。

2) 思考指标现状,发现多维规律

● 熟悉产品框架,全面定义每个指标的运营现状

● 对比同行业指标,挖掘隐藏的提升空间

● 拆解关键指标,合理设置运营方法来观察效果

● 针对核心用户,单独进行产品用研与需求挖掘

在进行业务分析时,发现规律不一定需要很高深的编程方法,或者复杂的统计公式,更重要的是培养一种感觉和意识。不能用个人感觉去揣测用户的感觉,因为每个人的教育背景、生活环境都不一样。很多数据元素之间的关系没有明显的显示,需要运用直觉与观察,最终以数据可视化技术来呈现。

3) 规律验证,经验总结

在进行模型分析时,发现了某些规律之后不能立刻上线,需要在测试机上对模型进行验证。与此同时,数学建模能力对培养数感以及最后的业务决策也有一定的帮助。

3. 总结

数据科学相关人才不再局限于理工背景,一个完备的数据科学相关人才需要具备多领域的知识和经验, 包括一些跟数学相关的知识, 接下来是跟统计相关的,然后是跟编程相关的。 作分析的时候会用很多工具,这些工具都有一个基本的假设,当数据量大到一个程度,可以通过编程的方式来对数据进行处理, 当然处理完以后,接下来这个工作可以交给工具来做。但是有时候工具有一些局限性,这时候我们要看跟编程相关的能力, 所以如果不是计算机专业出身,也有必须学一下编程,将来才不会在某些领域知识感觉到困难。

另外, 大量套用工具和套用现成的软件,当发现有些问题是当今工具没有办法解决的时候, 懂得原始的算法显得尤为重要,它的基本原理是什么,为什么它没有办法解决这个问题, ……, 数据科学相关工作者可以改变原来的想法,想出一个新的办法,甚至设计新的算法。数据科学从业者经常在考虑如何解决目前工具没有办法解决的问题, 所以要有比较强的背景,因为没有一个算法是完美的。

还有, 数据科学相关人才需要具备文字勘探的技能, 大数据时代面对海量数据,数据可视化显得很重要。 工作中经常遇到的问题是常常产生一大堆报表,但是视觉化其实可以做的更好, 我们可以用一张报表去取代多张报表,这样会使工作效率和工作产出率大大提高。

五、 CDA 数据分析师培训及认证

经管之家(原人大经济论坛, 详见附录 1. )“数据分析培训中心”自 2006 年成立以来,致力于开展统计软件、数据分析和数据挖掘的培训与咨询服务,目前已有专家、讲师团队 100 多位,拥有自主版权的视频课程 100 多门,每年开设现场培训班 40余场,建立了完备的数据分析培训课程体系,每年培训学员 3000 多人。服务过的企业包括中国电子商务中心、招商银行、中国人民银行、中国邮政储蓄、中信银行、中国联通、中国移动、中国电信、艾瑞咨询、东芝医疗系统(中国)有限公司、携程旅行网、中国证券金融公司、北京铁路局代收款清算中心、南京梅钢等机构。这对国内数据分析师人才的培养和贡献毋庸置疑。

1. 考试简介

2013 年 7 月,经管之家(原人大经济论坛)联合大陆、台湾、美国等地学者、企业专家,在美国特拉华州推动成立“ CDA 注册数据分析师协会”,致力于行业研究和探讨数据分析人才培养标准,以满足企业对数据分析人才日益增长的需求,促进数据分析行业的高质量持续快速发展。 CDA 数据分析师等级标准来源于 CDA 协会成员长年从事数据分析教育与工作的经验和实践,对数据分析行业的研究,对数据分析教育的不断完善开发,从而总结出来的一套专业化,科学化,规范化,系统化的标准来认证什么样的人才是合格的 CDA 数据分析师。 CDA 数据分析师证书在国内需通过经管之家( 原人大经济论坛)举办的 CDA 等级认证考试后获得。此证书可作为企业事业单位选拔和聘用专业人才的任职参考依据。

1.1 CDA 等级认证考试

CDA Level Ⅰ: 业务数据分析师。专指政府、金融、电信、零售等行业前端业务人员;从事市场、管理、财务、供应、咨询等职位业务人员;非统计、计算机专业背景零基础入行和转行就业人员。 CDA Level Ⅰ业务数据分析师需要掌握概率论和统计理论基础,能够熟练运用 Excel、 SPSS、 SAS 等一门专业分析软件,有良好的商业理解能力,能够根据业务问题指标利用常用数据分析方法进行数据的处理与分析,并得出逻辑清晰的业务报告。

CDA Level Ⅱ: 建模分析师。两年以上数据分析岗位工作经验,或通过CDA Level Ⅰ认证半年以上。专指政府、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与数据挖掘的人员。在 Level Ⅰ的基础上更要求掌握多元统计、时间序列、数据挖掘等理论知识,掌握高级数据分析方法与数据挖掘算法,能够熟练运用 SPSS、 SAS、 Matlab、 R 等至少一门专业分析软件,熟悉适用 SQL 访问企业数据库,结合业务,能从海量数据?取相关信息,从不同维度进行建模分析,形成逻辑严密能够体现整体数据挖掘流程化的数据分析报告。

CDA Level Ⅱ: 大数据分析师。 两年以上数据分析岗位工作经验,或通过CDA Level Ⅰ认证半年以上。专指政府、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与云端大数据的人员。在 Level Ⅰ的基础上要求掌握 JAVA语言和 linux 操作系统知识,能够掌握运用 Hadoop、 Spark、 Storm 等至少一门专业大数据分析软件,从海量数据中提取相关信息,并能够结合 R、 python 等软件,形成严密的数据分析报告。

CDA Level Ⅲ: 数据分析专家。五年以上数据分析岗位工作经验,或通过二级认证半年以上。专指从事各行业、企业整体数据资产的整合、管理的专业人员,面向用户数据创造不同的产品与决策,一般指首席分析师( CA)。数据分析专家需要掌握CDA Level Ⅱ的所有理论及技术要求,还应了解计算机技术,软件开发技术,大数据分析架构及企业战略分析方法, 能带领团队完成不同主题数据的有效整合与管理。对行业、业务、技术有敏锐的洞察力和判断力,为企业发展提供全方面数据支持。

1.2 CDA 等级认证考试招生对象及报考条件:

专业不限,但拥有本科学历或相当的专业水准(工作经验)

Level Ⅰ: (满足以下之一皆可报名)

(1) 拥有本科及以上学历或在校本科大四学生

(2) 本科以下学历非学生需从事数据分析相关工作 1 年及以上

Level Ⅱ: (满足以下之一皆可报名)

(1) 获得 CDA Level Ⅰ认证半年以上

(2) 本科及以上学历并从事数据分析相关工作 2 年以上

(3) 本科以下学历需从事数据分析相关工作 3 年以上

Level Ⅲ: (满足以下之一皆可报名)

(1) 获得 CDA Level Ⅱ认证 1 年以上

(2) 本科及以上学历并从事数据分析相关工作 5 年以上

(3) 本科以下学历需从事数据分析相关工作 6 年以上

说明:上述数据分析相关工作不限制行业,工作涉及统计,数据分析,数据挖掘,数据库,数据管理等内容即可。

2. 为什么选择 CDA 等级认证考试?

CDA 注册数据分析师协会会员是来自学界、实务界,国内大陆、台湾及国外数据分析和数据挖掘相关领域顶尖的教授、专家、工程师及企业高端人才,代表了国内数据分析研究领域的一定水平。 CDA 数据分析师等级标准是根据国内各大企业对人才技术的需求而设立,旨在为国内数据分析发展阶段提供一个科学、专业的标准规范,说明究竟什么人才是优秀的数据分析师。

CDA 数据分析师的就业前景可选择于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个行业和领域。根据三个不同的等级胜任不同的数据分析工作任务。

3. 如何成为一名 CDA 数据分析师?

CDA 数据分析师 LEVEL Ⅰ、Ⅱ、 Ⅲ系统培训,由人大经济论坛根据 CDA 协会认证标准而设立的一套针对数据分析师技能的全面系统培训。培训师资目前均来自学界、实务界相关领域的讲师、教授、专家、工程师以及企业资深分析师,名师荟萃,代表了国内数据分析培训的最高水平,可以很好地保证培训的学员既能学到扎实的数据分析理论知识,又能具备较强的利用软件解决实际问题的能力,保证学员能胜任各行业数据分析师工作的要求。学员可以参加“ CDA 数据分析师 LEVEL Ⅰ系统培训”或“ CDA数据分析师 LEVEL Ⅱ、Ⅲ系统培训”进行深入学习。

经管之家( 原人大经济论坛)于每年 6 月和 12 月举办 CDA 数据分析师考试。 通过考试后即可获得 CDA 数据分析师等级资格认证证书,后续可参加 CDA 线下聚会、沙龙、招聘会、研讨会等各项活动,促进数据分析师领域的高效发展。

4. 人大经济论坛 CDA 优势

经管之家(原人大经济论坛),于 2003 年成立于人大经济学院,致力于推动经济学科的进步,传播优秀教育资源,目前已经发展成为国内最大的经济、管理、金融、统计类的在线教育和咨询网站,也是国内最活跃和最具影响力的经管类网络社区。

经管之家运营团队:北京国富如荷网络科技有限公司,成立于 2006 年 6 月,公司以人大经济论坛为运营平台,经营业务包括培训业务、数据处理和分析服务和教辅产品等。发展至今,经管之家 “数据分析培训中心” 已经成为最具影响力和知名度的数据分析培训机构,一直努力做到:将数据分析变成一门常识,让统计软件成为学术研究的好伙伴,企业经营的好军师。经管之家具有如下优势:

优势一:师资

CDA 数据分析师系统培训,由经管之家根据 CDA 协会认证标准而设立的一套针对数据分析师技能的全面系统培训。培训师资目前均来自学界、实务界相关领域的讲师、教授、专家、工程师以及企业资深分析师,名师荟萃,代表了国内数据分析培训的最高水平,可以很好地保证培训的学员既能学到扎实的数据分析理论知识,又能具备较强的利用软件解决实际问题的能力,保证学员能胜任各行业数据分析师工作的要求。CDA 数据分析师培训注重结合实际,把最具技术含量、最具价值理念的课程传授给学员。课程还注重启发式教学,让学员在动手解决问题中去学习。

CDA 数据分析师课程的大纲和内容,既由经管之家和国内数据分析、数据挖掘领域专家潜心开发和反复研究,又经过科学的调研确定,并且将不断地随着数据分析的市场需求和数据分析技术的发展而调整,课程内容始终关注市场、关注前沿。课程内容的设计更注重阶梯化、体系化的原则,每一个学员,不论学习和工作的背景如何,都能在该课程体系中很快找到适合自己的课程,并不断学习提高。

优势二:继续学习

所有 CDA 学员除了学习现场课程之外,还会得到全程视频录像及辅助学习视频课程(包括 SPSS、 SAS、 R 语言等软件数据分析、 挖掘等内容),此系列视频课程可以进行后期巩固学习和进修学习,可扎实现学技能、拓展课余知识、升华技术层级。

优势三:在线学习

Peixun.net(经管之家在线课堂)学习视频可实现随时随地在线听课, 10 分钟一小节,可进行个性化、碎片化学习,更具针对性与便利性。 CDA 上课方式分为现场及远程两种方式,远程在线学习引进了最新设备与技术,解决了各地区学员的需求,并实现了如同现场般的远程答疑及讨论。

优势四:交流社区

经管之家有十二个社区,七百个版块,六百多万会员。每日讨论的热点话题及资料以千计。学员在学后可以到“ CDA 数据分析师”版块进行交流、提问、下载资料等,

形成数据分析专业聚集地,促进学员在圈子交流中高效发展。

可以说, CDA 数据分析师等级培训代表了数据分析行业的前沿培训教育技术、水平。 对于人才培养积累了很深的资源、 经验、口碑,所培养的学员 绝大多数具备了 较高的技术水平和素质。 并且, 经管之家凭借自身多年的积累,不仅在学术上有很深的造诣,而且与众多企业建立了很深的联系,并且不定期向企业推荐相关学员 ,并获得企业的一致认可。

六、 数据分析师行业发展前景

1. 优势、劣势

1.1 数据分析行业的优势

数据科学的运用领域广泛,数据分析技术可用于各个行业,因而各行各业都有进行数据分析从而进行科学决策的需求,数据科学的价值正逐渐被认识和承认。数据科学相关人才能够将分析法模型和算法的结果与特定的商业知识相结合,从而产生洞见并做出决策;同时, 他们可以根据业务需要更直接地应用建模并进行统计分析,将技术语言转化成企业其他部门可以理解的内容。 数据分析行业的社会价值越来越受到认可。

据全球最具权威的 IT 研究与顾问咨询公司高德纳( Gartner)预测,到 2016 年,大数据将在全球创建 440 万个工作岗位,其中有 190 万个工作岗位在美国。但是,目前拥有数据分析技能的专业人员严重短缺,只有三分之一的新工作岗位能招聘到人员。

美国面临严重的分析法人才短缺, 数据科学家的供应比例仅为 23%, 从而导致近40000名人才的缺口 。在中国,能理解与应用大数据的创新人才更是稀缺资源。美国和其他经济体以及中国所面临的人才短缺的现象不能仅仅通过研究生和毕业生的涌入填补这一空白,培训相当数量的数据分析人才是相当必要的。

埃森哲在近期的一项面向企业高管的调查中发现, 对于问题“哪些工具和能力对于在新领域实现增长而言是最重要的? ”,中国企业高管中有 63%的比例认为是数据分析技术,而且这一技术与社交网络技术及移动计算/应用开发技术并列第一, 如下:

11

图 11. 埃森哲面向企业高管调查

数据分析行业在国外发展已经很成熟了,随着我国经济发展与发达国家的距离缩短,技术力量的加强,及产业结构的完善,我国对于数据分析进行科学决策的依赖度会越来越高,相应的对于专业工作者的需求亦会增高。

1.2 数据分析行业的劣势

目前数据分析行业的劣势主要体现在以下几个方面:

首先,数据分析行业仍处于发展阶段,行业规模不大,行业规章制度与基础设施还不完善,这造成技术运用与人才培养在一定程度上略显缓慢, 不利于行业的快速、稳健发展。

其次,从业人员相关技能还需要进一步?高,包括对于公司业务的理解能力,数据科学专业技能等,从而能够形成行业竞争壁垒,促进行业社会认可度。

2. 展望

大数据将迎来发展黄金期,数据分析行业将迎来社会的广泛认可,数据科学人才的需求将迎来新的井喷期。

首先,数据分析行业具有广阔的市场前景。近年来,互联网、 电子商务、 互联网金融、医疗等行业的迅速发展,行业规模不断扩大, 数据量不断增加,对于数据隐含的价值分析挖掘的需求越来越大,职位机会不断增加, 从业人员相应的待遇也随之上涨。中国企业高管坚信数字技术的力量,必将促进数字行业的发展,相应的对技术方面的人才需求将会增加。

其次,数据分析行业受益于国家政策支持(详见附录 2.)。自2014年3月 将“ 大数据” 首次写入《政府工作报告》 以来,中国国务院总理李克强在多个场合提及这一“热词” ; 2015 年 4 月,全国首个大数据交易所——贵阳大数据交易所正式挂牌运营,并完成首批大数据交易;根据贵阳市出台的《关于加快推进大数据产业发展的若干意见》,提出力争到 2017 年在贵阳市建成全球首个块上集聚的大数据公共平台,贵阳市大数据产业的总量规模突破 2000 亿元,贵阳大数据交易所预计,未来 3-5 年每天交易量达到 100 多亿元。政府引导大数据产业健康发展,在信息消费和数据产业发展上提供积极的政策支持, 把大数据转换成真正意义的资产,让大数据资产在全球范围流通,并产生价值, 对于缺乏获得优质数据的民营企业、小微企业、 创业者都是巨大机遇;同时,大数据作为一种商品, 可交易可流通,将对互联网、金融、传统产业构成深远影响,从信息消费到数据消费的转变。

2015 年8月19日 , 国务院常务会议通过《关于促进大数据发展的行动纲要》。会议认为,开发应用好大数据这一基础战略资源,有利于推动大众创新、万众创新,改造升级传统产业,培育经济发展新引擎和国际竞争新优势。 纲要强调, 一要推动政府信息系统和公共数据互联共享,消除信息孤岛,加快整合各类政府信息平台,避免重复建设和数据“打架”, 增强政府公信力,促进社会信用体系建设。优先推动交通、医疗、 就业、 社保等民生领域政府数据向社会开放,在城市建设、社会救助、质量安全、社区服务等方面开展大数据应用示范,?高社会治理水平。 二要顺应潮流引导支持大数据产业发展, 以企业为主体、以市场为导向,加大政策支持, 着力营造宽松环境,建立市场化应用机制, 深化大数据在各行业创新应用, 催生新业态、新模型,形成与需求紧密结合的大数据产品体系, 使开放的大数据成为促进创业创新的新动力。三要强化信息安全保障,完善产业标准体系,依法依规打击数据滥用、 侵犯隐私等行为。 让各类主体公平分享大数据带来的技术、制度和创新红利。

当前中国在大数据应用方面的技术已经成熟,而完善政策导向和法律法规才是关键,此次纲要中明确了政府和市场的职责,为接下来进一步细化措施的出台打下了坚实基础, 为大数据发展创造更有利的坏境。

七、 数据分析师行业对《促进大数据发展行动纲要》 的响应

2015 年 8 月 31 日 国务院发布了《促进大数据发展行动纲要》( 以下简称《纲要》),这无异于对目前蓬勃发展但又面临不确定性的数据分析行业吃了一个安心丸。俗话说巧妇难为无米之炊, 在数据分析行业,数据就是基础。 以往数据分析中数据质量一直是瓶颈, 尤其是各方面基础数据匮乏、可信度低等问题一直困扰着分析师。

《纲要》 明确指出“讲加快政府数据开放共享,推动资源整合,提升治理能力”。明确指出在 2017 年底前,明确各部门数据共享的范围边界和使用方式,跨部门数据资源共享共用格局基本形成。到 2018 年,中央政府层面实现数据统一共享交换平台的全覆盖,信息系统通过统一平台进行数据共享和交换。 2020 年底前,逐步实现信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等民生保障服务相关领域的政府数据集向社会开放。这样的承诺令数据分析行业的从业人员欢欣鼓舞。 为了使数据分析师行业得到更好的发展,数据分析师内部也达成了如下共识,作为对《纲要》的响应。

1. 知识分享氛围的培养

知识是科技发展的动力,知识分享对促进社会发展有这正面积极的意义。数据分析的直接产品就是知识,因此数据分析师在知识分享中有着重要的价值。虽然很多知识以专利的形式存在,不便于分享。但是一些基础性知识,比如分析技能的培养、经典商业案例等应该广泛普及与扩散。

2. 人才培养体系的建立

很多商业分析师在工作中发现,高校毕业生需要 1-3 年时间才可以转变为一个合格的商业分析师。这使得一些企业面临高额的人才培养成本,尤其是初创类公司,还要面临成材率低和人员流失严重的双重压力。究其原因,是高校在数据分析人才培养方面还没有建立起一套与商业接轨的体系。 由于学科的限制,目前高校没有一套完善的针对于数据分析人才的培养方案。由于商业数据分析践性强,学校老师的考核多以科研能力为主,因此学校教师存在着能力偏差。虽然部分高校已经注重外部导师项目的发展,但是体系化不强,个人的作用有限。因此,亟需商业数据分析师内部合作,从实战方面建立起人才培养体系,以满足商业界对数据分析人才的需求。这类事情在国外比较普遍,比如注册金融分析师( CFA),管理会计师( CMA),这些都是从业人员自己建立起来的人才培养体系,极大的促进了本行业的发展。但是,国内外针对于数据分析师的人才培养体系很少,这更需要本行业从业人员共同合作,为本行业发展积极出力。

3. 从业人员自律文化的形成

数据分析是一个过程高度不透明,而且验证结果的成本很高,因此分析师的自律极为重要。分析师自律文化的核心是诚信。以往的学校教育以成果为导向,而且数据分析师多是毕业生中成绩优异的,因此多是积极进取的学生。进取心强是优点,但是过分强调成果,忽略诚信,会造成严重的经济后果。目前学术造假行为比比皆是,学术上这种行为影响虽然恶劣,但是不会造成直接的经济后果。商业数据分析的特点是成功率低,必须经历长时间反复测试才可以得到有商业实践意义的成果,如果不讲诚信,急于求成,会给企业未来带来严重的经济损失。因此数据分析师行业内部需要建立起一套从业人员的信息共享体系, 培养从业人员的自律意识。

《纲要》指出到 2020 年,培育 10 家国际领先的大数据核心龙头企业, 500 家大数据应用、服务和产品制造企业。而且注重市场在大数据发展中的重要地位。诚然,大数据产业是智慧产业,基于的是可再生的智力与数据,不存在天然垄断的基础。合作是取得多方共赢的基础, 而阻碍知识分享与人才培养的任何自私的行为都是与国家政策有违的,也损害了本行业从业人员的共同利益。

八、 附录

附录 1. 经管之家(原人大经济论坛)发展历程

2006年,人大经济论坛数据分析培训中心设立,至今经历9个春秋,建立了大陆、台湾一线师资团队,培养人才已达3万余人;

2013年,CDA数据分析研究院成立,CDA数据分析师课程第一次走进大家的视野,截至到现在,累计培养1200多名专业CDA数据分析师;

2013年,“中国数据挖掘与数据分析俱乐部CDMC”在人大经济论坛旗下成立,2014年改名为“中国数据分析师俱乐部CDA”。来自政府、金融、电信、零售、电商、互联网、教育等行业人士加入会员,累积了近1000名行业资深会员,成功举办了近二十场行业聚会;

2015年,CDA就业学院成立,响应国家职业教育人才培养的号召,与企业对接,在全国高校培养数据分析专业人才。截至到目前,帮助在200多个高校成立了大数据俱乐部和兴趣小组。

附录2. 国内重要大数据相关政策行动梳理

时间 部门 政策行动名称 政策行动详情
2012年7月 国务院 《“十二五”国家战略性庄闲游戏在哪 发展规划》 明确提出支持海量数据存储、处理技术的研发和产业化。
2013年7月 重庆 《重庆市大数据行动计划》 2017 年将大数据产业培育成全市经济发展的重要增长极。
2013年7月 上海 《上海推进大数据研究与发展三年行动计划(2013-2015年)》 数据硬件及大数据软件产品具备产业核心竞争力。
2013年8月 国务院 《关于促进信息消费扩大内需的若干意见》 推动商业企业加快信息基础设施演进升级,增强信息产品供给能力,形成行业联盟,制定行业标准,构建大数据产业链,促进创新链与产业链有效嫁接。
2014年2月 贵州 《关于加快大数据产业发展应用若干政策的意见》 打造大数据产业发展应用新高地,建成全国领先的大数据资源中心和大数据应用服务示范基地。
2015年3月 国务院 制定“互联网+”行动计划 推动移动互联网、云计算、大数据、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。
2015年4月 发改委 《创新投资管理方式建立协同监管机制的若干意见》 提出运用互联网和大数据的技术来创新监管的方式 。
2015年5月 工信部 将编制实施软件和大数据产业“十三五”规划 大数据产业第一次明确出现在规划中。
2015年6月 国家信息中心 联合深圳大学成立深圳大数据研究院 致力于充分融合双方优势,打造大数据领域新型创新载体,推动我国大数据技术、人才与产业化发展。
2015年6月 工信部 加快推进云计算与大数据标准体系建设 将加快云计算与物联网、移动互联网、现代制造业的融合发展与创新应用,积极培育新业态、新产业,加快推进云计算与大数据标准体系建设。
2015年 7月 国务院 《关于运用大数据加强对市场主体服务和监管的若干意见》 运用大数据加强对市场主体服务和监管,明确时间表
2015年 8月 国务院 《促进大数据发展行动纲要》 健全大数据市场发展机制,建立标准规范体系

经管之家,原人大经济论坛, 2004 年创立, 历经十多载成为国内最大、最具影响力的经济、管理、金融、统计类的在线教育网站社区。在经管教育领域具有极强的品牌号召力!注册会员数量逼近 700 万( 2015 年 10月),平均日增 3000 新会员,日均访问人数(UV)40 万以上,日均发帖量为 15000,微信用户 23 万以上;现有100多个栏目(版块),内容涵盖经管资源分享、学术交流、提问学习、发布项目、考研考博等经管类学习的必备资源,同时为经管学习者题供求职招聘、在线教育、财经新闻等全方位服务,打造优质的经管人生态闭环,是众多经管学习的首选在线学习平台。

CDA 数据分析师品牌,是经管之家(原人大经济论坛)积累十多年的数据分析培训经验,打造的一套针对数据分析师技能的全面系统培训。培训师资目前均来自学界、实务界相关领域的讲师、教授、专家、工程师以及企业资深分析师,名师荟萃,代表了国内数据分析培训的最高水平,可以很好地保证培训的学员既能学到扎实的数据分析理论知识,又能具备较强的利用软件解决实际问题的能力,保证学员能胜任各行业数据分析师工作的要求。年培训人数超过 3000 人,为中国数据分析师行业发展提供强有力的推动。

来源:人大经济论坛

]]>
如何使大数据分析的价值最大化 //www.otias-ub.com/archives/353266.html Fri, 05 Jun 2015 14:30:33 +0000 //www.otias-ub.com/?p=353266 近年来,大数据技术以各种不同的方式影响着我们的生活。通过对大量数据加以分析,政府、企业和学者等可以找到有价值的东西,从而提升我们的生活水平,改善我们的生活和工作方式。越来越多的企业利用大数据分析工具找到发展趋势和适合企业发展的方法,从而为合伙人带来利益。

数据集的内存都是以千兆字节计算的,因此要对如此巨大的数据进行分析也是一项挑战,并且往往都有时间要求,只有对数据快速的解读和分析才能更快做出决策。

20150604115053196

如果找不到适宜的分析工具,那么大数据的管理和分析就非常浪费时间。这里提供几种提高大数据分析价值的方法:

  1. 数据融合

成功的大数据分析可以使用户应对工作中的困难,例如发现业务计划和工作中的缺陷和失误。它甚至可以将新的细分市场进行拆分,企业可以提供新的产品和服务。要想做到这些,就需要从各种资源得来的数据中抓住重点从而做出重要决策。

在数据分析中,时间至关重要。很多企业领导者和决策制定者需要实时的信息来快速做出决定。但是据估算,大约80%的时间都花在了准备和整理数据上。这样一来真正的分析工作只占20%。

因此高效的处理工作非常重要,例如数据分析的提取、转换和加载过程(ETL)。我们认为,2015年ETL处理手段将被更多企业加以利用,这是一种更简洁的数据准备过程,同时不需要过多的IT技术。

一个好的ETL工具可以将从多个来源获取的数据融合在一起,也包括公共数据。它让用户的注意力集中到一个源头,获得相关性更高的信息,提高工作效率。同时可以确保用户的信息来源是唯一的,降低错误沟通的风险。

据统计,数据量每2-3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占总数据量的2%-4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以致于浪费了更多的时间和资金,也失去制定关键商业决策的最佳时机。

于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle……

  2. 沟通无障碍

就像之前说过的,大数据分析工具可以帮助企业解决商业难题。从业人员也许能很好的理解这些问题,但IT人员却不能完全理解,这样就不能提供和专业需求相匹配的分析报告。再加上沟通不顺畅,领导层就无法及时得到有用信息,也就无法快速做出决策。

如果技术人员能够使用这种自助服务分析工具,就能够找到问题所在并做出可以弥补漏洞的决定。此外,他们还可以将数据同其他开放信息结合在一起,挖掘细分市场。企业还可以共享IT资源来发掘更多的数据信息。

原文来源:Maximizing the value of big data analytics

]]>
大数据分析的八大趋势 //www.otias-ub.com/archives/348042.html Mon, 18 May 2015 01:24:33 +0000 //www.otias-ub.com/?p=348042 Blog-Image

Intuit数据工程副主管Loconzolo双脚都已经迈进数据湖里了。Smarter Remarketer首席数据科学家DeanAbbott也为云技术的发展指出了捷径。他们二人一致认为, 大数据与分析学前沿是个活动目标,这一领域包含了储存原始数据的数据湖和云计算。尽管这些技术并未成熟,但等待也并非上策。

Loconzolo表示:“现实的情况是,这些工具都刚刚兴起,他们构筑的平台还不足以让企业依赖。但是,大数据和分析学等学科发展十分迅速,因此企业必须努力跟上,否则就有被甩掉的危险。”他还说:“过去,新兴技术往往需要十年左右的时间才能够成熟,但是现在大大不同了,人们几个月甚至几周时间就能想出解决方案。”那么,有哪些新兴技术是我们应该关注,或者说科研人员正在重点研究的呢?《电脑世界》采访了一些IT精英、咨询师和行业分析专家,来看看他们列出的几大趋势吧。

1.云端大数据分析

Hadoop是一组有一定框架结构的工具,用来处理大型数据组。它原本用于机器群,但现在情况有所变化。Forrester Research一位分析师BrianHopkins表示,现在有越来越多的技术可以运用到云端数据处理上来了。比如亚马逊的BI数据库、Google的 BigQuery数据分析服务,、IBM’sBluemix 云平台和亚马逊的Kinesis数据处理服务。这位分析师还说,未来的大数据将是内部数据部署与云端数据的结合体。

Smarter Remarketer是SaaS零售分析、市场细分和营销服务的供应商,它最近将自己室内的Hadoop和MongoDB数据库基础设施转移到了一个基于云技术的数据库—Amazon Redshift. 这家位于印第安纳波利斯的公司收集线上和实体销售数据、顾客信息和实时行为数据,之后进行分析,从而帮助零售商做出针对消费者的决策,有些决策甚至是实时的。

Abbott表示,Redshift可以节省这家公司的成本,这是因为它对于结构数据拥有强大的汇总报告功能,而且它颇具规模,使用起来相对容易。用这些虚拟设备总是要比那些实体设备便宜一些。

相比之下,位于加州山景城的Intuit在走向云分析的过程中就要谨慎多了,因为它需要一个安全、稳定、可控的环境。目前为止,这家金融软件公司的数据都还在自家的数据库—Intuit Analytics Cloud里面。Loconzolo表示:“目前我们正跟亚马逊还有Cloudera合作,建立一个我们几家公司公用的能跨越虚拟、现实两个世界的、具有高度稳定性的云端,但是现在这个问题还没有得到解决。”然而,可以说,对于像Intuit这种销售云端产品的公司来说,向云端技术进军是必然的。Loconzolo还说道,未来我们会发展到一个阶段,那时把数据放在私有云端将是浪费的。

2. Hadoop:一个新的企业数据运行系统

Hopkins表示,向MapReduce这样的分布式分析框架,正在逐渐演化成分布式资源管理器,这些资源管理器正逐步将Hadoop变为多用途数据运行系统。“有了这些系统,你就可以进行多种多样的操作和分析。”

这对企业来说意味着什么呢?SQL、MapReduce、in-memory、流水式处理、图表分析还有其它工作都能在Hadoop上进行,越来越多的企业会把Hadoop当做企业数据中心。Hopkins还说:“在Hadoop上能进行各种各样的数据处理工作,这样的话,Hadoop会慢慢变成一个多用途的数据处理系统。”

Intuit已经开始在Hadoop建立自己的数据基地了。Loconzolo说:“我们的策略是利用Hadoop分布式文件系统,因为它和MapReduce与Hadoop等联系十分密切,这样的话,人与产品之间的各种互动就可以实现了。

3.大数据湖泊

美国普华永道首席技术专家Chris Curran说,传统数据库理论认为,人们应该先设计数据集,然后再将数据输入进去。而“数据湖泊“,也被称作“企业数据湖泊”或者“企业数据中心”,颠覆了这个理念。“现在,我们先收集数据,然后把它们都存入Hadoop仓库里,我们不必事先设计数据模型了。”这个数据湖泊不仅为人们提供了分析数据的工具,而且很明确地告诉你,这里有什么样的数据。Curran还表示,运用Hadoop的过程中人们就可以增加对数据的认识。这是一个递增的、有机的大规模数据库。当然,这样一来,对使用者的技术要求相应地会比较高。

Loconzolo表示,Intuit拥有自己的数据湖泊,这个数据湖里既有用户点击量的数据,也有企业和第三方的数据,所有这些都是Intuit分析云端的一部分,但关键是要让围绕这个数据湖的工具能够为人们有效利用起来。Loconzolo还说,对于在Hadoop建立数据湖,一个需要考虑的问题是,这个平台并没有完完全全的为企业的需求设置周全。“我们还需要传统企业数据库已经有了几十年的一些功能,比如监控访问控制、加密、安全性以及能够从源头到去向地追踪数据等等。

4.更多预测分析

Hopkins表示,有了大数据,分析师们不仅有了更多的数据可以利用,也拥有了更强大的处理打量不同属性数据的能力。

他说:“传统的机器学习利用的数据分析是建立在一个大数据集中的一个样本基础上的,而现在,我们拥有了处理了大量数字记录的能力,甚至于每条数据有多种不同属性,我们都应对自如。”

大数据与计算功能的结合也让分析师们能够挖掘人们一天中的行为数据,好比他们访问的网站或者是去过的地方。Hopkins把这些数据称作“稀少数据(sparsedata)”,因为要想得到这些你感兴趣的数据,必须过滤掉一大堆无关的数据。“要想用传统机器算法对抗这种数据,从计算角度来讲几乎不可能。因为计算能力是一个十分重要的问题,特别是现在传统算法的速度和记忆储存能力退化很快。而现在你可以很容易知道哪些数据是最容易分析的,不得不说,赛场易主了。”

Loconzolo表示:“我们最感兴趣的地方是,怎样在同一个Hadoop内核中既能作实时分析,又能做预测模型。这里最大的问题在于速度。Hadoop花费的时间要比现有技术长20倍,所以Intuit也在尝试另一个大规模数据处理器Apache Spark及其配套的 Spark SQL查询工具。Loconzolo说:“Spark具有快速查询、制表服务和分组功能。它能在把数据保留在Hadoop内部的前提下,还将数据处理得十分出色。”

5.Hadoop的结构化查询语言(SQR, StructuredQuery Language):更快,更好

Gartner一位分析师表示,如果你是个不错的编码员或者数学家,你可以把数据丢进Hadoop,想做什么分析就做什么分析,这是好处,但同时这也是个问题。“尽管任何程序语言都行得通,但我需要有人把这些数据用我熟悉的形式或者语言输入进去,这也是为什么我们需要Hadoop的结构化查询语言。支持与SQR类似的查询语言的工具,让那些懂得SQR的企业使用者们能把类似的技术运用在数据上。Hopkins认为,Hadoop的SQR打开了企业通往Hadoop的大门,因为有了SQR,企业不需要在那些能使用Java, JavaScript 和Python高端数据和商业分析师上投资了,而这些投资在以前可是少不了的一笔开销。

这些工具也并非最近才出现的了。Apache Hive曾经为用户提供了一种适用于Hadoop、类似于SQR的查询语言,但是竞争对手Cloudera、PivotalSoftware、IBM还有其他销售商提供的产品不仅性能更好,速度也更快。这项技术也适合“迭代分析(iterative analytics)”,也就是说,分析师先问一个问题,得到回答之后再问下一个问题。而这种工作放在过去可是需要建立一个数据库的。Hopkins说:“Hadoop的SQR并不是为了取代数据库,最起码短期不会,但对于某些分析来说,它让我们知道,除了那些高成本的软件和应用之外,还有别的选择。”

6.不仅仅是SQR(NoSQL,NotOnly SQR)—更快,更好

Curran表示,现在我们除了基于SQR的传统的数据库之外,还有NoSQL,这个数据库能用于特定目的的分析,当下十分热门,而且估计会越来越受欢迎。他粗略估计目前大概有15-20个类似的开放资源NoSQL,每一个都独具特色。比如ArangoDB,这是一款具备图标分析功能的产品,能更快、更直接地分析顾客与销售人员之间的关系网。

Curran还说,开放资源的NoSQL数据库已经存在一段时间了,但是他们依然势头不减,因为人们需要它们所做的分析。一位在某个新兴市场的普华永道客户把传感器按在了店面柜台上,这样就能监控到那里到底有什么产品,顾客会摆弄这些产品多长时间以及人们会在柜台前站多久。“传感器会产生大量类似指数增长的数据,NoSQL将是未来的一个发展方向,因为它可以针对特定目的进行数据分析,性能好,而且很轻巧。”

7.深度学习

Hopkins认为,作为一种基于神经网络的机械学习技术,虽然还在发展过程中,但在解决问题方面却已经表现出巨大的潜力。“深度学习……能够让计算机在大量非结构化和二进制的数据中识别出有用信息,而且它能够在不需要特殊模型和程序指令的前提下就剔除那些不必要的关系。”

举个例子说明:一个深度学习的算法通过维基百科了解到加利福尼亚和德克萨斯是美国的两个州。“我们不在需要通过模式化让程序去理解州和国家的概念,这就是原来的机械学习和新兴深度学习的区别之一。”

Hopkins还说道:“大数据运用先进的分析技术,例如深度分析,来处理各种各样的非结构文本,这些处理问题的思路和方式,我们也是现在才开始理解。”比如,深度学习可以用来识别各种各样不同的数据,比如形状、颜色和录像中的物体,甚至是图片中的猫—谷歌建立的神经网络就做到了这一点。“这项技术所昭示的认知理念、先进的分析,将是未来的一个趋势。”

8.内存中分析

Beyer表示,利用内存中数据库来提升分析处理速度,这种方式已经越来越广泛,而且只要运用得当,益处也很多。事实上,很多企业现在已经在利用HTAP(hybridtransaction/analytical processing)了,这种处理方式能在同一个内存数据库中进行转换和分析处理。但Beyer同时也表示,对于HTAP的宣传有些过头了,很多公司也过度利用这项技术。对于那些使用者需要每天多次以同样的方式看同样数据的系统来说,这样的数据没有太大变化,这时用内存中分析就是一种浪费了。

虽然有了HTAP的帮助,人们分析速度更快了,但是,所有的转换都必须储存在同一个数据库里。Beyer认为,这样的特点就产生了一个问题,分析师们目前的工作主要是把不同地方的数据汇总输入到同一个数据库当中去。“如果你想做任何分析都运用HTAP,所有的数据就得存在同一个地方。要把多样化的数据进行整合。”

然而,引入内存数据库的同时也意味着,还有另一个产品等着我们去管理、维护、整合与权衡。

对于Intuit而言,他们已经在使用Spark了,所以对引进内存数据库的愿望并没有那么强烈。Loconzolo说:“如果我们用Spark就能处理70%的问题,而用内存数据库可以解决100%,那么我们还会选择前者。所以我们现在也在权衡,要不要马上停用内部的内存数据系统。”

大步向前迈

在大数据和分析领域有这么多的新兴趋势,IT组织应该创造条件,让分析师和数据专家们大显身手。Curran认为:“我们需要评估、整合一些技术,从而把它们运用到商业领域中去。”

Beyer则认为:“IT管理者和执行者们不能把技术不成熟作为停止试验的借口。”最初只有一部分专业分析师和数据专家需要试验,然后这些比较高级的使用者和IT行业应该共同决定是否要把这些新的资源介绍给行业其他人。IT界也没必要控制那些鼓足干劲的分析师们,相反,Beyer认为应该与他们加强合作。

本文由CDA数据分析研究院翻译,译者:王晨光

]]>
大数据分析美国音乐排行榜50年的演化史 //www.otias-ub.com/archives/345699.html Thu, 07 May 2015 08:49:47 +0000 //www.otias-ub.com/?p=345699 150506084811_1_900x600

 

进化生物学家和计算机科学家一起研究流行音乐的演变。他们的分析样本是1960到2010年,美国Billboard Hot 100排行榜的17000首歌曲,这是迄今为止流行音乐史上最具实质性的科学研究。

研究人员分析了音乐排行榜的风格、多样性的发展趋势,以及音乐革命的时点。他们发现,与主流的看法相反,由披头士和滚石乐队等引发的所谓美国流行音乐的“英国入侵”,并没有开启摇滚革命,只是契合了当时的发展趋势。美国流行音乐史上最伟大的音乐革命也不是1964年,而是1991年当嘻哈音乐进入到音乐排行榜的时候。

研究发现1986年是排行榜音乐风格最最单一的一年,研究人员认为这归因于鼓机和采样器的突然普及。从此之后,音乐的多样性得到了恢复,虽然2010年音乐风格的多样性又一次出现了下降,但科学家们对排行榜多样性的观点却没有那么悲观:没有证据显示排行榜同质化的一般趋势。

来自伦敦玛丽女王大学和帝国理工学院的研究人员,在音乐网站Last.fm的帮助下,用信号处理和文本挖掘的前沿分析方法分析了歌曲的音乐特征。他们的系统将数千首歌曲根据和旋变化和音调进行自动分组,让研究人员能够进行统计分析,识别出一致性程度的趋势。

伦敦玛丽女王大学电子工程和计算机学院的Matthias Mauch,,论文的第一作者说:“我们首次大规模地测试音乐特征。通过直接分析歌曲,测量它们的组成,并理解它们如何变化,我们可以比音乐专家们告诉我们的,或者我们自己了解的知道的更多。”

“毫无疑问,有些人会不赞同我们的科学方法,认为这种研究对于一个情感领域的研究过于冰冷,但是我认为通过更多地了解音乐,我们可以为音乐增加更多的奇迹。我们想要分析不同国家在不同时期的更多的音乐,从而建立一个音乐如何演化的全面的图景。”

这篇论文的主要作者帝国理工学院教授Armand Leroi说:“能够科学地研究流行音乐的发展是非常令人兴奋的。但现在我们想走的更远,不仅仅要找出流行音乐是如何发展变化的,还要找到背后的原因。”

]]>
盘点大数据分析领域五大趋势 //www.otias-ub.com/archives/316513.html Thu, 25 Dec 2014 16:43:02 +0000 //www.otias-ub.com/?p=316513 Print

目前,大数据分析是一个非常热门的行业,一夜间,似乎企业的数据已经价值连城。企业都在开始尝试利用大数据来增强自己的企业业务竞争力,但是对于大数据分析行业来说,仍然处于快速发展的初期,这是一个快速发展的领域,每时每刻的都在产生新的变化。

1.基于云的大数据分析

Hadoop是用于处理大型数据集的一个框架和一组工具,这个最初被设计工作在物理机的集群上,但是目前这种现象已经改变,越来越多的基于云中的数据处理器技术出现,例如亚马逊利用云的数据BI的托管长款,谷歌BigQuery中的数据分析服务,IBM的Bluemix云平等等,这些都是基于云的大数据分析平台。

就目前而言,大数据的分析工作正开始向云计算迁移,因为大数据分析需要一个安全、稳定、可靠的审计环境。目前已经有很多公司开始跟云服务公司合作,希望得到一个能够横跨多个部门的云平台来支持公司的数据分析业务。随着云平台成本的降低,这个趋势将越发明显。

2. Hadoop:新的企业数据操作系统

Hadoop,分布式的分析框架,如今正在演变成分布式资源管理器,它可能将是数据分析的一个通用的操作系统。有了这些系统,你可以将不同的数据操作和分析操作插入到Hadoop分布式存储系统中来执行。

这是什么意思的?由于SQL,MapReduce,在内存中,流处理,图形分析和其他类型的工作负载都能够在Hadoop上有足够的性能来运行,越来越多的企业将会使用的Hadoop作为企业数据中心。

3.更多的预测分析

随着大数据的发展,分析师不仅会嗯更多的数据一起工作,而且还将处理大量的许多属性的工具。但是随着大数据行业的发展,针对旧数据的分析更多的是为了提供预测的功能,毕竟人们更希望利用原有的数据来对未来产生有利的用途。

4. 更多,更好的NoSQL

替代传统的基于SQL的关系数据库的产品被称为NoSQL数据库,如今被迅速的普及在特定种类的分析应用程序中。而且这一势头在持续增长,据估计,预计未来将有15至20个开源的NoSQL数据库共同存在,他们各自有的的专长,这些数据库会得到快速的发展。

5.在内存分析

使用内存数据库来加快分析处理的方式如今越来越受欢迎,很多用户都非常喜欢这种方式,目前很多基于内存的分析管理工具以及出现,其中以亚马逊的HANA一体机尤为明显。

除了分析软件看好这个市场,作为全球的企业级市场的处理器生产商,英特尔也非常看好这一领域的发展,从目前其产品推出的发展趋势来看,其内存支持将会越来越大,一些特定的产品甚至支持的比硬盘的容量还要大。

总结:数据分析是一个热门行业,这也是一个未来有很大发展的行业,所以目前很多厂商都针对大数据分析领域推出产品,但是对于企业用户来说,在选择产品的时候要注意,由于目前数据分析尚没有到达成熟的市场时期 ,所以市场上的分析工具参差不齐,在选择产品的时候还是要选择知名品牌为好。

]]>
八大趋势看透大数据分析的未来 //www.otias-ub.com/archives/289101.html Wed, 05 Nov 2014 13:10:00 +0000 //www.otias-ub.com/?p=289101 Intuit公司负责数据工程的副总裁Bill Loconzolo已两脚踏入了数据湖。而Smarter Remarketer的首席数据科学家Dean Abbott也径直走进了云中。当我们说到大数据和分析的前沿时,它既包括数据湖(以原生格式存储海量数据),当然也包括云计算。尽管这些技术选项距离成熟还很远,但我们肯定不能选择一味的等待和观望。

“现实情况虽然是,各种大数据工具在不断涌现,但Hadoop平台的前途尚未达到让企业能够依赖的程度,”Loconzolo说。然而大数据和分析技术演变得如此之快,企业必须做出抉择,要么涉足其中,要么就得冒落后的风险。“在过去,新兴技术可能需要几年时间才能成熟。而现在,解决方案的迭代和升级只需要几个月,甚至几周时间。”那么,在你的观察名单或者实验室里,最重要的新兴技术和趋势是什么呢?当我们用这样的问题去问很多IT高管、咨询师和行业分析师时,得到了如下的答案。

 1、云中的大数据分析

Hadoop框架和一组工具可用于处理非常大的数据集,它最初是为了物理机集群而设计的。但现在情况有了变化。Forrest分析师Brian Hopkins说:“如今已有很多技术可用于处理云中的数据。”实例包括亚马逊Redshift所托管的BI数据仓库、谷歌BigQuery数据分析服务、IBM Bluemix云平台,以及亚马逊Kinesis数据处理服务等。“大数据的未来状态将是企业端和云端的某种混合态。”

从事零售业分析与营销服务的SaaS厂商Smarter Remarketer最近已从其内部的Hadoop和MongoDB数据库基础架构转移到了亚马逊Redshift云数据仓库上。该公司主要收集线上和线下的零售销售数据、消费者统计数据及实时行为数据,然后对其作分析,帮助零售商创建有针对性的消息发送,以便吸引顾客的响应(某些情况下可能是实时的响应)。

Abbortt称,Redshift对于Smarter Remarketer的数据需求来说,更具成本效益,特别是其针对结构化数据的范围广泛的报表功能。作为一种托管服务,Redshift既可扩展,使用起来也相对简单。“它在虚拟机上的扩展成本要比购买由我们自己管理的物理机便宜不少。”

Intuit也开始谨慎地在向云分析转移,因为它需要一个安全、稳定和可审计的环境。这家财务软件公司一方面计划在自己私有的Intuit分析云中保留一切资源,另一方面“又在与亚马逊和Cloudera合作,计划构建一个公私混合的、高度可用而且安全的分析云,”Loconzolo说。对于像Intuit这样销售在云中运行的产品厂商来说,向云的迁移是不可避免的。“一旦在企业端分析数据的成本高到无法承受时,就只能把所有的数据迁到云中去。”

 2、Hadoop:新的企业数据操作系统

Hopkins认为,各种分布式分析框架,如MapReduce,正在演变为分布式资源管理器,它们会逐渐地将Hadoop转变为一种通用的数据操作系统。有了Hadoop这样的分布式文件存储系统,“你就能执行很多不同的数据操控和分析任务。”

这种变化对企业来说意义何在呢?和SQL一样,MapReduce、内存计算、流处理、图形分析和其他类型的工作负载都能够以适当的性能在Hadoop上运行,越来越多的企业会把Hadoop当作企业数据集中库来使用。“这样的能力,即针对Hadoop上的数据执行多种不同类型查询和操控的能力,将使其成为一种低成本的通用平台,企业想要分析的任何数据都可以放在其上进行分析。”Hopkins说。

Intuit已经开始在构建自己的Hadoop基础。“我们的战略是利用MapReduce和Hadoop,构造Hadoop分布式文件系统,长期目标是让人和产品之间所有类型的互动得以产生,”Loconzolo说。

3、大数据湖

传统的数据库理论会告诉你,在进入任何数据之前,首先得设计好数据集。而数据湖,也称企业数据湖或企业数据集中库,可能会彻底改变传统模式,普华永道美国咨询业务负责人兼首席技术专家Chris Curran说。“也就是说,我们会将各种数据资源倾倒进一个大的Hadoop仓库中去,而不会事先设计什幺数据模型。”相反地,我们会提供各种工具,再配上对数据湖中现存数据的顶层定义,供人们去分析数据。“这样,人们就可随着对数据湖的逐步深入而构建起自己的数据视图。这正是构建一个大规模数据库的增量化的、有机的模型。”Curran说。不过,这种方法也存在不足,那就是对数据分析人员的技术要求较高。

Loconzolo说,作为Intuit分析云的一个组成部分,Intuit也有一个数据湖,包括用户的点击流数据、企业数据和第三方数据,但重点是围绕数据湖对工具进行所谓的“民主化”,让商业人士都能有效地使用它。Loconzolo说,在Hadoop里构建一个数据湖,他的一个担心是Hadoop平台并未真正实现企业就绪。“我们希望它具备数十年来传统企业数据库所具备的所有功能——监控访问控制、数据加密、保护数据,并可跟踪数据从源到目标的传递路径。”

 4、更有预测性的分析

有了大数据,分析师们不仅有了更多的数据可用,而且具备了处理大量多属性记录的能力,Hopkins说。传统的机器学习使用的是对全体数据集某个样本所作的统计分析。“而现在,我们已经可以处理海量的记录,以及对每条记录的海量属性进行处理,”从而提高了预测能力,他说。

大数据与计算能力相互结合,还能让分析师们去研究新的行为数据,例如消费者所访问的网站或位置信息等。Hopkins称之为“稀疏数据”,因为要想找出真正有兴趣的东西,就必须在大量看似无关紧要的数据里去淘金。“针对这种类型的数据,试图采用传统的机器学习算法,这在计算上就是行不通的。现在,我们可以把更便宜的计算能力赋予Hadoop平台。你只需要去解决问题,而完全不必再去考虑速度和内存是否会有问题了。”Abbott说。“如今,遇到问题时,我们可以利用强大的计算资源,找出哪些变量可以进行最佳分析。这确实是一个游戏规则改变者。”

“如何用Hadoop核心来实现实时分析以及预测建模,这才是我们真正感兴趣的所在,”Loconzolo说。但在这方面来说,速度一直是个问题。相较于一些已成熟的技术,采用Hadoop来获得问题答案的时间要长出20倍左右。所以Intuit开始测试大规模数据处理引擎Apache Spark,及其相关的SQL查询工具Spark SQL。“Spark具备快速的交互式查询、图表服务和流处理能力。它一面将数据保留在Hadoop中,又能提供足够的性能来缩小速度上的差距。”Loconzolo说。

 5、SQL on Hadoop:更快、更好

假如你擅长编程,而且精通数学,就可以很容易地将数据放入Hadoop,并对其进行分析。这既是美好前景,但也是问题所在,Gartner分析师Mark Beyer说。“我得需要有个人帮我将数据纳入某种格式和我所熟悉的某种语言中,才能进行分析。”这也是SQL on Hadoop能够流行开来的缘故,因为对于早就了解SQL技巧的商业用户来说,使用可支持类SQL查询语言的工具对数据进行操控并不困难。SQL on Hadoop“为Hadoop在企业中的应用打开了大门”,Hopkins说,因为企业无须再花高薪聘请能用Java、JavaScript和Python编写数据脚本的数据科学家和业务分析师了。

这些工具都不是什么新东西。Apache Hive就可为Hadoop提供一种结构化的、类似SQL的查询语言。还有一些商用工具,如来自Cloudera、Pivotal软件、IBM和其他一些厂商的产品,不但可提供更好的性能,而且还能让查询进行的更快速。这些工具让Hadoop能更好地适用于“迭代分析”,也就是在询问了一个问题并得到答案后,可以在此基础上查询新的问题。这样的工作传统上是需要构建数据仓库才能进行的,Hopkins说,SQL on Hadoop无意取代数据仓库,至少短期内不会,“但它可为某些类型的分析提供成本更低廉的软件和分析器具。”

 6、更多、更好的NoSQL

可取代传统基于SQL关系数据库的技术叫做NoSQL数据库,它正迅速普及,用于一些特定的分析应用中,而其发展动力也在持续增强。Curran估计,目前市面上已出现了15到20个开源的NoSQL数据库,每个NoSQL数据库都各有特色。例如ArangoDB就是具有图形功能的NoSQL产品,相比于传统的关系数据库,它可提供一种更快速、更直接的方式来分析客户或销售人员的关系网络。

开源的SQL数据库“早就有了,但它们并未流行开来,因为需要专业的分析人员,”Curran说。普华永道的一个客户在商店的货架上放置了很多传感器,用于监控货架上的产品多长时间会被消费者拿到手里,消费者在某个货架前会停留多长时间,等等。“这些传感器会产生大量的呈指数级增加的数据。一个NoSQL键值组合数据库则可专门用于处理这样的情形,而且性能高,还是轻量级的。”

 7、深度学习

所谓深度学习是基于神经网络的一组机器学习技术,虽然尚未成熟,但已表现出解决各类商业问题的潜能,Hopkins说。“深度学习……能让电脑在大量非结构化和二进制数据中识别出感兴趣的东西,无须专门的模型或程序指令便可推演出各种逻辑关系来。”

例如,一个深度学习算法可以检查从维基百科上所学来的数据,自己判断出加利福尼亚和德克萨斯是美国的行政州。“而不必对它进行模式化才能了解国家和州的概念,旧的机器学习和新兴的深度学习方法之间存在着巨大的区别,”Hopkins说。

“大数据将采用先进的分析技术如深度学习等,处理大量类型不同的非结构化数据,以便帮助我们开始更好地了解数据的意义,”Hopkins说。深度学习可以识别各种不同的数据类型,例如视频中的各种形状、色彩和物体,就连其中有一只猫都能识别出来,这正是谷歌在2012年开发的神经网络可以做到的事情。“这种认知参与、先进分析的理念将成为未来的一大重要趋势。”

8、内存分析

使用内存数据库来提速分析处理流程,已越来越流行,而且收益很大。Beyer认为,事实上,很多企业已经在采用混合事务/分析处理(HTAP),该技术允许事务和分析处理驻留在同一个内存数据库中。

尽管采用HTAP可加快分析速度,但所有的分析必须驻留在同一个数据库内。Beyer认为,今天大多数的分析研发都是为了解决这个问题,力图将来自很多不同系统的事务分析汇总到一个数据库中。

最好能提前一步

围绕大数据和分析有如此之多的新兴趋势,那么IT组织就需要创造条件,允许分析师和数据科学家去做各种试验。Curran说:“企业需要的则是一种可用于评估、研发原型产品,并最终可将这些技术中的一些技术集成到业务中去的方法。”

“IT管理者和实施者不能以尚未成熟为借口,拒绝进行试验,”Beyer说。刚开始,可以由少数人,主要是有专长的分析师和数据科学家进行试验,然后再由一些高水平的用户和IT部门共同决定何时可以把新的资源交付给组织的其他部门使用。IT部门不必限制分析师们投入全副精力去做试验,相反地,他们应与分析师们合作,“只需给这些新的高性能工具安装一个可变速的阀门就行了。”

]]>
日本零售O2O七大模式分析 大数据分析是未来的关键 //www.otias-ub.com/archives/282091.html Sun, 19 Oct 2014 13:30:23 +0000 //www.otias-ub.com/?p=282091 在网购问题上,日本人还是比较保守,据调查称,只有20%的顾客乐意单纯在网上购物,78%的还要去实体店确认商品。这一点看,我们就开放多了。

在日本,电子商务、全渠道、O2O等等,发展的历史都不长。与美国和中国相比,日本电子商务的规模相对较小。根据日本外务省的统计,2013年日本电子商务的规模约为1400亿美元(约为美国的50%),而且增长率也比美中两国低一些。在2011年~2013年间,美国电子商务的增幅约为13%,中国约为80%,而日本则为11.5%。

同样,全渠道、O2O在日本零售业的发展时间更短,只是2011年才开始的事情,而且与电子商务的发展,以及日本通讯技术进步和智能手机快速普及状况相对应。

  1.日本零售业的全渠道发展历程概况

从官方的统计资料上看,日本的网上零售业发展始于2000年。那时,全日本的互联网普及率仅为30%,但到了2013年,这个数字已经增长为83%,增长速度较快。

在电商发展之初,电商仅作为日本实体店提升业绩的补充手段,而且网店和实体店都是各自独立运营,由此也引发了实体店和电商部门的企业内部竞合状态。

2004年,宝洁公司提出了“FMOT”概念(英文:Frist Moment of Truth,意为当消费者第一眼看到货架上的商品,3~7秒钟才确定是否购买),但在当时,日本的网店和实体店还没有融合,也没有O2O的概念。所以,顾客只能分别浏览网店或实体店的商品。

到了2006年,O2O概念开始在日本萌芽。从这一年开始,日本实体零售商开始实施网店与实体店的统一运营,以此达到企业内部商品管理的统一化。但在当时,顾客管理、供应链都还没有实现线上与线下的融合。这样,虽然实体零售商分别拥有了线上和线下的业务,但也还是分别经营。需要注意的是,2006年日本的零售业管理者们已经具有了O2O理念的雏形,并且开始进行相关的研发工作。

2008年,iPhone手机开始在日本销售,智能设备也很快在日本消费者中普及开来,由此激发了信息传输技术的快速成熟和发展。但是iPhone进入日本后,使日本本土的信息技术受到冲击,最后被淘汰。2008年9月15日,美国发生了波及全球的金融危机,日本的经济和零售业都受到严重影响。

2010年,美国TrialPay的CEO Alex Rampell提出了“O2O”的概念,但当时的想法是把访问网站的顾客诱导到实体店去购买商品,即从线上到线下。

2011年,全美零售商联盟(NRF)开始提出“全渠道”概念,这个概念主要是为了配合移动零售。同年,谷歌公司提出了“ZMOT”(英文:Zero Moment of Truth,即零点接触营销术,含义就是要让消费者在“尚未接触”到商品之前,就已经通过网路向消费者进行营销,从而让消费者主动接收产品的正面信息,并影响其消费意向。)这时,日本零售商开始考虑实施全渠道、O2O,并考虑让线上线下的业务和管理全面融合。

但是,2011年日本发生的大地震和核泄漏事件,使日本的供应链遭受了严重影响,给日本零售业也造成很大冲击。由于经济停滞,到2012年,日本的IT厂商和零售商开始对营销更加重视。

2011~2012年是日本全渠道零售技术的研发年,到2013年部分产品开始上市,即从产品研发到研发完成用了2年时间。

2012年,日本智能手机普及率达到50%,日本零售企业开始开展全渠道的市场营销工作。

整体来看,虽然日本的O2O、全渠道发展大约比美国晚2年,但到了2013年2月开始激增,这是零售商与IT企业共同合作产生的结果。

  2.日本消费者的特性分析

由于日本国土狭小,地理上的间隔不大,所以,日本的市场非常不一样,日本消费者的购买行为也很不同。

调查数据显示,在日本,只有20%的顾客乐意单纯在网上购物,而高达72%的顾客虽然也有网购,但仍需要去实体店确认商品;线上线下多渠道购物者的购买金额比单渠道顾客的购买金额高2倍。此外,网上下单、希望到实体店提货的顾客比例高达70%。

此外,调查还显示,日本消费者的O2O式购买方式表现明显。约75%的顾客即使在实体店找到了喜欢的商品,也会去网上确认(线下-线上);72%的顾客即使在网上找到了喜欢的商品,也仍会去实体店去做确认或检测(线上-线下)。

从这些数据可以看出,日本消费者对实体店依然抱有很高的期待。同时,由于日本国土狭小,城市之间的距离比中美两国小得多,消费者到达的便利性更好。因此,实体店在日本零售业中占仍占有重要地位。也正因为此,在日本,专门从事线上零售的企业仅占20%,而同时开展线上和线下业务的零售企业占60%。

  3.日本零售企业的全渠道案例

虽然日本零售企业开展全渠道的时间并不长,但已经涌现出一些先进的企业,他们的O2O模式也各不相同。

(1)资生堂模式:异业联合

在日本,资生堂公司拥有大量的实体店,其中90%以上都是直营店。2012年他们开始做O2O。其模式的主要亮点是既有网上销售,还有异业合作的网上销售(即异业间的合作),这样的好处是能够互相有导流的作用,因为单独一家网站吸引客流非常不容易。

此外,资生堂的网上还有美容咨询、在家美容检测服务、直营网店和实体店导航等,以此与顾客间实现互动,最终实现O2O。

(2)永旺模式:资源共享

大家知道,作为一家非常知名的风险投资公司,软银在很多零售企业、互联网公司都有投资,例如日本雅虎、永旺等,孙正义在日本拥有非常大的影响。

由于背后有资本上的联系,因此,永旺的O2O采取了与雅虎合作的模式。顾客可以在雅虎的网站上下载优惠券,然后在永旺实体店门口扫描出来后,就可以在永旺实体店使用。

这种“永旺+软银+雅虎”模式的亮点是:零售商可以通过这种方式收集到顾客数据,并通过雅虎引流到门店,从而使雅虎和永旺能共享顾客资源。

 (3)NTT模式:技术先导

NTT是日本最大的电信运营商,它利用GPS技术,将顾客诱导+商品登记签到做组合。

当顾客进门后看中某一种商品时,可以用手机扫描该商品,这时他就得到了商品积分。即使顾客这次没有购买,但下次光顾再买时,这个积分还可以用。如果顾客第二次没有回来,零售商也可以用第一次扫描留下的数据进行分析,这个顾客为什么不回来了,即分析他的购买行为。

这个模式与永旺模式的思路不同,着重点也不同。NTT模式的着重点是,只有当顾客真正拿到商品之后才给积分,而永旺模式是顾客进店后,还没有和商品产生直接联系就已经给了优惠。

  (4)东急百货模式:库存统一

东急百货的O2O是从商品信息共享切入的。2012年东急百货开始做库存数据打通工作。现在,他们的网店商品和库存商品的信息已经打通,虚拟库存、统一管理,并且做到可视化,每1.5小时库存信息更新一次,实现了同一业态下的库存数据打通。

(5)JR日本东京火车站模式:店内导航

日本东京火车站的商场都在地下,一共有200多家。如何找到顾客,并把他们“拉”到店内呢?

JR模式的做法是:当顾客在室外时,用GPS找到他们,再向他们推送优惠券,当顾客来到室内时,就用AR做导航(实际上,AR有定位功能),找到他们想要去的店铺。目前,这个模式还在试验中。

(6)优衣库模式:社交购物

2012年5月,优衣库的社交网站设立。它利用了“领先用户”(即先行购买或使用了商品的顾客)对商品的评价,来引导、激发其他顾客产生跟随购买。当其他顾客看到评价,如果评价好,就愿意去买。同时,厂商也通过这种方式了解到顾客的想法,从而有针对性地开发新产品。

他们的社交网站同时建在手机上和PC端,并且是独立的社交网站,而不是在公司官网上开辟一个栏目,这样能直接快速收集顾客建议。

(7)伊藤洋华堂、永旺、西友:网上超市

前文提到,在日本有70%的顾客喜欢门店自提。因此,顾客在伊藤洋华堂、永旺、西友和顶点的零售店都可以门店取货。在这些企业内部,已经做到了门店和网上的统一化管理,但在具体细节上,每个企业的做法还有不同。

伊藤洋华堂、永旺和西友的门店和配送中心的库存是统一管理的,生鲜商品由门店直接配送,常温商品从物流中心配送,但顶点的做法则不同。因为顶点的门店较小,没有足够空间代客保管商品,所以门店库存和网上库存是分开管理。也就是说,顶点还没有实现O2O。

  4.日本零售企业的启示

从日本零售企业的全渠道发展和实践中,我们可以得到这样的启发:

(1)商圈的决定者不再是零售商,而是顾客

以前,商圈是零售商自己设定的,是从零售商视角来“看”顾客;但现在,商圈是由消费者根据自己的位置来决定的,是移动的商圈。因此,能被顾客“看到”的零售店才有机会。如果在消费者的“商圈”里没有你的零售店,那么这个零售店就意味着被淘汰。这也是为什么,60%的日本零售商要做O2O的原因。

(2)用数据做营销

要用大数据分析,找到新的需求后,再去进行精准营销。在这方面,日本有一个很有意思的案例。

在不做数据分析之前,日本零售商只知道购买胸罩的顾客有男士,但并不知道有男士是在为自己购买胸罩,以为他们是在为女友或太太购买。但数据分析后发现,在购买胸罩的男性顾客中,有30%是为自己购买的,他们中年龄最小的20多岁,最大的70岁。他们不好意思去实体店购买,而更愿意在网上买。通过数据分析终于发现了这个大市场,零售商们就可以据此进行有针对性的开发。显然,如果没有数据分析,这是不可能做到的。

展望未来,大数据分析是最关键的。过去很多拥有数据的企业并没有成功,其主要原因就是,零售企业对自己的KPI理解不到位,所以大数据的利用还不够充分。所以,一定要明白自己需要什么数据,否则,即使有了大数据,仍然会失败。

]]>
数据的局限:大数据分析不能告诉你什么 //www.otias-ub.com/archives/267260.html //www.otias-ub.com/archives/267260.html#comments Mon, 18 Aug 2014 17:51:28 +0000 //www.otias-ub.com/?p=267260 咨询师Barry Devlin介绍了一些人们因为统计数据分析不当而误解风险的案例,同时阐述了为什么业务决策不能完全由数据驱动。他提醒企业要清醒认识数据科学家的阴谋,同时接受普通业务人员的天真想法。

大数据分析

大数据分析的拥护者竭尽全力地鼓吹“数据驱动”,明智的人应该谨慎对待,并明确两个问题。一,业务人员在制定特定决策时是否真正理解相关数据,是否曾经以实用且可行的方式向管理层展示了这些数据?二,是否所有决策都有必要在收集“所有数据”之后自动完成?

在《认清风险:如何作出好决策》(Risk Savvy: How to Make Good Decisions)中,德国柏林Max Planck人类发展研究所管理主管Gerd Gigerenzer阐述了公共环境中风险测量与决策过程的问题,他的观点同样适用于商业领域。

首先,我们看看Gigerenzer举的一些例子。它们说明了大多数人所获得的统计数据只是很小一部分,而且我们很容易因为数据的不正确性或明显误用而产生错误结论。

在911事件的一年时间里,成千上万的美国人放弃乘坐飞机,转而选择开车长途远行,因为他们害怕遇到相同的袭击。高速公路行驶距离因此增长了5%,而道路交通意外死亡人数在一年里逐月上升,已经超过了过去五年的平均水平。此外,粗略计算有约1,600人丧身交通意外,而航空旅客及空乘人员的伤亡人数只有256人,其中还包括911事件的伤亡数字。

由于对当时伤亡事件产生了主观反应,美国公众完全忽视了有效的统计风险测量结果,即飞机的安全系数要远远高于汽车。

错误的风险测量方法

1995年,英国医药安全委员会发布了一系列研究结果,服用第三代口服避孕药的人患血栓症的概率是普通人的两倍。这个研究结果很快传遍全世界。医生与药剂师向妇女传达了由预期结论得出的警告信息:意外怀孕与妊辰激增。接下来的一年时间里,仅仅在英格兰和威尔士流产案例预计增加了13,000人次。

尽管这些专家都经过科学和医学培训,但是他们严重忽视或忽略一个结果:绝对风险数量增加一倍才只有7000人次,也远远不及由怀孕与流产导致的血栓症风险。因此,相同的数据有两种描述方式:一是风险率相对增长100%,二是绝对增长数量为7,000。前者很容易占据新闻头条和引起公众跟风。而后者则不会造成太大影响,但是可能会避免很多痛苦。

Gigerenzer的书还有很多这样的故事,如果你有兴趣了解人们解读数字数据的方式及使用(或不使用)这些数字作为决策依据的方式,那么这本书很值得你阅读。事实是,即使经过科学训练,只有极少数人能够正确理解这个领域。因此,我们缺少区分不同风险表达方式及不确定性的能力,也缺乏一些帮助理解所得到结果的培训。对于世界上的一些概念,我们很容易陷入偏见或先入为主的错误理解方式。

当我们从“少量数据”世界(掌握简单算术就足够应付)过渡到充斥大数据统计的世界时,数据误解产生的危害也出现指数增长。无论自助服务商业智能有多厉害,它们也无法轻松扩展变成自助服务商业分析。业务用户(及许多数据科学家)都需要在理解和展示统计数据方面加强自身的能力。

最大的决策动因:潜意识行为

除了技能问题,还有一个更根本的问题,而911事件关于航空旅行方式的态度改变就是一个最好的例子。我将这种现象称为商业不智能(Business unIntelligence),并且在我的同名图书中提出了这个术语。按照西方商业思维方式,智慧几乎可以完全等同于合理和理智思想,特别是在决策过程中。这忽略了大脑的现实情况及其思维过程,其中有90%的想法是无意识发生的。决策很少是由数据驱动的,特别是那些会对个人产生影响或需要快速响应的决策。

心理学家及诺贝尔经济学奖得主Daniel Kahneman在他写的书《快思考与慢思考》中阐述了这个话题,但是他落入唯理性主义者的圈套,后者认为无意识思维源于有意识思维。这样就得出了一些结论:我们很容易作出一些严重错误且非常容易受外界干扰的决策,而且总是在有意识地保护自己。或者更坏的情况是,一些专制政府可能且总是会“迫使”我们作出一些有利于自身的决策。

当然,自我意识也很重要。然而,如果认为我们新进化的小小前额可以或应该完全超越大多数大脑的长期进化但潜意识发生的感知,那么这是极其短视的。这种感知对于现实世界的决策过程有很多影响——形式包括内在感受、直觉、有根据的揣测和探索,而它们会忽略得到的大部分数据。如果只关注于收集和堆砌不断增多的数据,那么我们就有迷失的风险。

在不确定的世界里,有一些事件是无法预测的,基于数据分析出来的概率只能让人得到一个决策。2008年金融领域发生的事件表明,过份依赖于预测风险模型是灾难性的,因为有一些东西不在模型参数的覆盖范围之内。Gigerenzer指出:“问题在于不正确的风险测量:这些方法错误地假定不确定的世界里有已知的风险。因为这些计算为一个不确定的风险产生了精确的数字,因此它们会产生一个虚假的确定性。”

在决策过程中完全依赖数据驱动或分析工具本身具有内在的危险性。人类决策者所带来的价值是他能够看到环境和理解业务环境。这些洞察力并不能完全由参数来描述。当然,它们也来源于一些信息:思想认识中的旧记忆或新思维模式。但是,它们大多数都基于计算机科学远远无法理解的思维处理模型,计算机还完全无法模拟出思维。这是一个宝贵的东西。

End

]]>
//www.otias-ub.com/archives/267260.html/feed 2
社交媒体民意调查初创Poptip被大数据分析公司收购 //www.otias-ub.com/archives/261764.html Thu, 31 Jul 2014 17:20:01 +0000 //www.otias-ub.com/?p=261764 QQ20140730-3.png

        Poptip是一家帮助企业在社交媒体上进行民意调查并分析网上言论的公司。它刚宣布其团队将在8月1日加入大数据分析公司Palantir。

        Palantir一位发言人确认了收购,但拒绝进一步评论。

        两家公司搭档似乎不太合适。我认为Poptip从事社交媒体上的营销和民意调查,而Palantir是一家把技术卖给政府部门和金融机构的数据分析公司。

        然而,Poptip的确可以给Palantir提供数据分析的经验。Poptip创始人Kelsey Falter在公司博客写到:

        Poptip团队不遗余力地发展创新科技,帮助商业公司加工零散的言论数据。我们很荣幸可以通过自己的产品,使数亿人的呼声得以量化。Poptip的工作使我们首次进入实时数据分析的领域。但我们知道,在创新和增长方面我们仍然有很大空间,而Palantir给我们提供资源去创新和增长。

        Falter称,Poptip将成为“发展中的纽约Palantir团队的一部分”。

        Poptip的投资者包括了风险投资公司Lerer Ventures、RSE Ventures和投资人David Tisch。去年Poptip融资1亿零7百5十万美元,公司估值高达90亿美元。

 

]]>
如何削减大数据分析的成本 //www.otias-ub.com/archives/212170.html Tue, 22 Apr 2014 08:14:23 +0000 //www.otias-ub.com/?p=212170 1375610676095

现如今,越来越多的企业和慈善机构纷纷进军大数据领域,以提高相关业务活动的有效性。

达伦•罗伯逊,是一家慈善机构Action for Children的数字通信官,他认为大数据领域的相关知识和洞察分析有可能成为彻底改变慈善事业的潜力。

近年来,随着经济大环境的恶化,慈善机构越来越需要扩充数据分析能力,试图提振筹款。

罗伯逊说:“慈善机构已经意识到他们已经采集了相当惊人的数据信息。”正如在企业商业领域一样,这些数据可以用来帮助慈善机构提升对于慈善事业的理解和更深入地了解他们为何以及何时选择捐赠。

这是一个重要的考虑因素,因为吸引捐助者的因素正在发生变化,据罗伯逊表示。

“全国性的募捐活动可能无法向过去那样轰轰烈烈了,我们无法通过全国性的电视宣传活动筹集到大量金钱。在这个时代,这是不可行的,而且也是慈善资金的浪费。”他说。

从网络数据中提取价值信息

罗伯逊认为,慈善机构应该转向基于Web的有针对性的宣传活动,以吸引捐助者,而不再是向以前那样的全国性的大规模募捐活动了。

“我是谷歌Analytics(分析)的粉丝,它是免费的,您从通过该工具对于您的网站获得一些基本的洞察分析。 ”他说。

现如今,该慈善事业所面临的挑战是如何深入并分析网络数据,保持每天3,000人次的访问量,包括与访问者的互动。

分析大数据的成本过高。 “我们制定了一套内部部署Hadoop的方案,但发现其将花费120万英镑,如果我们花了如此多的钱用于IT设备, 我们的捐助者们会不高兴的。”罗伯逊说。

Action for Children一直在使用Rackspace公司托管的云计算和数据中心服务,以便更好地定位自身的未来。主要目标包括网络流量高峰的成本效益管理和更好的数据分析,以提供更深入地了解捐赠客户和筹款活动。

2013年2月, Rackspace公司收购了ObjectRocket,开始提供MongoDB数据库作为一种服务。

罗伯逊说,能够作为一种按需的云服务在Rackspace的基础设施上运行MongoDB,帮助他们大大降低了成本,意味着该慈善机构并不需要专门在其团队内部雇用一个MongoDB专家。

需求大数据分析在整个慈善界产生了更广泛的影响,据罗伯逊介绍。 “我预计我们将看到更广泛的工作内容将转移到云中进行数据分析。 ”他说。

争取数据科学专家的时间支持

罗伯逊说,尽管他们可以通过云服务提供商来处理管理大数据所需的相关技术技能,但慈善事业仍然需要专门的人员帮助进行数据分析。

数据科学家是在商业机构最抢手的技能人手,可以获得非常高的薪金。但其实在某些领域慈善机构根本涉及不到,他说,这意味着“慈善机构不必担心支付非常高的工资给数据科学家” 。

而自从美国的数据科学家组织DataKind去年首次在伦敦举办活动以来,他们鼓励数据科学家们开始牺牲他们自己的一点私人时间来帮助慈善机构进行数据分析。

“企业社会责任感已经发生了改变。企业不一定要直接通过捐款,或者商业企业的员工也不一定想要通过帮助粉刷墙壁或做园艺来做义工。他们想利用他们的自己的知识和技能来帮助慈善机构。这就是DataKind组织非常棒的原因了。他们鼓励大量的数据科学家帮助慈善机构进行非常有用的数据分析工作。”罗伯逊说。

因此,与点播的Hadoop ,这要归功于Rackspace的ObjectRocket ,和数据科学家志愿者的供应,罗伯逊认为,该慈善机构现在可谓是占尽了充分利用大数据的天时地利人和。

模仿亚马逊

罗伯逊说,每个人都希望网站易于使用。 “这是来自商界一个连锁反应。人们看到像亚马逊和Netflix这样的网站已经内置了智能化的功能。”他说。这些网站使用推荐引擎,以人为本的根据访客的浏览历史推荐相关产品。

罗伯逊认为这超出了慈善机构的覆盖范围。 “我们从未足够的财政支持开发一款推荐的引擎。想想亚马逊已经为此投资了多少钱吧!”罗伯逊说。

相反,他需要如何构思一个接近于亚马逊的慈善网络引擎,允许该慈善机构能够基于他们所收集到的关于个人用户的信息来发布动态网页内容。

但他们仍然有很长的路要走,他说:“理论是有效的,但这是建立在我们的CRM客户关系管理系统的一个庞大的工作。我们没有和亚马逊这样的相同的商业巨头之一的技能实力。” 眼下,罗伯逊正在研究他所说内容模型。 “我一直工作在细分用户模型。”他说。虽然慈善机构基于理论倾向于做很多手工作业,但罗伯逊说,这不一定是最好的办法。

他一直在研究如何以最简单的方式将一群人聚集起来。”人们不可能每个活动都出席。”他指出每个月都向相同的受众发送的活动信息并不是好的技术使用方法,而为全部受众都发送活动信息也是不逻辑的。细分捐款人信息将是吸引捐助者,改善捐助活动活动有效性的重要一步,他说。利用细分,罗伯逊分析了随着时间的推移和各种主题募捐的收益情况。

由于该慈善机构CRM系统的局限性,罗伯逊认为,慈善机构必须在如何对待技术方面有很大的变化。“传统上,慈善机构采用专门为慈善机构定制的CRM软件。”他说。罗伯逊说,慈善界现在也要开始睁大眼睛,不再局限于定制软件,以降低成本。“并补充说:“定制的系统是与电子邮件系统繁琐和复杂的整合” 。

在罗伯逊看来,定制软件对慈善界并不是一件好事。他认为,开源软件将发挥非常积极的作用。而且他非常感谢如DataKind这样的组织,他表示,现在是时候让慈善机构开始分析大数据了。

虽然他们并可能并不总是能够获得类似于DataKind这样的帮助,但罗伯逊认为,有些慈善组织可能会在其内部的不同团队有相关技能的人才。他们将建立一些工作组,发挥作为数据科学家的作用。”他说。

]]>
大数据分析的价值和意义:直抵事实的真相 //www.otias-ub.com/archives/212045.html Tue, 22 Apr 2014 07:15:26 +0000 //www.otias-ub.com/?p=212045 大数据

 喻国明

  关于大数据分析,现实的情况是,说得人很多,鼓吹其神奇价值的喧嚣声浪很高,却鲜见其实际运用得法的模式和方法。造成这种窘境的原因无外乎有二:一是对于大数据分析的价值逻辑尚缺乏足够深刻的洞察;其次便是大数据分析中的某些重大要件或技术还不成熟。

  比如,提到大数据的大,一般人认为指的是它数据规模的海量——随着人类在数据记录、获取及传输方面的技术革命,造成了数据获得的便捷与低成本,这便使原有的以高成本方式获得的描述人类态度或行为的、数据有限的小数据已然变成了一个巨大的、海量规模的数据包。这其实是一种不得要领、似是而非的认识。其实,前大数据时代也有海量的数据集,但由于其维度的单一,以及和人或社会有机活动状态的剥离,而使其分析和认识真相的价值极为有限。大数据的真正价值不在于它的大,而在于它的全——空间维度上的多角度、多层次信息的交叉复现;时间维度上的与人或社会有机体的活动相关联的信息的持续呈现。

  《大数据时代》一书中所引述的,一个孕妇的口味及消费模式等是有一定规律的,单一一条信息并不足以判定你的状态,但关于你的不同来源的数据集合一旦与孕妇特型(如果我们掌握了这个分析模型的话)高度相关,人们便很容易对你的真实状态进行一种准确的判断而不管你自己承认或者不承认。

  再举个例子,面对今天社会舆情态势,常常有人感慨:“造谣的成本很低,辟谣的成本却很高”,抱怨现在的网络给造谣者造谣传谣带来的极大便利以及人民群众过于轻信谣言。如果我们用某个事件的数据、单一的和静态截面上的数据去观察和分析这个问题的时候,真的可能得出上述这样一种结论。但是,如果我们从社会传播的总体信息构造上去分析的时候,我们会发现,流言或谣言的猖獗不正在于一些掌握了社会信息传播主渠道的部门的不作为、甚至蒙蔽真相所造成的吗?因此,大数据分析的价值和意义就在于,透过多维度多层次的数据,以及历时态的关联数据,找到问题的症结,直抵事实的真相。

  因此,大数据分析在方法论上需要解决的课题首先就在于:如何透过多层次、多维度的数据集实现对于某一个人、某一件事或某一种社会状态的现实态势的聚焦,即真相再现;其中的难点就在于,我们需要洞察哪些维度是描述一个人、一件事以及一种社会状态存在状态的最为关键性的维度,并且这些维度之间的关联方式是怎样的,等等。其次,如何在时间序列上离散的、貌似各不相关的数据集合中,找到一种或多种与人的活动、事件的发展以及社会的运作有机联系的连续性数据的分析逻辑。其中的难点就在于,我们对于离散的、貌似各不相关数据如何进行属性标签化的分类。概言之,不同类属的数据集的功能聚合模型(用于特定的分析对象)以及数据的标签化技术,是大数据分析的技术关键。

  除此之外,就现实而言,有质量的大数据源常常掌握在少数权威机构、信息服务商手中,如何开放这种大数据源的使用,事关社会的发展和人民生活的福祉,笔者认为,应该从制度和机制上给予保障。

  (作者系中国人民大学新闻学院副院长、中国人民大学新闻与社会发展研究中心副主任、国家二级教授、中国传媒经济与管理研究会会长)

]]>
大数据分析中的基本评价指标 //www.otias-ub.com/archives/211504.html Mon, 21 Apr 2014 06:19:27 +0000 //www.otias-ub.com/?p=211504 分析指标做为数据分析为基础的大数据营销,自然要有一些基本的数字指标作为基础依据,然后在此基础上进一步挖掘我们所需要的,能指导我们运营的其他指标。这里先讲讲最原始的一些相应指标概念,以便后续在分析中能运用到。

越来越多的企业开始建设自己的网站,如果我们认为网站的作用是一个大平台而不是企业的画册,那就需要这个网站应该以一些可以量化、考核的指标来对该网站的效果进行评估,这是最后一公里的问题,也是最关键最重要的问题。建设一个优秀能带来效益的网站是第一步,接下来人才、经费、机制等等都是第二步。那评价指标体系就要包括网站本身的一些指标,也包括网络营销的指标。

可以讲企业电子商务评价模型分为四大块:第一是网站本身,第二是网站流量,第三是网站的电子商务指标,第四是客户价值指标。因为网站本身的评价指标就已经自成体系,本身就是一个很大的体系,所以下面我们分别对后三个方面的指标进行简单的说明。

网站访问统计分析的基础是获取网站流量的基本数据,网站流量统计指标一般可以分为三类,每类又包含很多数量的统计指标,分为流量指标和用户行为指标等。

1、网站流量指标 :该指标常用来对网站效果进行评价,主要指标包括:

1)、独立访问者数量(unique visitors);简称UV。

访问某个站点或点击某条新闻的不同IP地址的人数。在一个时段内,uv只记录第一次进入网站的具有独立IP的访问者,再次      访问该则不计数。独立IP访问者提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。

2)、重复访问者数量(repeat visitors)

是指某唯一访问者(UV)在指定期间内,访问过某网站两次或两次以上,那么此唯一访问者就是“重复访问者”。

3)、页面浏览数(page views);简称PV,

用户每1次对网站中的每个网页访问均被记录1次。用户对同一页面的多次访问,访问量累计。

4)、每个访问者的页面浏览数(Page Views per user);

该指标高的话说明“粘性”大 也就是访问者显示出对网站感兴趣并愿意长时间停留获得更多内容的趋势

5)、某些文件/页面的统计指标,如页面显示次数、文件下载次数。

2、用户行为指标

用户行为指标主要反映用户是如何来到网站的、在网站上停留了多长时间、访问了那些页面等,主要的统计指标包括:

1)、用户在网站的停留时间;

2)、用户来源网站(也叫“引导网站”);

3)、用户所使用的搜索引擎及其关键词;

4)、在不同时段的用户访问量情况等。

3、用户浏览网站的方式 时间 设备、浏览器名称和版本、操作系统。用户浏览网站的方式相关统计指标主要包括:

1)、用户上网设备类型;

2)、用户浏览器的名称和版本;

3)、访问者电脑分辨率显示模式;

4)、用户所使用的操作系统名称和版本;

5)、用户所在地理区域分布状况等。

以上这些指标都属于最基础的指标,一般通过嵌码的方式得到,是非常原始的指标,通过这些基础指标配合其他多种的分析方法可以得到我们对某一特定行为的指标,通过数据分析师的解读从而找到反映出来的真实现象。所以采集数据的技术含量没有什么,分析师的解读才是关键中的关键,不管我们懂与不懂,数据就放在那里。同样的数据放在那里深入的解读才是大数据营销中的关键。

 

]]>
对大数据分析有哪些流行误解? //www.otias-ub.com/archives/207309.html Thu, 03 Apr 2014 14:01:43 +0000 //www.otias-ub.com/?p=207309 big-data-asia

大数据产生的背景是整个社会走向数字化,特别是社交网络和各种传感设备的发展。云计算和搜索引擎的发展,使得对大数据的高效分析成为可能,核心问题是如何在种类繁多、数量庞大的数据中快速获取有价值信息。大数据在社会分析、科学发现和商业决策中的作用越来越大,金融只是其中的一个应用领域。

什么是大数据

大数据是一个新概念,英文中至少有三个名称:大数据(big data)、大尺度数据(big scale data)和大规模数据(massive data),至今未形成统一定义。但一般认为大数据具有四个基本特征(即所谓4V特征):数据体量庞大(volume)、价值密度低(value, 也有人理解成应用价值巨大)、来源广泛和特征多样(variety)、增长速度快(velocity, 也有人理解成需要高速分析能力)。

从学术角度,对大数据的讨论基本属于数据科学(Data Science)和数据挖掘(Data Mining)的范畴。

大数据的主要类型:第一类是记录数据,即记录的汇集,其中每个记录包含固定的数据字段(或属性)。比如,计量经济学中的横截面数据,文档数据,事务数据或购物篮数据;第二类是基于图形的数据,包括带有数据对象之间联系的数据和具有图形对象的数据,比如网页链接、化合物结构;第三类是有序数据,包括时序数据、序列数据、空间数据。比如,宏观经济指标序列,金融价格序列,基因组序列,词或字母的序列,同一时点上从不同的地理位置收集的气象数据(温度、湿度、气压等)。

大数据分析的主要任务:第一类是预测任务,目标是根据某些属性的值,预测另外一些特定属性的值。被预测的属性一般称为目标变量或因变量,被用来做预测的属性称为解释变量和自变量;第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。描述性任务通常是探查性的,常常需要后处理技术来验证和解释结果。具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。

大数据分析与计量经济学的差异与联系

大数据分析与计量经济学既有差异又有联系。

两者的差异表现为:第一,两者处理的数据类型不同。计量经济学处理结构型数据,主要包括横截面数据、时间序列数据和面板数据,一般能以excel表格的形式呈现,而且表格的行列都有清晰的经济学含义,有一致统计口径。大数据分析能处理很多非结构型数据,包括文档、视频、图像,一般难以用excel表格的形式呈现。但这些非结构型数据需要量化后才能分析,在量化中一般伴随着信息损失。

第二,两者分析重点不同。计量经济学分析的重点是假设检验,核心理念与波普的证伪主义非常接近。计量经济学就是通过假设检验,来证伪或支持(注意不是证实)某个经济理论。相比之下,大数据分析更具实用主义色彩。预测在大数据分析中占有很大比重。对预测效果的后评估也是大数据分析的重要内容。

大数据分析与计量经济学的内在联系也不容忽视。在对随机问题的处理上,它们没有本质差别,基础理论都是概率论和数理统计。

对大数据分析的主流误解

舍恩伯格与合作者的《大数据时代》非常流行,但里面的很多核心观点都值得商榷。

第一,他们认为,大数据分析不是针对随机样本,而是全体数据。尽管数据收集和分析手段足够发达后,对全部数据的收集和分析成为可能,但从成本收益上衡量,这样做不是总有必要。根据中心极限定理,统计分析质量与样本数量之间存在平方根关系。比如,样本数量提高100倍,分析质量提高10倍。而统计分析工作量与样本数量之间存在线性关系。比如,样本数量提高100倍,存储和计算量一般增加100倍。这样,样本数量增长到一定程度后,新增工作量对应的成本就会超过质量提高产生的好处。因此,通过科学设计的抽样调查获得有代表性的样本,在大数据分析中仍有价值。

第二,他们还认为,大数据分析不是因果关系,而是相关关系。这个说法在统计学中是老生常谈,不是什么新观点。统计学基于相关关系,只能被用来证伪因果关系,而不能被用来证实因果关系。大数据分析的基础理论也是概率论和数理统计,从根本上就属于相关关系的范畴。

第三,大数据分析也不是万能的。基于大数据的预测可以抽象表述为:用 表示已知信息,用 表示未知信息,寻找关于 的函数 作为 的预测。预测误差是 ,用 (类似于均方误差)来衡量预测效果。概率论有一个基本结论:

对任意 ,总有 ,其中等号仅当 时才成立,所以 也被称为最佳预测(best predictor)。

可以看出两点结论:首先,大数据分析中,各种算法的核心任务是使 尽可能接近理论上的最优预测 ;其次,即使在最优预测上, 代表的预测误差仍不能被消除,是内生于信息结构的。比如,即使信息技术非常发达,如果现实世界中仍有部分信息不能被数字化(从而不能用在大数据分析中),这部分被“尘封”的信息就决定了大数据分析的有效边界。

第四,大数据能降低信息不对称的程度,但不能消除随机性(不确定性);有助于评估风险(未来遭受损失的可能性,其中损失分布可计量),但不能消除奈特式不确定性(其中损失分布不可计量)。

编者注: 本文为博鳌观察特约撰稿,文中观点仅代表个人,不代表作者所属单位

谢平、邹传伟

中国投资有限责任公司

]]>
大数据分析成旅游移动个性化关键 //www.otias-ub.com/archives/192948.html Sat, 08 Feb 2014 13:44:04 +0000 //www.otias-ub.com/?p=192948 350478-phone-overseas

旅游企业Expedia、Orbitz和其他公司正在积极利用大数据来打造新一代的移动体验。这些公司希望从智能手机和平台电脑用户中获得更多的订单。

旅游业迅速意识到了移动渠道所蕴含的潜力,它能提高旅客体验并带来收益。许多旅游企业的移动渠道订单都占了很高比例。除了现有的移动预订策略以外,许多企业现在正在进一步探索数据库这个宝藏,希望开发出旅客心目中必备的新一代移动功能和服务。

“从酒店业到航空业,每个企业都应该重点提升自己在移动服务方面的整体用户体验。”Forrester Research的副总裁兼首席分析师Julie Ask如是说道。

“航空业和酒店业以及在生态系统中的其他行业已经研发了API接口,它既能为内部使用,也可以为第三方使用来拖取数据和服务消费者。”

“这不是一个关于航空业或者酒店业现在把旅客服务得很好的问题。这些旅客对于航空业或酒店业来说是非常有吸引力的一个消费群体,他们频繁在旅途中使用智能手机上的旅游相关服务。每个处于旅游生态系统中的企业都希望自己是不可替代的。”

 酒店房价热点地图

Amadeus去年秋季发布的一份报告显示,通过提高决策、驱动产品和服务创新以及提升顾客关系,大数据可以帮助旅游企业更好地满足顾客的需求。这份报告同时也敦促旅游企业马上行动起来,从而占据先机。

Orbitz和Expedia都在利用数据来打造独一无二的移动体验,他们在此方面处于领先地位。

例如,Orbitz在一月时推出了全新的Orbitz Labs页面,以测试一系列的新工具,其中能够被消费者接受的工具将被整合入Orbitz的移动端和PC端预订引擎。

其中一个工具能够让用户依据预订日期来搜索酒店的历史房价,这样顾客就能够决定预订的最佳时机,获得最便宜的房价。酒店的房价热点地图也通过地理分布的形式提供了类似的信息。

Orbitz还提供了展示每日机票搜索情况的模拟地图。

此外,还有帮助顾客预订大型赛事举办地last-minute机票和酒店客房的工具。它们被称作“Big Game Flight Finder”(Big Game机票搜索引擎)和“Big Game Hotel Finder”(Big Game酒店搜索引擎),这些工具似乎尤其适用于移动端,因为许多航空公司和酒店移动渠道的last-minute订单获得了显著增长。

 分析预订模式

对数据的重视同样体现在了一月份Expedia在移动应用和PC端推出的几个新功能上,它们分别是Flight Recommendations(机票推荐)、Scratchpad以及Itinerary Sharing(路线分享)。

Expedia的研究显示,人们在预订机票前会在旅游网站间进行48次搜索。Flight Recommendations的推出就是为了简化这一过程。它通过分析顾客旅游和预订模式来为搜索者提供他们也许感兴趣的可选航线。

当顾客进行一次搜索时,他们可以和其他进行类似搜索的顾客比较搜索结果,他们的搜索词只有一两个参数的差别。Expedia希望这个能够帮助顾客更快地找到更便宜或是更方便的旅游方案。

Scratchpad为用户提供存储搜索的功能,之后他们就可以随时回来查看自己的搜索,他们也可以将内容发送到自己的邮箱。对于登录用户来说,可以在一个设备上开始搜索,然后在另外一个设备上完成搜索,内容则可以在不同的设备间共享。

Itinerary Sharing可以让顾客通过邮件、AirDrop、短信或Facebook来分享自己的旅行线路。当他们与同样使用Expedia移动应用的顾客进行线路分享时,后者也可以收到该线路相关延误和到达时间的应用推送消息。

下一代的移动旅游服务将会利用数据来打造高度个性化的体验,并开始预测顾客的需求。

“例如,一家航空公司知道航班时间,甚至还有我的所在地,他们可以推测出我的需求,并通过移动端在恰当的时间提供给我相应服务。”Ask女士说道。

“假如我现在还有一小时就要起飞,我不大可能会在期间预订下一次出行的航班,我更可能是需要升舱服务或是食物。”

“通过对文本的利用,旅游移动应用将开始预测我的需求并采取行动,例如再次预订某班航班,或是改变来机场接送我的时间,或是我入住酒店的时间。”

via:traveldaily

]]>
2014年大数据分析趋势展望 //www.otias-ub.com/archives/185758.html Wed, 08 Jan 2014 15:58:19 +0000 //www.otias-ub.com/?p=185758

市场研究公司IDC预测,2015年大数据市场规模将从2010年的32亿美元增长到170亿美元,复合年增长率为40%。大数据是一个庞大的新的领域,其中的数据集可以增长的非常庞大,以至于使用传统的数据库管理工具也很难处理。处理这种问题所需要的新工具、框架、硬件、软件和服务是一个巨大的市场机会。随着企业用户越来越多地需要连续不断地访问数据,好的大数据工具集将以最低的成本和接近实时的速度提供可伸缩的、高性能的分析。通过分析这种数据,企业可得到更大的智能以及竞争优势。下面是Hadoop和大数据专业厂商MapR共同创始人和首席执行官约翰·施罗德(John Schroeder)对2014大数据市场的预测。

1. SQL拥有大数据的最大潜力

用于 Hadoop(分布式计算)的SQL的发展能够让商业分析师利用自己的技能和选择的SQL工具执行大数据项目。开发人员可以选择Hive、Drill和 Impala等Apache项目,以及选择Hadapt、HAWQ和Splice Machine等公司的专有技术。

2. 尽管如此 SQL还面临挑战

SQL需要数据结构。而集中的结构化数据可引起延迟并且需要人工管理。SQL还限制分析类型。过分强调SQL将延迟机构全面利用其数据价值的努力和延迟反应。

3. 身份识别是主要的数据安全问题

随着Hadoop(分布式计算)中提供的接入控制能力的猛烈攻击,机构迅速认识到线路级身份识别是必要的基础。没有充分的身份识别,任何更高级的控制都很容易被绕过,妨碍预定的安全计划。

4. 数据错误变成学习机会

2014年机构将出现许多数据错误。数据错误将表明基础的来源系统的问题吗?数据错误是在下游分析中出现偏差导致的数据提取问题吗?数据错误将表明定义差异或者缺少跨部门和业务部门的一致性吗?2014年将看到解决数据异常问题。

5. 出现可运行的Hadoop

2014年将看到Hadoop在各个行业中的生产部署显著增加。这将显示出Hadoop在运营中的实力。在那里,生产应用与分析结合在一起能够提供可以衡量的商业优势,如在客户化零售建议、诈骗检测和试验传感器数据进行规范的维护等应用中提供这些优势。

6. 更多的数据仓库将部署企业数据中心

数据中心把数据提取处理和数据从企业数据仓库卸载到Hadoop。作为一个核心的中心企业中心,数据中心要便宜10倍,能够对额外的处理或者新的应用进行更多的分析。

7. 新的以数据为中心的应用将成为强制性的

利用大数据的能力将在2014年成为竞争的武器。更多的公司将使用大数据和Hadoop准确地针对个人消费者的偏爱追逐赚钱的追加销售和交叉销售的机会,更好地缓解风险以及减少生产和开销成本。

8. 数据成为数据中心的核心

机构将从开发者过渡到大数据计划中。IT部门将越来越多地担负定义支持多种应用的数据基础设施的任务,把重点集中在部署、处理和保护一个机构的核心资产所需要的基础设施方面。

9. 搜索将成为非结构化的查询语言

2013年有大量的用于Hadoop的SQL计划。2014年将是这种非结构化查询语言成为重点的一年。把搜索集成到Hadoop将为查找重要信息的企业用户提供一种简单和直观的方法。搜索引擎还是包括推荐引擎在内的许多发现和分析应用的核心。

10. Hadoop将获得地位

Hadoop将继续取代其它IT开支,颠覆企业数据仓库和企业存储。例如,甲骨文的主要营收目标在过去的10个季度里有5个季度没有实现。Teradata在过去的5个季度有4个季度没有实现营收和利润目标。

11. Hadoop仍需要帮助才能成为主流应用

更多的机构认识到Apache Hadoop本身还没有准备好在企业应用。Apache Hadoop不是为系统管理或者灾难恢复等统一企业IT流程设计的。企业将继续推进混合的解决方案,把架构技术创新与Apache Hadoop的开源软件结合在一起。

]]>
中桥咨询:大数据分析如何权衡存储 //www.otias-ub.com/archives/163789.html Thu, 24 Oct 2013 04:17:58 +0000 //www.otias-ub.com/?p=163789 针对大数据分析的重要一环—存储,中桥将结合市场热门的存储技术如闪存、固态盘等,来从存储性能、数据保护等角度进行分析。

通过前文的相关数据分析,我们已经了解到,随着大数据时代应用数量、应用数据量和使用者数量的增长,系统对存储IOPS以及OLTP和OLAP的要求越来越高。传统存储也越来越无法满足业务关键应用的性能需求,这驱动了中国企业未来24个月新存储的部署。而固态盘、闪存技术作为新型存储,已经得到越来越多的企业的青睐。中桥的调查数据也验证了这一点。企业采用固态盘或闪存技术的主要原因排列如下:提高桌面虚拟化的性能、提高OLAP性能需求、满足业务关键应用性能和低延迟要求、提高虚机密度应用性能等。而桌面虚拟化、OLAP高要求、业务关键应用、低延迟以及高虚拟机密度也正是大数据时代的典型特点。

图1. 选择固态盘或闪存技术的主要原因(来源:中桥国际调研咨询的调查报告)

那么对于中国企业而言,所选择的新型存储技术应该以什么样的指标来权衡,才能确保整个大数据分析流程平稳、高效运行?中桥对企业的调查结果显示(图2),存储高可扩展性、高可用性和并行处理能力是企业评估大数据存储最重要的三个因素。高可扩展性可以确保企业的IT能够随着数据量的增长和性能需求进行扩展,以满足海量数据的存储和处理需求;高可用性则能够保证大数据分析过程的平稳、无间断运行,确保了业务连续性;高并行处理能力则能够确保在大数据处理过程中同时进行更多数据的处理,高效地完成数据分析,从而将分析结果转化为业务决策,加快产品或技术的面市周期。此外,低延迟、自动分层存储以及10GbE支持等也是用户评估大数据存储的重要考核因素。

图2 . 评估数据分析存储技术的重要指标来源:中桥国际调研咨询的调查报告

我们再换一个角度来继续解读一下存储。众所周知,不同类型的数据,其生命周期也是不同的,而根据数据类型和生命周期来进行存储资源分配,则能够有效提高存储利用率,这对于大数据的存储开支非常关键。此外,数据的有效管理也决定着生产应用的性能。中桥调查结果显示(图3),大量中国用户所采用的数据库面临着性能压力(84.4%),且没能有效地进行数据的归档和清理,其中,24.6%的受访企业甚至不进行数据归档和清理,还有高达34.9%的受访企业采取手动方式来进行数据归档和清理。将非活跃数据从主存储资源上清理出来,并根据数据类型和生命周期进行分层存储和归档,尽可能提高存储利用率的同时,还能够确保生产应用性能的稳定性,为数据分析提供所需的性能,有效降低主存储开支,延缓存储采购周期。

图3. 数据的归档和清理来源:中桥国际调研咨询的调查报告

在大数据时代,海量数据给企业带来的不仅仅是系统性能和存储难题,数据保护也是企业的一大焦点。中桥调研结果显示(图4),用户就面临的数据保护挑战排列如下:“数据备份影响业务性能”(25.1%)、“数据保护网络带宽需求大”(20.7%)、“分级存储读写性能不能满足要求”(19.3%)。这表明,在大数据时代,海量数据的备份和保护以及分级存储,将对业务性能带来很大影响,包括对网络带宽的影响。这也从侧面再一次表明数据的分级存储对企业的重要性。

图4大数据数据保护的最大挑战来源:中桥国际调研咨询的调查报告

数据是大数据时代通过IT创造价值的“种子”。在大数据分析的四个重要环节中——数据采集和存储、数据清理和整合、数据分析、分析呈现——满足大数据演进过程中对容量、性能和业务连续性的需求,提升资源利用率降低存储开支,不仅能保护好大数据这个“种子”,也是选择大数据存储的重要考虑因素。

]]>
中桥调研咨询:大数据系列之大数据分析对IT资源的需求 //www.otias-ub.com/archives/162836.html Tue, 22 Oct 2013 11:30:43 +0000 //www.otias-ub.com/?p=162836 在系列1里,中桥就大数据分析对未来24个月以及企业的大数据分析投入重点进行分析。在系列2 里,中桥将就大数据分析对IT资源的需求,包括IT架构、计算节点以及存储技术等进行分析。

  大数据分析对IT架构的需求

在大数据时代,随着数据存储量的爆炸性增长以及分层网络架构的出现,IT复杂性达到了前所未有的高度,而大数据分析使得传统IT架构更是不堪重负。那么从企业角度来看,他们的大数据环境需要怎样的IT架构呢?中桥调查结果表明(图1),企业级用户(员工人数在1000人以上)主要选择的是“透明、经济、智能、自动化”的IT架构(29.3%),中小企业(员工人数在1000人以下)则主要选择的是一体机方案(服务器、存储、网络、大数据分析软件)(28.9%)。企业级用户倾向于开放、异构、跨平台的IT架构,因为其用于大数据分析的IT架构发展较为成熟,如何继续提高BI效率是企业级用户选择IT架构的重点。中小企业尚处于IT架构发展初期,因此一体机的方案成为中小企业的首选。受访者的选择结果也体现了中国企业未来对IT架构的需求趋势,说明数据整合和ETL是中国企业的迫切需求,也是目前面临的最大问题之一。

大数据分析之大数据分析对IT资源的需求

  图1. 大数据环境对IT架构的需求

  大数据分析对计算技术的需求

再从大数据分析的计算方式来看(图2),21.6%和21.3%的企业级用户分别考虑x86虚拟化和小型机来部署大数据分析方案,中小企业(23.8%)则主要考虑刀片服务器的计算方式。刀片服务器的高密度特点有利于提高计算能力、保持高IT密度。企业级的应用多数运行在小型机的平台上,这造成如果大数据分析是在现有基础上实现,则小型机就成为了企业级的首选;如果要选择在一个全新平台实现大数据分析,那么X86虚拟化就成为了企业级用户的第一选择。结合我们之前所分析的,目前中国市场的大数据分析速度和频率远低于欧美市场,这导致中国企业在数据分析,这个大数据通过IT创造价值,这一重要环节上比较薄弱。

大数据分析之大数据分析对IT资源的需求
▲图2.大数据分析对计算技术的需求

  大数据分析对存储的需求

从大数据分析的第一个环节——数据收集和存储来看,大数据时代应用数量、应用数据量和使用者数量的增长,对存储IOPS以及OLTP和OLAP的要求越来越高,具体体现在存储不能满足业务关键型应用的需求。从中桥就企业支持当前数据分析和/或进程活动的存储类型分析来看(图3),FC SAN是企业级用户(42.1%)和中型企业(34.0%)的首选,远高于其他存储类型的企业占比。这是因为FC SAN对OLTP和OLAP的性能稳定性优于其他存储技术。这一调查结果也体现了,目前中国用户大多处于大数据分析的第一阶段,存储和IT架构大多以集中式为主。随着Hadoop和MapReduce的不断普及,用户逐渐进入近实时和实时分析阶段,节点式存储的占比会随之逐渐增加。

大数据分析之大数据分析对IT资源的需求
▲图3.大数据分析对存储的需求

  那么在大数据时代企业的存储能够满足需求呢(图4)?中桥调研结果显示,31.6%的用户计划在未来12个月部署新存储来满足业务关键型应用的需求,33.2%计划在未来12-24个月部署新存储。这表明传统存储越来越无法满足业务关键应用的性能需求。在未来24个月,64.8%的用户将会部署新存储来满足大数据时代,业务关键型应用对存储性能越来越高的需求。

大数据分析之大数据分析对IT资源的需求
▲图4 大数据分析时代存储的发展趋势

  通过上述一系列大数据对IT资源的需求分析,中桥分析师认为,传统的IT架构、计算方式以及存储正成为中国用户通过大数据分析处理快速提高IT效率,挖掘数据价值的巨大阻碍。而统一、透明、智能的自动化IT架构管理、高密度下卓越的计算能力,以及能够满足存储IOPS与OLTP和OLAP的新型存储则能够为企业创造价值,实现通过IT突破创新来提升企业竞争力的目的。

]]>
大数据分析 助力行业差异化转型 //www.otias-ub.com/archives/151705.html Sat, 14 Sep 2013 16:43:39 +0000 //www.otias-ub.com/?p=151705

1、金属材料行业

2012年金属材料行业日均搜索指数为105.4万,与2011年相比增长6.4%;受春节长假影响,金属材料行业搜索指数在一季度达到全年最低点。

2012年,金属材料行业搜索量增长最高的细分行业为金属板材、焊接设备、金属管材和不锈钢材,增长率分别达到27.9%、19.4%、19.3%和15.9%,远高于金属材料行业6.4%的增长幅度。

在金属材料行业中,金属管材和钢铁钢材受关注度最高,分别达到13.4%和12.4%;此外,不锈钢材、焊接设备和金属板材等也拥有较高的关注度。

金属材料行业中网民搜索次数最高的关键词为我的钢铁网,2012年为13.6万次,无缝钢管、不锈钢和电缆沟盖板也是搜索度较高的关键词。品牌“长春304”是唯一进入金属材料行业前十关键词的品牌,2012年搜索次数为3.4万次。

2、通用机械行业

2012年通用机械行业日均搜索指数为58.4万,与2011年相比增长7.8%。网民在春节和国庆假期对通用机械行业搜索度最低,全年搜索高峰出现在第二季度,第三、四季度出现缓慢下滑。

2012年,通用机械行业搜索量增长速度最快的细分行业为变速设备,幅度高达36.2%;泵类和锅炉搜索量同比增长16.5%和10.4%,增幅均高于通用机械行业平均水平。

在通用机械行业中,网民关注度最高的产品为泵类和粉碎设备,比例分别达到17.8%和11.2%;此外,网民对干燥设备、压缩分离设备、变速设备、锅炉和制冷设备等关注度也较高。

通用机械行业中网民关注最高的关键词是空压机,2012年搜索5.4万次,此外,冷库、减速机、锅炉、破碎机、球磨机和真空泵等也拥有较高的关注度。前十关键词中没有品牌进入。

3、通用零配件行业

2012年通用零配件行业日均搜索指数为47.2万,与2011年相比增长10.2%。3月份达到全年的峰值,此后搜索量微幅下降。

2012年,通用零配件行业搜索量增长最高的细分行业为阀类,增长率达到25.4%,增长幅度高于通用零配件行业的10.2%。

在通用零配件行业中,网民对阀类和轴承关注比例较高,分别达到23.0%和17.1%;此外,网民对传动件和液气压元件等也有较高的关注度。

4、五金机械行业

2012年五金机械行业日均搜索指数为41.2万,较2011年增长12.7%。网民在电工器材行业线上搜索度二、三季度最高;春节和国庆假期行业搜索指数达到低谷。受中国国际机械五金模具展览会影响,11月搜索指数达到一个高峰。

2012年,五金机械行业搜索量增长最高的细分行业为量具、五金工具和五金配附件,增长率分别为27.4%、20.5%和13.2%,高于五金机械行业12.7%的增长幅度。

在五金机械行业中,网民对五金配附件、建筑五金和五金工具关注比例较高,分别为22.7%、19.7%和16.6%;此外,量具等也拥有较高的关注度。

五金机械行业中网民关注的关键词有较明显的特点,“拉手”在2012年被搜索40万次,远高于其他关键词。

5、工程机械行业

2012年工程机械行业日均搜索指数为32.6万,同比增长5.2%。受元旦和春节假期影响,工程机械行业搜索指数在1月份为全年低谷;受到3月中国国际工程机械展影响,搜索量在3月达到全年峰值;此外,网民在国庆假期的搜索量较低。

2012年,工程机械行业搜索量增长最高的细分行业是工程起重机械行业,增长率达到22.6%,机动工业车辆增长14.8%,制砖瓦机械增长7.3%,增幅均高于工程机械行业平均水平。而土方机械搜索量同比有所萎缩。

在工程机械行业中,土方机械和工程起重机械搜索比例分别达到22.8%和21.1%,此外,制砖瓦机械和机动工业车辆也有较高的搜索比例。

工程机械行业中网民关注最高的产品是挖掘机视频和挖掘机,2012年搜索量分别达到12.9万次和10.2万次。

6、化工机械行业

2012年化工机械行业日均搜索指数为29.9万。受元旦和春节长假影响,1月份搜索指数达到全年低谷;此外,国庆假期网民对化工机械行业搜索热忱度也较低。

2012年,化工机械行业搜索量增长最高的细分行业为加热设备,增幅达到32.4%,温控设备增长幅度为14.1%。

网民对化工机械设备关注点较分散,化工分离设备关注比例达到16.9%,其余设备关注比例均低于10%。

2012年,化工机械行业中网民关注度较高的产品有反应釜、压滤机和冷水机等。(数据来源:百度提供的资料)

]]>
十个有效的大数据分析途径让你更了解用户 //www.otias-ub.com/archives/136983.html //www.otias-ub.com/archives/136983.html#comments Wed, 07 Aug 2013 12:38:02 +0000 //www.otias-ub.com/?p=136983

我们正处于福雷斯特研究公司所描述的“用户时代”,这个时代中驱动业务决策的不再是公司,而是用户。基于这个原因,深度理解用户的重要性已经远胜以往,因此许多机构开始使用大数据技术来挖掘用户信息。

在这个时代,企图收获成功(甚至是求生存)的在线业务必须切实的理解顾客的体验和行为,因此海量数据的收集及挖掘能力成了这些机构的必备手段。当下,有许多机构的分析仍处于数据的收集上,组织能力的缺乏和技术的限制让这些收集来的数据失去了应有的价值。而在用户体验上也缺乏按部就班的计划,从而丧失了获取关键见解的途径。因此,这样的数据分析有很大的误导、不完整及不确定性。

收集和分析正确的数据、切实的理解用户体验及用户行为已成为当务之急,下面将分享10个大数据的使用方法,可以帮助机构从用户交互中获得见解、提高用户忠诚度并从根本上取得竞争优势:

1.将网络传输中的数据看做“金矿”并进行挖掘。你的网络中包含了大量其它公司无法从中获益的数据,收割这些数据中的价值是你真正理解用户体验的第一步。

2.不要总是用假设去了解你的用户,并且知道他们需要什么。拥抱用户,并且切实的了解用户行为,要比去假设要好的多。保持客观,从实际数据中获得见解。

3.尽可能的收集数据,从而减少盲点。盲点可能导致丢失关键信息,从而得到一个歪曲的用户体验观。确认你收集了一切可以影响到用户体验和行为分析的数据。

4.对比数据的体积,我们该更看重数量。收集好数据之后,专注于重要的数据来做分析方案。

5.迅速。用户需求优先级总是在变化的,技术需要迅速的做出分析并做调整。这样才能保证你分析出的不是过时结果,对于随时都在改变的需求,你需要迅速的收集数据并做出响应的处理。

6.实时的业务运作。这就需求对数据的实时分析并获取见解,从而在情况发生后可以实时的做出调整,从而保证最佳的用户体验及经营结果。

7.分析不应该给产品系统带来风险,也就是分析永远都不应该给用户体验带来负面的影响。所以尽可能多的捕捉数据,避免盲点才能让分析出的见解不会对业务有负效应。

8.利用好你数据的每一个字节,聚合数据可能会暗藏关键见解。这些信息片段可能会反应最有价值的见解,可以帮助持续的提升用户体验及经营效果。

9.着眼大局。捕捉与你站点或者网络应用程序交互的所有数据,不管是来自智能手机、平板或者是电脑。丰富数据,将不同储存形式之间的数据关联起来,确信这些点都被连接了起来。在处理中关联的越早,获得的见解就越完整、精准、及时和有效。

10.和平台无关,确保你的大数据分析能力不会受到设备的类型限制(笔记本、台式机、智能手机、平板等)。

via:CSDN

]]>
//www.otias-ub.com/archives/136983.html/feed 1
实时社交网络大数据分析初创企业Dataminr获3000万美元融资 //www.otias-ub.com/archives/124460.html Thu, 13 Jun 2013 09:50:41 +0000 //www.otias-ub.com/?p=124460
帮助企业客户在微博大海中捞针的实时社交网络大数据分析初创企业Dataminr刚刚在 C 轮融资中获 3000 万美元。

Twitter 让数百万的人能接触到他人发出的实时信息,但是信息爆炸也会引发一个问题。即你关注的人越多,就越有可能错过重要的 tweet。而 Dataminr 的软件试图解决的就是这个问题—它会在每天发出的数百万条微博构成的大海中进行搜寻,然后找出最重要的那些向客户发出警示。这样客户就不需要花时间盯住屏幕不放了。

成立于 2009 年的 Dataminr 是一家实时社交网络分析公司。其愿景是为进入和政府客户从社交媒体中析取价值。该公司与 Twitter 建立了战略合作伙伴关系,可以访问其海量的公共微博库 Twitter Firehose of Public Tweets。该公司去年发布的产品可以让客户设定感兴趣的关键信息,然后返回经过定制的相关微博结果。Dataminr 产品的功能包括仪表盘、截图、告警细节等,其算法综合考虑了 Twitter 用户的位置、信誉、新闻外部引用、市场容量、市场价格等因素来提供告警信息。此外,Dataminr 的算法也考虑了告警信息的误报。其算法利用了 Twitter 的自修正能力—一旦某人发出的微博是有误的,马上就会有人指正,这种行为会通知 Dataminr 的算法引起注意。


在上个月巴尔的摩附近的一次货运火车出轨事故中,Dataminr 比新闻机构提前 16 分钟发布了信息。而出事火车所属公司的股票在新闻媒体报道事件后马上出现下跌,这一点充分反映了 Dataminr 数据分析早期预警系统的价值。

Dataminr 目前已经吸引了银行、政府、对冲基金等方面的客户,他们用这套系统来作为自己的早期预警系统。而美国证交会(SEC)现在已批准公司可以将社交网络作为新闻发布渠道,因此 Dataminr 的系统采用率只会越来越高。该公司正打算将产品推向更多的垂直领域。

此轮融资由 Venture Partners 和 Venrock 领投,Deep Fork Capital 等也参与了此轮融资。此轮融资后其总融资额已达 4650 万美元。

除了 Dataminr 以外,还有若干公司可以处理 Twitter 的公共微博库资源,包括 DataSift、Gnip 以及 Topsy。在数据爆炸的背景下,有用的信息往往会淹没在垃圾信息的洪流中,所以这些排沙简金的企业才会有存在的价值;或者,除非众人能够像我们在雨中的泪水:数据之死的荣耀中所提到的那样,众人有利用 Snapchat 这类产品的自律。

]]>
Twitter收购大数据分析公司Lucky Sort //www.otias-ub.com/archives/114596.html Tue, 14 May 2013 06:42:15 +0000 //www.otias-ub.com/?p=114596

据美国科技博客TechCrunch报道,Twitter周一宣布收购大数据分析公司Lucky Sort,并将在未来几月中关闭其服务。

Lucky Sort位于俄勒冈州波特兰市,主要产品是可视化导航引擎Topic Watch,该产品能帮助用户掌握实时数据流的模式。Topic Watch 是Lucky Sort第一款产品,该服务能够让用户对社交媒体、政府文件、新闻和评论内容进行实时筛选,以便用户搜索、总结和分析这些基于文本的内容。除Topic Watch之外,Lucky Port还有其它数据类产品。

Lucky Sort过去的业务还广泛涉及大数据,并通过自然语言处理(NLP)技术来挖掘庞大的非结构化数据。Lucky Sort的独特之处在于,该公司并非像传统的NLP技术那样,从包含名词、动词等的非结构化数据库结构中找出结构,而是通过统计数据来进行非结构化数据挖掘,并建立数据处理可视化界面,该界面支持触屏。

Lucky Port自成立以来运营状况平稳,有消息称该公司于2012年早期获50万种子融资。在被Twitter收购之前,Lucky Port 共融资60万美元。其中一位投资人诺曼•帕卡德(Norman Packard)博士担任Lucky Port首席科学执行官(Chief Science Officer),但此次帕卡德将不会加入Twitter,而包括CEO 诺亚・佩波尔(Noah Pepper)在内的几位成员将在未来几个月内陆续迁入Twitter旧金山总部的创收工程部门。目前双方的交易细节尚未公布。

除Lucky Port外,Twitter近期内还收购了数据分析公司Ubalo、音乐发现服务We Are Hunted 以及视频分享服务Vine等。

原文地址:http://smb.zol.com.cn/372/3728279.html

 

 

]]>
Google投资大数据分析公司ClearStory Data //www.otias-ub.com/archives/28387.html Tue, 20 Mar 2012 15:16:33 +0000 //www.otias-ub.com/?p=28387 谷歌风投、安德里森·霍洛维茨、Khosla Ventures和一些个人投资者,已向大数据技术新创公司ClearStory Data提供了种子资金,具体数额不详。ClearStory Data是家新近成立的公司,关注于向大众提供大数据技术。

ClearStory Data开发的技术,可使收集和研究来自企业数据源、Hadoop和网络的多元化、分散数据更为容易,以帮助企业用户了解和发现新的商机。ClearStory Data分析来自多个来源的数据,包括公共和私营部门的数据,以发现新的趋势和动态。这样做的结果可发现新的商机和更深入研究消费情报。

ClearStory Data的产品虽然还未发布,但将与存储在数据库、网络和其他来源的数据连接,并加入虚拟的数据挖掘组件,使用户分析数据并理解信息。其好处在于,可让企业同时分析内部和公共数据,并使数据容易被大众理解。

大数据吸引了投资者和企业的关注。如果ClearStory Data能够真正分析大数据,并使企业能理解大数据,将有一个光明的未来。显然,这些著名投资机构也是这么认为的。

]]>