大数据产品 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Thu, 04 Aug 2016 18:27:17 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 2016上半年10种最酷的大数据产品 //www.otias-ub.com/archives/504283.html Thu, 04 Aug 2016 18:27:17 +0000 //www.otias-ub.com/?p=504283 据市场研究公司IDC声称,去年,大数据和业务分析应用软件、工具和服务的销售额达到了近1220亿美元,到2019年会猛增50%以上,达到1870亿美元。

所以,难怪新的大数据产品源源不断地涌向市场,既有来自老牌企业的,也有来自初创公司的。

下面这10种大数据产品在2016年上半年引起了我们的注意。其中一些(但不是所有产品)是在3月份的Strata + Hadoop World大会或6月份的Hadoop峰会上亮相的。

1470335218-8758-3417eb9bbd90190cfda532
»AtScale Intelligence Platform 4.0

1470335218-5289-3417eb9bbd90190cfdb233
AtScale开发的软件让业务用户有办法使用已有,并且熟悉的应用软件和业务分析工具,包括微软Excel、Tableau和QlikView,访问Hadoop集群中的数据。

AtScale Intelligence Platform 4.0于3月份发布,它提供了公司所说的“混合查询服务”,这项技术可以通过任何商业智能工具,使用MDX或SQL――这是查询数据库系统中数据的两大语法,直接查询Hadoop。

4.0版本还借助“真正的授权”技术,解决安全和数据治理问题。该技术确保在Hadoop上执行的查询符合数据治理和数据访问审计等策略。

»BlueData EPIC For Cloud Deployments

1470335218-7060-3417eb9bbd90190cfdb934
由于复杂性和成本,大数据产品常常停留于试点阶段。BlueData Software的EPIC平台旨在让用户更容易部署用于开发和生产环境的Hadoop和Spark基础设施及应用软件。

就在不久前,企业版的BlueData EPIC只适用于本地部署。而在6月份,该公司发布了面向云部署的BlueData EPIC,该公司称之为“大数据即服务”。

BlueData Epic企业版现处于该公司所说的“针对性可用”阶段――数量有限的早期采用客户,仅限于亚马逊网络服务(AWS)平台。今后几个月将会推出适用于AWS以及微软Azure、谷歌云平台及其他公共云服务的公众版。

»Confluent Platform 3.0

1470335218-3528-3417eb9bbd90190cfdc035
处理实时流数据是大数据领域的最大挑战之一。为处理这个问题而出现的一项关键技术就是Apache Kafka,这种开源消息代理项目为处理实时数据提供了高吞吐量、低延迟的软件。

Confluent于2014年9月份成立,由Kafka的早期开发人员创办,他们旨在利用开源软件,帮助公司获得流数据的价值。Confluent Platform基于Kafka而建,这种实时数据系统充当容错、高扩展性的消息传递系统。它可以从众多来源收集数据,比如用户活动日志、设备仪器、股票行情自动收录器系统及其他使用场合。

5月份,这家初创公司发布了Confluent Platform 3.0,这个主要版本引入了Kafka Streams,这是用于构建分布式流处理应用程序的Java库。3.0版本还包括用于管理Kafka环境的Confluent Control Center,这是该公司的首款商用产品。

»Datameer 6.0和Datameer Cloud

1470335218-2243-3417eb9bbd90190cfdc736
Datameer开发的一种大数据分析平台为用户提供了数据整合、准备、分析和可视化等方面的自助式功能。

Datameer 6.0于5月份发布,它提供了一种新的用户界面和下一代分析工作流程,该公司称,这让数据整合、准备、分析和可视化等步骤成为单一的、流畅的交互式过程,同时改进了数据发现。

该公司还推出了Datameer Cloud,这种基于云的数据准备和分析服务在微软的Azure HDInsight上运行,由Datameer全面管理。

»DataStax Enterprise 5.0、OpsCenter 6.0和Enterprise Graph

1470335218-3056-3417eb9bbd90190cfdce37
DataStax是NoSQL数据库领域的领导厂商,它为云计算和数据密集型应用提供了基于Apache Cassandra数据库的软件。

该公司在2016年很忙碌。6月份发布的DataStax Enterprise(DSE)5.0包含物联网和零售等应用尤其需要的高级复制功能。它还包含更新版的Apache Spark,面向高级搜索和分析领域。

4月份发布的DSE Graph作为DSE的一个选项来提供,它是一种可扩展的实时图形数据库,用于需要由许多应用软件来管理复杂数据集的应用环境。

同样在6月份,该公司发布了DataStax OpsCenter 6.0,这款面向DSE的可视化监控和管理系统提供了数据库监控、调优、配置、备份和安全等功能。

»DGSecure 6.0

1470335219-8788-3417eb9bbd90190cfdd538
Dataguise开发的以数据为中心的安全系统用来识别并保护企业最敏感的结构化和非结构化数据,无论数据驻留在何处,从传统关系数据库到Hadoop等大数据存储系统,不一而足。

DGSecure 6.0于6月份发布,它包含面向数据治理、隐私合规和风险缓解等任务的新功能,包括制定数据安全治理策略。软件包含一个新的仪表板,可用于可视化显示数据泄密风险、确保遵从隐私政策。

»Information Builders的WebFocus Business User Edition

1470335219-4540-3417eb9bbd90190cfde339
Information Builders的WebFocus历来是该公司的旗舰商业智能产品。但是企业版软件历来面向为经理和工人提供商业智能报表的IT部门和开发人员。

如今业务分析领域的口号是“自助式”,为用户提供用来自行发现、准备和分析数据的大数据工具。6月份,IBI宣布推出WebFocus Business User Edition(BUE),该产品让不懂技术的用户无需IT或商业智能开发人员的帮助,就可以轻松生成和共享报表、仪表板及数据可视化工具。

WebFocus BUE软件包括:面向不懂技术的用户的InfoAssist+自助式分析创作工具,用于管理内容和组装分析页面的BUE Portal,以及面向高速数据发现的列式存储工具。

基于浏览器的软件是为包括100个用户的群组设计的,它在今年年初推出了限量版。

»Koverse 2.0

1470335219-9445-3417eb9bbd90190cfde93a
初创公司Koverse提供一种“一体化数据湖”平台,因而可以大大加快收集大数据,并引入到生产环境的速度,而成本低于当前的技术和方法。

总部位于西雅图的这家公司创办于2012年,该技术的早期版本已在两年多前亮相。Koverse平台2.0于6月21日发布,它整合了Apache Accumulo“分布式键/值存储”技术和该公司的通用索引引擎(Universal Indexing Engine)。

Koverse保证,它可以在一个月内将一家公司的大数据引入到生产环境――这比过去构建数据仓库所花的时间要短得多。

»SAS Viya

1470335219-9249-3417eb9bbd90190cfdf03b
Viya是一种新的分析和可视化平台,可以在私有云或公共云环境中运行。SAS在4月份发布了下一代软件,这是它首次真正涉足云计算,并为SAS未来的业务分析软件提供了基础。

不仅可使用SAS自己的编程语言来访问该平台,还可以使用包括Python、Luya和Java在内的其他语言来访问,使用支持性的公共REST API也可以访问。

该软件目前针对早期采用者,会在这个季度面向大众发布。SAS计划今年针对Viya平台发布的应用软件包括: SAS Visual Analytics、SAS Visual Statistics、SAS Visual Investigator、 SAS Visual Data Mining以及Machine Learning。

»Splice Machine RDBMS走上开源道路

1470335219-7328-3417eb9bbd90190cfdf63c
Splice Machine提供的数据库系统结合了传统关系数据库技术的一些方面、下一代NoSQL数据库的可扩展性以及内存系统的高性能。该数据库整合了HBase、Hadoop和Spark等技术,可以执行事务处理和业务分析等任务。

6月份,Splice Machine迈出了大胆的一步:让其数据库成为一种开源技术。联合创始人兼首席执行官蒙特·兹韦本(Monte Zweben)表示,走开源道路的目的是,吸引更多的开发人员关注Splice Machine平台,进而为该数据库构建更多的下一代应用程序。

除了企业版外,Splice Machine还将提供软件的开源社区版,到时拥有更多的功能特性,收取许可费。

作者丨布加迪编译

]]>
企业如何选择合适的大数据产品测试基准 //www.otias-ub.com/archives/349721.html //www.otias-ub.com/archives/349721.html#comments Mon, 25 May 2015 10:15:49 +0000 //www.otias-ub.com/?p=349721 概述

随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多样)[1]。TPC联合主席、Cisco高级工程师Raghunath Nambiar进一步认为大数据还面临Value(价值)和Veracity(精确)的挑战。如何客观地比较不同数据管理系统,即大数据测试基准的选择,成为一个重要的研究课题。

事务性能管理委员会(TPC)是目前最知名的数据管理系统评测基准标准化组织。在过去二十多年间,该机构发布了多款数据库评测基准,如TPC-A、TPC-D、TPC-H和TPC-DS,在业界得到了广泛应用[2]。BigBench和BigFrame是对TPC-DS进行多样化的数据扩充的测试基准。近年来,Apache开源社区针对Map/reduce架构开发了多款性能测试用例,如TestDFSIO、teraSort。国内对大数据测试基准的研究起步较晚,尚未建立起权威的测试基准。目前由中国信息通信研究院牵头,联合中科院计算所及国内外知名公司和机构共同制定的大数据测试基准正在金罗密布的测试中[3]。

为了方便企业选择合适的大数据测试基准,本文将在分析总结现有成果的基础,进一步讨论大数据测试基准应该具有的要素;并以此为基础,对比现有的大数据测试基准;然后重点讨论TPC-DS测试基准。

大数据测试基准的选择

企业在选择大数据测试基准时,首先应考虑基准与其自身业务的相关性。

与其自身业务的相关性

它主要描述测试基准设定的应用场景是否与企业的实际业务场景类似,如基于社交网络应用的评测基准与银行系统的应用场景就没有什么相关性。不相关的基准,测试结果再好,也没有实际意义。相关性还要考虑测试基准所采用的数据模型是否代表数据仓库的发展方向,如基于星型模型的开发要比基于传统的关系模型开发更加有效。

当然,一套行之有效的大数据测试基准包含许多其它要素。Jim Gray及金澈清等学者[4]已经对度量选取、模拟数据生成器、工作负载设定、审计等要素进行了详细论述。除此之外,本文还认为测试基准的健壮性、SQL标准的兼容性和通用性/可移植性也是重要的要素。

模拟数据生成要具有真实性

它描述了测试基准是否仿真真实应用场景,所产生的模拟数据是否与真实数据相似。

工作负载的设定具有可扩展性

它描述该评测基准是否适用于不同规模的计算机系统,许多评测基准会使用标度因子来决定模拟数据的规模,通过调整标度因子来得到不同规模的工作负载。

度量的选取的可理解性

它衡量该评测基准是否易于为用户理解,不易为用户理解的基准的可信程度也较低。

客观性与公正性

众所周知,在竞技比赛中,一个人不能既是运动员又是裁判员。测试基准好比竞技比赛中的裁判员,应该由中立的第三方机构制定。事实也证明,在各个领域最受欢迎的测试基准都是有第三方机构设计的。过去20多年的经历证明TPC系列基准是数据库领域最为广泛接受的基准。除此之外,第三方机构的审计也是保证证评测结果的客观性与公正性的重要手段。

健壮性

测试基准要足够健壮,不能轻易被“hack”,这对测试结果的公平性非常重要。例如对TPC-H的前身TPC-D,通过物理化视图,Oracle的性能比Micosoft的SQLServer高100倍,这些显然是不公平的。因此TPC组织规定TPC-H测试中物理化视图是不和法的。但是除非是专业人员,一般用户很难判定测试过程中视图有没有被物理化。TPC-DS在健壮行方面要好很多,因为它的SQL本身比较复杂,也比较多,Hack起来相对困难,并且只hack几个SQL对整体性能提高有限。

SQL标准兼容性

SQL是ANSI为统一各个数据库厂商之间的编程差异定义的标准,已发布SQL86、SQL92、SQL99、SQL2003等版本。这些标准已经被主流的商用(例如Oracle、DB2、SQL server)以及开源的数据库产品(例如MySQL、mSQL和PostgreSQL)的广泛采用。对整个数据库产业的发展起到了巨大的推动作用。大数据是个新兴的领域,它的发展不能完全抛弃原有的应用。如果不能全面支持SQL标准,现有系统的移植非常困难,学习曲线就会变长。

通用性/可迁移性

通用性描述是否可在不同数据库系统和架构上实现指定的评测基准。测试基准不应该规定实现的细节,而只需要定义测试规范。DBMS只要遵循规范得到正确的结果,就是合理的测试,无论其基于Map/Reduce、Spark还是其他的技术,也不管其底层存储是用HDFS、HBASE还是其他方式。

大数据测试基准对比

经过30几年的研究,传统数据库测试基准的研究已经相当成熟,在各个领域出现了行之有效的测试基准。随着大数据应用的发展,大数据测试基准的研究最近几年逐渐兴起,但大都是在传统的测试基准的基础进行裁剪、扩充、综合。金澈清等学者[4]对数据库基准的发展概述如图1所示。

本文重点关注被列为大数据测试基准的相关基准、BigFrame[5]以及TPC-DS,对其它的基准本文不再赘述,有兴趣的读者请参阅文[4]。

Map/reduce性能测试

如文[4]中所述,MRBench、HiBench、TestDFSIO、Sort/teraSort只是针对Map/Reduce框架,目的是评测运行Map/Reduce框架的集群的性能。CALDA基准尝试比较不同架构在数据管理方面的性能。这些测试过于简单,无法模拟复杂的应用,也不通用。

YCSB/YCSB++/LinkBench

这是一组针对网络应用的测试基准。YCSB(Yahoo! Cloud Serving Benchmark)及其扩展YCSB++测试查询回复的延时等云服务系统中云计算的特点,如查询回复的延时、纵向扩展和弹性加速比、并行性测试等。LinkBench是一个基于社交网络应用的评测基准。它仿真Facebook公司的图数据管理应用,包括数据特性、工作负载以及度量等。这些都是公司开发的针对自己特定应用场景的测试基准,很难在整个行业内进行推广。

BigBench

BigBench是一款面向商品零售业的基准,它扩展了TPC-DS,综合考虑多种数据模态,增加了半结构化数据Web Log和非结构化数据Reviews。其负载的生成是TPC-DS定制化的版本。BigBench包含30个查询。BigBench基本数据模型如图2所示:

BigFrame

BigFrame是一个测试基准生成器[5],用户可以根据自己的需求定制专有测试基准。在目前实现中,其关系模型与BigBench类似,也是基于TPC-DS。同时它扩展了半结构化和非结构化的数据Tweets以及图形化数据Followee/Follower。BigFrame基本数据模型如图3所示:

如文[5]所述,大数据与决策支持系统(DSS)并不是完全独立的,大数据也不能抛弃传统。DSS系统中,只要数据量足够大,都可以认为是大数据问题。被化为大数据测试基准的BigBench和BigFrame的大部分内容都来自于TPC-DS,从这个意义上讲,TPC-DS不但是一种结构数据的大数据测试基准,而且是其它大数据测试基准的基础。

TPC-DS

TPC-DS测试基准是TPC组织推出的用于替代TPC-H的下一代决策支持系统测试基准。因此在讨论TPC-DS之前,先介绍一下TPC-H。

TPC-H

TPC-H是一款面向商品零售业的决策支持系统测试基准,它定义了8张表,22个查询,遵循SQL92。TPC-H的数据模型如图4所示。TPC-H基准的数据库模式遵循第三范式,叶晓俊教授等学者[6]认为“它的数据表数据特征单一(如数据不倾斜) ,其数据维护功能仅仅限制了潜在的对索引的过度使用,而没有测试DBMS 执行真实数据维护操作——数据提取、转换和加载(ETL) 功能的能力”。同时,新兴的数据仓库开始采用新的模型,如星型模型、雪花模型。TPC-H已经不能精准反映当今数据库系统的真实性能。为此,TPC组织推出了新一代的面向决策应用的TPC-DS 基准。

TPC-DS

TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。

TPC-DS的这个特点跟大数据的分析挖掘应用非常类似。Hadoop等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量也较低,数据分布是真实而不均匀的。因此TPC-DS成为客观衡量多个不同Hadoop版本以及SQL on Hadoop技术的最佳测试集。这个基准测试有以下几个主要特点:

一共99个测试案例,遵循SQL’99和SQL 2003的语法标准,SQL案例比较复杂

分析的数据量大,并且测试案例是在回答真实的商业问题

测试案例中包含各种业务模型(如分析报告型,迭代式的联机分析型,数据挖掘型等)

几乎所有的测试案例都有很高的IO负载和CPU计算需求

叶晓俊等学者对这些查询的分部总结如表1所示[6]。典型的Store_Sales的数据模型如图5所示。这个基准测试的完整信息请参考http://www.tpc.org/tpcds/。

TPC-DS认证现状

TPC-DS以其高标准、高要求得到大家的广泛认知,理应得到广泛的应用,但是到目前为止还没有任何厂商得到TPC官方的认证。究其原因,本文认为:

传统的数据库厂商,DBMS系统比较成熟,SQL的支持也相当完善,但是其分布式、并行处理能力欠缺,导致其性能很差。所以传统的厂商不愿意发布测试结果。

新型的计算模型如Map/Reduce、spark,具有较好的并行处理能力,但是SQL的兼容性比较差,如HiveSQL、SparkSQL只支持40个SQL,从而也无法发布TPC-DS测试报告。尽管如此,各厂商还是通过非TPC官方的途径发布TPC-DS的部分测试结果,以展现其在性能方面的提升。由此可见大家对TPC-DS的程接受度。

在TPC-DS大数据测试方面,星环科技已经走在世界的前列,据所知,星环科技是国内唯一、全球少数几家公开发布TPC-DS大数据测试结果的科技公司。其TPC-DS 500G的功能、性能及其兼容性测试已经得到第三方机构——上海市计算机软件评测实验室的认证。

结束语

大数据评测基准用于公平、客观地评测不同大数据库产品/平台的功能和性能,对人们选择合适的大数据分析决策系统具有重要的参考价值。随着国内外各代表性的Hadoop发行版厂商以TPC-DS为标准测评产品,TPC-DS也就逐渐成为了业界公认的大数据系统测试基准。但是随着大数据应用在各行各业的发展,测试基准也需不断与时俱进。大数据测试基准仍然面临着诸多挑战,还需要政府、学术界和工业界的紧密合作。

参考文献

[1] Big data: Science in the petabyte era. Nature, 2008, 455: 1-136

[2] www.tpc.org

[3] www.dca.org.cn

[4] 金澈清, 钱卫宁, 周敏奇, 周傲英,数据管理系统评测基准:从传统数据库到新兴大数据,计算机学报, 2014.

[5] M. Barata, etc, Survey on Big Data and Decision Support Benchmarks, LNCS 8645, 174–182, 2014.

[6] 陈旦,叶晓俊,施霖, TPC-DS性能测试工具的实现, 计算机应用,第31 卷,第9期, 2011.

作者介绍:复旦计算机学士、美国杜克计算机硕士。美国微软总部服务13年,是数据分析、数据挖掘、产品研发及管理、互联网广告和互联网营销方面的专家。《New Internet:大数据挖掘》《数据掘金:电商数据运营》两书作者。

来源:《企业网D1Net》

]]>
//www.otias-ub.com/archives/349721.html/feed 1
大数据产品到底应该是什么形态? //www.otias-ub.com/archives/231861.html Tue, 27 May 2014 08:24:35 +0000 //www.otias-ub.com/?p=231861

大数据很时髦,但企业如何操作,如何落地,才是真正要面对的,好在现在我们看到很多朋友开始思考这样的实操性问题,本文将从大数据产品形态角度帮助我们理清一些概念。

嗨,朋友,看到这个标题请先别主观排斥,跟你一样,我也反感动辄乱谈大数据,为了后续的沟通愉快,先做下这里的“大数据“指向,特指符合4V特点的大数据,即:

1,数据体量巨大;

2,数据类型繁多;

3,价值密度低;

4,处理速度快。

所以,本文的“大数据”既不是有些人口中的海量数据,也不是非结构化数据,更不是什么相关与因果,这里不谈什么是大数据,只谈谈大数据的产品形态与商业逻辑,抛砖引玉,期待交流。

一、大数据的产品特性

顾名思义,“大数据产品”应该是基于大数据而设计出的产品,那么理应符合大数据的特点,毕竟基因在那,那么回顾下大数据与(传统)数据有哪些具体区别。

(传统)数据是通过问卷调查收集数据,或者是已存储的历史经营数据,比如财务数据、销售数据这些,至于数据量级,可能就是一台server的存储级别。

而大数据是海量,这个海量并不是某个时间断点的量级总结,而是持续有更新,持续有增量,那么就决定了可以”制造”出大数据产品的应该不是传统企业,而是类似电信、银行、微博这样的平台级机构,或者依附于平台级企业的第三方机构,亦或者是更宏观层面的政府管理机构。

这些机构拥有大量用户,可以源源不断的产生UGC数据,因此存储和计算成本必然会随之上涨,也就决定了大数据产品的甲乙方级别,屌丝可能会被无情的淘汰出局。这些数据不仅仅是数值型的结构化数据,还包括文本内容、图片、音视频等非结构化数据。

在处理速度上,(传统)数据使用excel或者spss,前期有严谨的方法论,后期有完善的分析处理过程,从数据的收集到最后报表/报告的产出,这个周期可能在至少一周以上,而大数据因为有了hadoop/storm等IT技术的支持,在处理速度上可以保证在小时级延迟,甚至更快。

这里需要补充一点的是,大数据产品是否要快速计算?个人觉得应该是,这里的快速是相对快,不一定非要实时,毕竟在收集、存储、计算上花了更多的成本,策略如果不及时发现,也对不起那些集群啊。

那么是否说大数据就一定比(传统)数据好了?不一定,引用祝建华老师《文科教授眼中的大数据》里的一段话,“理论上讲大数据指的应该就是总体数据。但实际上,由于技术、商业、保密和其它原因,除了少数大数据的原始拥有者,对于绝大多数的第三方来讲,现在大家讲的大数据,基本上都不是总体数据而是局部数据。注意,这种局部数据,哪怕占了总体的很大一个百分比(70%、80%),既不是总体数据、也不是抽样数据。因为哪怕是缺了10%、20%的个案,局部数据跟总体也许就有很大的差别。”

所以在总体代表性上,(传统)数据可以较好的代表整体,而大数据可能会出现偏差。但是,这个偏差并不影响大数据产品的商业应用,举个例子,微博上每天都有各种口碑和舆情,如果涉及某个企业的负面舆情突然趋势走高,即使在不能代表总体的情况下,你能认为这个态势不值得警惕么?当然是不能。并且,大数据产品对使用者的要求更高了,不光关注活跃的数据,还得关注沉默的数据。

由此,大数据产品所具备的特性应当是:

1、数据量级更多;

2、数据处理速度更快;

3、数据类型多样;

4、使用者要求更高。

那么,大数据产品究竟长啥样?

二、大数据的产品形态

先说一个亲身经历,在家收看好声音导师考核的汪峰场,之前一直很期待这场,毕竟汪峰的风格理念偏重社会观察,偏重人文洞察,但看到快一半的时候,却发现很乏味,想换台,没有那英那场更黏我,如果说看上一场脸部肌肉是松弛的话,那这一场则是紧绷的,”上苍、思念、回忆、故人、泪水….”当这些碎片词语不断的充斥在我的耳边时,真的不觉得这是一个娱乐节目,一个比一个悲凉,我的诉求很简单,像看周星驰无厘头电影一样,开心一下足矣,哪怕没有任何的教育意义。

随后我发了一条微博吐糟,引来众多附议。我想这应该是不少受众当时的心态,但不代表对汪峰场的整体评价。那么,试想一下,如果你是好声音的竞争对手,在此刻很实时的洞察到了用户的心情反馈,再通过合适的路径传递出营销信息,受众是否会换台?答案是未知的,但想象空间是巨大的。

这个场景很恰如其分的给我们描绘出了大数据的产品形态。首先他需要在平台级机构(微博)上监控海量数据(微博内容),这些数据是非结构化的,通过实时计算获得洞察(拥有不满情绪的是少量群体还是大量群体,是真实声音还是噪音污染),并快速应用(推送营销信息)。

这样的例子还有很多,特别是在营销环境里,受众的情绪不是线性稳定的,可能十分钟前还是心情愉悦的,而十分钟后,则是心情紧张的,不利于接受你的品牌信息并形成记忆,这些情绪的变化是随机动态的,因环境的变化而随之变化。还有哪些属于大数据产品呢,仅以我所了解的互联网领域为例,DSP、RTB、推荐系统,另外就是宏观的情报系统了,比如联合国的全球脉动项目。

三、总结

综上所述,大数据的产品形态应该是,运行在平台级机构之上,通过对持续性海量增加的多结构类型数据,进行快速计算产生策略,结合使用者的经验认知及时应用,进而产生价值形成商业闭环,一切不以此为特性的大数据产品都是耍流氓!

by:@数据挖掘_PHP

]]>