数据挖掘 – 庄闲棋牌官网官方版 -199IT

当数据挖掘遇上战略决策

DinK — Tue, 11 Jul 2023 05:44:04 +0000

在数据智能的时代，仅仅依靠管理者经验、直觉以及推断所做出战略决策的时代已经一去不复返了。在企业经营管理中产生的大量数据资产，就像绵延不绝的矿脉，蕴藏着巨大的能量，只要肯挖掘，便能释放巨大的战略价值。当数据挖掘遇上战略决策，当数据科学家携手管理咨询顾问，全新的战略决策模式即将开启。

数据挖掘的定义与价值

数据挖掘指从大量数据（包括文本）中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并利用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程。通常，数据挖掘会用到应用数学、统计学、数据库技术、机器学习和人工智能等多种技术。

在企业经营管理过程中，数据挖掘可以帮助企业发现业务趋势、揭示客观规律、预测未知结果、优化战略决策的效率与效果，同时，数据挖掘还可以帮助企业优化业务运营的流程，提升用户与员工的体验。用好数据挖掘工具，构建基于数据驱动的战略决策（Data-Driven Decision-Making (DDDM)）体系，将让企业在面向未来不确定性时做出明智的战略抉择。

机器学习的分类与经典模型介绍

机器学习是数据挖掘的重要技术支撑，根据学习范式的不同，机器学习可划分为有监督学习、无监督学习、强化学习和深度学习。有监督学习指从有标注训练数据中推导出预测函数，一般用于解决预测或者分类问题；无监督学习指对无标签样本进行学习揭示数据内在规律，从给定数据中找到隐藏的模式和见解，一般用于解决聚类或者关联关系探查等问题；强化学习不依赖标注数据，用于描述和解决智能体（agent）在与环境的交互过程中通过环境给予的反馈（奖励）学习策略以达成回报最大化或实现特定目标的问题。深度学习指使用神经网络模型来学习数据的特征,可以在大规模数据上进行训练。

机器学习的分类

其中，有监督、无监督学习是主流常用的机器学习模型，在企业战略决策中有着丰富的使用场景。有监督学习使用的算法模型包括线性回归、逻辑回归、时序模型、决策树模型，无监督学习使用的算法模型包括K-means、PCA、DBSCAN、Apriori等。

经典模型的介绍

建模的步骤与流程

应用数据挖掘辅助战略决策分为5大步骤：问题定义、数据分析、特征工程、算法建模与模型评价。

问题定义：将现实业务经营管理问题映射到数学表示，明确数据挖掘目标。

数据分析：包括取样、探索及预处理三个步骤，核心目的是提高数据集。

特征工程：是把原始数据转变为模型的训练数据的过程，目的是获取更好的训练数据特征，使得机器学习模型逼近训练上限。

算法建模：是数据挖掘工作的核心环节，需要思考建模属于数据挖掘应用中的哪类问题并选用对应算法进行模型构建。

模型评价：需要一组没有参与预测模型建立的独立数据集，即测试集数据，评价预测模型的准确率。

建模步骤与流程

数据挖掘在战略决策中的实战案例

实战案例①：帮助某酒店集团进行常住酒店公寓选址

案例关键词：#酒店行业# #有监督学习# #回归模型# #决策树模型#

客户核心诉求：提高常住酒店公寓项目选址决策效率，在城市中筛选住客入住需求集中的地块，保证项目投运后的收益。

数据挖掘步骤：

● 定义挖掘目标：合理进行门店的规划选址，选择潜在高销量区域。

● 分析地块数据：导入已有门店信息、门店销量、竞品门店销量、宏观指标、市场表现等数据，开展数据分析。

● 构建特征工程：包括门店特征、地块特征、城市特征、竞品特征等。

● 决策树建模：采用决策树模型在训练集进行训练，对备选区域在地块得分、竞品门店数量、投资回报周期等关键选址决策要素下的表现进行分类。

● 效果验证：在测试集对算法模型进行效果验证，并进行合理性分析。

● 选址决策应用：在不同区域应用选址决策模型，输出门店选址与扩张策略。

建模步骤与流程

战略决策输出：在试点城市跑通模型后输出标准化选址决策机制，可在集团内部其余区域业务扩张过程中提供决策支持，同时根据不同城市地块的模型决策结果追踪辅助判断地区业务发展空间及潜力，适当调整区域业务战略侧重，聚焦重点区域及重点地块的资源投入。

实战案例②：帮助某鞋业公司搭建畅销商品补货模型

案例关键词：#鞋服零售# #有监督学习# #时序模型# #补货预测模型#

客户核心诉求：对门店内的畅销款式销售数据进行挖掘，构建销量预测及补货预测模型，以尽可能小的库存，为畅销款高效配置库存、销售资源，最大化畅销款的销售机会。

数据挖掘步骤：

● 挖掘目标定义：通过及时、足量补货等手段，以尽可能小的库存，为畅销款商品高效配置资源，实现销量最大化。

● 数据取样与探索：挖掘门店、仓库数据体系中的销售、进货、库存指标，探索指标相关性。

● 数据预处理：基于数据计算为各类商品贴标签，包括“毛利率水平偏高”、“库存水平偏低”、“新货品”等标签。

● 特征开发：剔除部分标签，如“库存水平偏高”、“连续三周销售下降”，保留与畅销货品高度相关的标签作为模型特征。

● 模型构建：根据时序模型构建“滚动销量预测算法”，输入季节、货品销量、性别、风格细类等相关特征。

● 模型测试：利用测试集数据开展模型测试。

基于数据分析为各类商品贴标签

根据时序模型构建“滚动销量预测算法”

战略决策输出：根据预测销量，测算期末库存以制定大促期间的到货计划，若（上周期末库存-当周预测销量）＜0，则需以订货数量的倍数进货，并基于到货计划，根据供应链前置时间（lead time）进行下单，以此减少期末库存压力，高效调动库存配置和销售资源，实现爆款商品销量最大化。

实战案例③：帮助某零售连锁企业进行门店分群与经营评估

案例关键词：#零售行业# #无监督学习# #聚类分析# #门店经营评估#

客户核心诉求：对已有门店进行分群，挖掘不同类别门店特征，识别优秀或异常门店，焕新门店分类管理策略。

数据挖掘步骤：

● 挖掘目标定义：通过提取门店的各类特征，构建门店经营评估与分群模型

● 数据取样与探索：选取数据库中的商户属性、经营信息、风险信息等相关数据指标。检验租金、销售数据是否符合正态分布规律。

● 特征开发：对数据进行取值SQL、取值维度、指标缺失值、指标异常值、指标一致性等特征处理。

● 模型构建：通过降维，筛选出从数据视角分析得出的关键因子，确定最终的因子并构建算法模型。

● 门店分群：每个群组门店特征会呈现差异，针对不同群组的特征进行分析，识别不同类型门店特征，确定门店划分标准与分群结果。

● 成因分析：基于门店特征挖掘结果，选取有代表性门店开展生命周期分析。

战略决策输出：根据模型聚类的三类门店特质，匹配差异化管理举措。对于表现优秀的门店，挖掘其成功经验并在其他门店进行推广，对于存在潜在风险的门店可及时进行干预。

聚类分析模型：在未设定标签的情况下，根据数据相似度进行分组

结语

经验主义哲学家弗朗西斯·培根曾说过：“我们大部分的人的理解力容易出现偏差，我们的心智容易被假象所困住。”在现代企业的战略决策中，管理者的战略判断也常常会受到固有认知、个人直觉或理解偏差所影响。数据挖掘的意义在于帮助管理者从大量的数据中去提取那些隐藏其中的、预先未知的、但有潜在价值的客观规律，让管理者在进行决策时有更坚实的依据与更充分的论断。

数据从来不是全部，数据也不能替代思考，但他可以让你站在巨人的肩膀上。

来自：罗兰贝格管理咨询

Gartner L2：只有13%的企业能提供具有高度针对性的消息

windowsun — Wed, 21 Nov 2018 16:32:56 +0000

面对数据泄露、法规监管，以及消费者对隐私的担忧，品牌必须重新考虑其数据收集、通知和个性化的整个方法，否则可能会失去消费者的信任和关注。

Gartner L2评估了品牌数据获取和目标营销工作的复杂程度。分数基于品牌网站数据收集、隐私通信、网站个性化功能和帐户定制，以及通过电子邮件、社交媒体和展示广告来定位客户的努力。根据其总体表现，品牌分为领导者、数据挖掘者、从众者或落后者。

领导者（13%）利用其客户数据在其网站和数字营销渠道中提供具有高度针对性的消息。此类别中的品牌（如H&M和Ikea）通过第三方及其网站收集和细分数据，同时还传播其数据的使用方式。领袖品牌涉及各个行业，往往位于欧洲或跨国，这迫使他们更快地适应新的隐私法规。

数据挖掘者（24%）在客户旅程的所有触点收集数据，从电子邮件简报到账户定制。但是，这些品牌往往无法将其转化为成熟的定向广告。提供专业产品或服务的美容和旅游部门品牌占2/3。

从众者（34%）依靠第三方公司来获取数据，而不是使用自己的网站。他们在Facebook和其他发布商网站上展示个性化广告。零售行业，包括百货商店、大型商店和专卖店，占80%，这可能是由于他们的广告预算庞大以及转化率的激烈竞争。

落后者（29%）未能优化其数据收集或定向工作。这些品牌在其网站上收集的数据不足，并且还放弃使用第三方重定向，这限制了他们的营销选择。因此，他们在广告程序化购买和重定向电子邮件等领域投入较少。该象限占55%的运动服装品牌和超过1/3的时尚品牌。

腾讯QQ大数据：一种海量社交短文本的热点话题发现方法

pdg — Sat, 07 Jul 2018 10:59:40 +0000

随着社交网络的发展和积累，内容的产生、传播、消费等已经根深蒂固地融入在人们的生活里。随之内容分析的工作也就走进了人们的视野。近年来，各种公众趋势分析类产品涌现，各大公司都利用自身资源纷纷抢占一席之地。

公众趋势分析平台利用自然语言处理、机器学习方法对数据进行分析，给用户提供舆情分析、竞品分析、数据营销、品牌形象建立等帮助。其中，热点发现问题是公众趋势分析中不可或缺的一部分。热点发现通过对海量数据（本文集中在文本数据方面）进行分析，挖掘相关人群重点关注的内容。

在我们的业务场景中，快速高效地从海量社交短文本中发现出实时的话题，可以帮助产品、运营、公关等同学更好地吸引用户。然而，直接从海量文本中生成语法正确、意思明确的话题，是一件不容易的事情。本文主要介绍在话题生成上运用的一个较为简单高效的方法。

所谓话题

目前很多内容平台的话题收集有相关的产品策略或者运营同事支持。例如让用户自定义话题，并用特定的符号标识，如“#白色情人节#”。在一些文本场景中，没有这些条件支持，而需要我们直接从海量的用户社交文本中提取热点话题，或者说热点事件。本文的目的即是自动从海量社交短文本中，自动发现热点事件或热点话题。

不少相关的工作，将话题提取利用主题分析的方法来解决，利用主题模型（LDA等）、聚类等方法，但这种思路输出的各个话题的一些主题词或者相关词，而不是直接生成话题短语。可以考虑引入事件抽取或者文本摘要的思路来解决这类场景的热点话题提取问题，但其往往需要监督数据。本文介绍一种简单实用的热点话题提取方法的尝试。

具体做法

本文提出一种从热词提取出发，提取热点话题的方法。下面是方法的整体流程图，首先提取热词，然后在热词的基础上，做话题提取。下面分两部分详细介绍。

热词提取

主体思路是利用词频梯度和平滑方法。

如上图所示，词语的热度受很多方面的影响。

大盘影响：白天和凌晨、双休日和工作日、节假日和平常日子，社交消息的整体数量都会有一个较大的波动。
词间影响：也许语料中某个段子突然非常火，会导致一些平时关系不大的词语，一下子全部成为热词。
周期影响：24小时、星期、月份、节气等周期性的变化，常常会使得“早安”、“周一”、“三月”等事件意义性不强的词语成为热词。
自身趋势：这个就是我们最关心的热度信息了。这些由于事件引起相关词语的突发性、递增性等的增长，就是我们算法想要识别和分析出来的。

针对以上一些影响因素，我们从以下的一些方面进行热词提取工作。

1、预处理：这里主要包括文本去重、广告识别等方法，对数据进行一些去躁的工作。

2、梯度：词频增量的主要衡量指标。

3、贝叶斯平均：一种利用outside information，especially a pre-existing belief，来评价the mean of a population的方法。

贝叶斯平均的典型应用包括用户投票排名，产品评分排序，广告点击率的平滑等等。

以用户投票排名为例，用户投票评分的人很少，则算平均分很可能会出现不够客观的情况。这时引入外部信息，假设还有一部分人（C人）投了票，并且都给了平均分（m分）。把这些人的评分加入到已有用户的评分中，再进行求平均，可以对平均分进行修正，以在某种程度或角度上增加最终分数的客观性。容易得到，当投票人数少的时候，分数会趋向于平均分；投票人数越多，贝叶斯平均的结果就越接近真实投票的算术平均，加入的参数对最终排名的影响就越小。

4、热度分数计算：利用贝叶斯平均对梯度分数进行修正。

这里，公式中的平均词频是贝叶斯平均公式中的C，平均分是贝叶斯平均公式中的m。也就是说在热词提取中，我们用梯度分数的平均分作为先验m，用平均词频作为C。

热词提取中可以这么理解，词语每出现一次，相当于给词的热度进行了评分。

词频少，也就代表了评分的人数少，则评分的不确定性大，需要用平均分来进行修正、平滑。这里可以把一些词频很少的词语的高分数拉下来，例如一个词语今天出现了18次，昨天出现了6次，这里梯度分数就比较高，为0.75，但这种词语其实更可能不是一个热词。

词频大，远大于平均词频的词语，也就代表了评分的人数多。则分数会越趋向于自己的实际分数，这时平均分的影响变小。这是合理的，例如一个本来是百万量级的词语，第二天也出现了一个三倍的增量，这里热度价值就明显提高了。

5、差分：这里主要考虑是要解决热词的周期性影响的问题。具体做法非常简单，比较的时间间隔需包含一些影响较为明显的时间周期。例如按小时统计的热词，最好是拿今天和昨天一个相同的时间点进行比较。

6、共现模型：对于互为共现词的热词，进行一层筛选。

通过频繁项集、word2vector等方法，发现出共现词语的关系。利用共现词语的信息，对热词进行一轮筛选，提取出最有价值的热词，避免信息冗余。

7、时间序列分析：考虑更详细的历史因素。

通过对词频进行时间序列分析，可以更详细地区分短期、长期与周期性热点；对一些更有价值的热词做热度预警；对热词的增长趋势进行分析等等。

综上，我们在周期时间间隔内，通过贝叶斯平均修正的词语梯度分数来分析词语热度，并利用语料中词语的共现信息，进一步筛选得出热词。通过时间序列分析，得出热词的特性和增长趋势等。

话题提取

提取出了热词，但一个词语对于事件或者话题的表达能力是有限的。这里我们从热词出发，进一步提取出话题。

这里话题提取的工作也分为两步，第一步先找出一些候选的话题词组；第二步利用Attention的思想，从候选词组中找出一个包含的词语更加重要的词组，作为输出话题。

候选词组提取

候选词组的提取主要根据信息熵的理论，用到以下一些特征。

1、 内部聚合度——互信息

这应该从信息熵说起。信息熵是用来衡量一个随机变量出现的期望值，一个变量的信息

熵越大，表示其可能的出现的状态越多，越不确定，也即信息量越大。

互信息可以说明两个随机变量之间的关系强弱。定义如下：

对上式做变换可以得到：

表示Y的不确定度；表示在已知X的情况下，Y的不确定度，成为已经X时，Y的条件熵。则可知表示由X引入而使Y的不确定度减小的量。越大，说明X出现后，Y出现的不确定度减小，即Y很可能也会出现，也就是说X、Y关系越密切。反之亦然。

在实际应用中，词组的内部聚合度即为词语间的内部聚合度。对于一个词组，我们选取使不确定性减少的程度最多的一种词语组合，来说明词组的内部聚合度。

2、 所处语境的丰富程度——左右信息熵

刚刚已经提到信息熵说明了信息量的大小。那么如果一个词组的左右信息熵越大，即词

组左右的可能情况越多，左右的搭配越丰富；则说明这个词组在不同的语境里可讨论的事情越多，越可能可以独立说明一个事件或话题。

3、 是否普遍——这个很直观地可以通过词组出现的频次来衡量。

话题精筛

对于某一个热词，挑选出来一批候选词组后，每个词组所含的词语不同，包含的信息量也不同。比如3月9日对于“巴黎”这个热词，我们提取出来的候选词组有“巴黎球迷”、“巴黎球员”、“淘汰巴黎”、“心疼巴黎”、“巴萨逆转巴黎”、“法国巴黎”、“巴黎时装周”。但“巴萨球员”、“巴黎球迷”、“淘汰巴黎”、“心疼巴黎”、“法国巴黎”这些词组中，“球员”、“球迷”、“淘汰”、“心疼”这些词语在很多其他的语境中也经常出现，它们的指向性并不明确；“法国巴黎”的信息量甚至只有一个地点。而“巴萨逆转巴黎”、 “巴黎时装周”则还包含了更具体的信息——足球比赛、球队、赛果、地点或者时装秀等，事件的指向更明确。这里，就需要我们对候选的话题词组进行筛选。

筛选的主要依据或思想，其实和Attention机制是一样的，关键是要找出重要的词语。比如与“巴黎”的搭配，“巴萨”、“逆转”、“时装周”比“球迷”、“球员”、“心疼”、“法国”包含的信息更多，意义更大。可以想到，“巴萨”、“逆转”、“时装周”这些词语在其他无关语料中不常出现，“球迷”、“球员”、“心疼”、“法国”在不同语料中都常会出现，信息不明确。所以，在我们的问题中，可以通过TF-IDF的思路来确定Attention。

具体说来，就是衡量词组中，各个词语在词组中的特异性。我们有理由相信，“巴萨”、“逆转”、“时装周”这些词语，在含“巴黎”的相关语料中出现的概率较高。热词的候选词组s的事件或话题表示能力分数可由以下公式求得：

其中，N为候选词组中的词语个数，为候选词组中包含的第i个词语，Corpus (w)表示含有词语w的相关语料。

另一方面，我们也需要考虑词组出现的频次，词组出现的次数越多，说明事件越重要。

综上所述，我们通过候选词组的事件或话题表示能力分数以及出现频次，精筛出热词的相关话题。

来源：腾讯QQ大数据

腾讯QQ大数据：手Q游戏中心的个性化推荐实战

pdg — Sun, 01 Jul 2018 10:49:00 +0000

前言

自手Q游戏中心V6.0改版以来，产品形态发生了较大的转变，不再是纯粹通过app列表做游戏分发，而是试图通过内容来带游戏分发，全新的产品形态给推荐算法带来了许多的挑战。截至4月初，算法一期的工作已接近尾声，借此机会写下总结，一方面是将整个游戏中心的推荐逻辑进行梳理，并将其中的一些经验沉淀总结，方便回溯；另一方面也试图在梳理的过程中，整理出遇到的一些挑战，能够更加明确算法二期的一些迭代思路。

背景

手Q游戏中心作为腾讯手游重要的分发渠道之一，既是用户发现感兴趣游戏的重要入口，同时也提供了各手游平台运营的能力。新版游戏中心不再是纯粹地通过传统app列表的方式做游戏分发，而是新增了一系列通过内容（攻略、视频、直播、礼包等）拉下载、拉活跃的场景（如图1所示）。为了更好地提升用户进入游戏中心的体验以及满足平台精细化运营（拉新、拉活、拉付费等）的需求，通过海量用户的行为流水挖掘用户游戏偏好，精准推荐用户感兴趣内容成为了必然趋势。为此，我们设计了全新的个性化推荐框架，给业务带来了显著的转化率提升。

图1：游戏中心个性化推荐场景

为了更好地制定算法二期的迭代计划，本文主要对算法一期的工作做一个简单的复盘，一方面是将项目开展过程中的一些经验进行总结沉淀，另一方面也是想对游戏中心推荐场景中比较有挑战性的问题进行梳理，以便算法二期迭代过程中更加具有针对性。

整体推荐框架

本节主要结合游戏中心个性化推荐的算法框架（如图2所示）以及工程框架（如图3所示），对项目过程中遇到的一些问题进行总结归纳。游戏中心所采用的推荐框架是业界常见的三段式推荐逻辑：offline—nearline—online。离线层主要负责存储全量用户在游戏中心的流水数据、计算用户长期的行为属性以及训练用户的游戏偏好模型等；近线层主要是为了解决离线层计算周期长，响应速度慢的缺点，通过实时计算用户的短期兴趣，反馈到线上，从而能够对用户在游戏中心的行为做到实时反馈；在线层可以理解为推荐引擎，主要是对业务请求通过一系列的计算，返回最终的推荐结果列表，在线层可以细分为召回层—精排层—重排层结构。

图2：游戏中心个性化推荐算法架构图

图3：游戏中心个性化推荐工程架构图

离线层

离线层适用于用户长期兴趣的计算、离线模型的训练、模型参数的实验以及其他对时效性要求不高的任务，因此离线层主要采取HDFS+Spark的工程实现（批处理的计算方式）。业务数据通过DC或者TDBank上报，累计一定的数据量（游戏中心是以每小时为周期）周期性落地到HDFS或者TDW中以库表的形式存在，以Spark为计算引擎，对库表数据进行一系列处理后，将结果数据推送到线上存储，构成线上推荐引擎的重要数据来源。对于游戏中心这个场景，离线层的工作流可以划分为6大步骤：推荐物料的准备、数据处理、样本设计、特征提取、模型训练、数据上线。

1、推荐物料的准备

对于推荐系统来讲，第一个需要确定的就是推荐物料（也就是推荐池子）。游戏中心推荐的物品主要有两大类：第一大类就是游戏app，目前游戏中心接入算法的游戏app主要包括精品游戏、单机游戏，基本上每天变化不大，因此该类物料由业务每天例行上报更新并推送到线上存储即可。第二大类就是游戏内容了，主要包括攻略、视频、直播等，该类物料相对来讲实时性要求会高一些（新游上线当天需要内容同步更新）。目前游戏中心的内容来源数据链路如图4所示，主要来源是一些上游PGC内容的采购，经过自动Tag提取之后进入到标签内容库，算法侧直接从标签内容库获取推荐物料，目前是按小时更新。

图4：内容源数据链路

2、数据处理

熟悉推荐流程的同学可能比较清楚，数据处理过程繁琐枯燥且耗时较长，占据了整个算法开发周期60%以上的时间，贯穿整个开发流程。没入坑之前有些人可能会以为推荐算法工程师是一个高大上的职位，每天舒舒服服地看下paper，研究下算法，做下实验，特别酷。入坑之后就会发现，每天干的最多的活就是处理数据。但这也充分说明了数据处理的重要性，毕竟只有充分了解数据才能更了解业务，才能更加合理地设计你的推荐策略。这儿讲的数据处理主要包括数据验证、脏数据过滤以及数据转换等。下面主要总结一下在数据处理过程中所踩过的坑：

（1）一定要做好数据上报准确性的验证：前端同学有时候可能不是特别了解算法同学对于上报数据的诉求，所以在上报的时候可能会出现目标不一致的情况。常见的情况有：上报逻辑出错（分页feeds曝光只上报了第一条feeds的数据）、上报id错位（曝光的operid报了下载的数据），上报id缺失等。而验证数据上报准确性的常规操作就是打开游戏中心，将每个场景你有可能会用到的用户行为都操作一遍，记下操作时间，一个小时后从流水中捞出你的数据，逐一验证是否合理（噩梦）。

（2）推荐逻辑出现问题时候优先考虑数据的准确性：当推荐结果产生问题或者出现bug的时候，优先检查数据的准确性。模型的鲁棒性以及容错性一般都较高，最可能出现问题的往往是数据环节。通常都是沿着数据链路往上游逐步排查从而定位问题。

（3）对业务流水数据做一层数据中间表做解耦：算法开发过程中，最好不要直接操作operid相关的逻辑，遇上业务改上报id时（比如产品改版换了新的一套operid），改代码改的你头疼。

（4）算法接入后一定要跟产品以及前端同学再三确认算法ID的上报准确性：业务在调用推荐引擎时都会获得一个算法ID，算法ID上报的准确性直接影响效果监控报表的可信度。很多时候上了一个算法策略结果发现线上效果突然下降，排查半天才发现原来部分转化行为的算法ID上报缺失，所以这儿一定要仔细验证清楚。

（5）脏数据过滤是一门玄学：脏数据的定义通常需要根据业务场景来决定，有时候信心满满地将所有脏数据都过滤之后，线上效果反而降了，所以在过滤数据时要留个心眼（什么样才是脏数据？脏数据是不是一定没用？不要想当然，还是用线上效果说话吧！）。

（6）建立完善的报表监控体系：推荐的一个重要环节就是报表监控，不仅仅包括对效果的监控，还包括对池子的监控、核心用户的监控、item场景表现的监控等。只有建立完善的监控体系，才能在推荐结果受到挑战时快速定位问题。

图5：游戏中心报表监控体系

3、样本设计

一般来讲，推荐问题都会转换成二分类问题，也就是判断用户对某个物品是否会产生操作行为（通常一个U-I对就是一个样本），那么要训练出一个看起来合理线上效果又比较理想的二分类模型，正负样本的设计显得极其重要，下面总结一下游戏中心在设计不同场景的样本时的一些经验：

（1）如何正确定义正负样本？在纯icon推荐的场景，咋一看可以理解为用户下载了该app就是正样本，没有下载就是负样本。但仔细一想这样做会产生两个问题，第一个问题就是正负样本极其不均衡（机器学习中经典问题之一），因为用户浏览几十个app可能也就下载1个app，当然，机器学习针对正负样本不均衡问题会有很多解决方法，这儿就不展开描述了；第二个问题就是用户没有下载并不代表就是不喜欢，这儿会有几个值得推敲的地方：1）用户曝光了但是从没有产生过下载行为，可能因为是无效曝光，用户关注的焦点不在这，所以无法判断用户到底是喜欢还是不喜欢；2）用户在游戏icon曝光的场景并没有产生下载行为，但是用户产生了点击行为，从而进入到游戏详情页后产生下载行为，这样是不是可以认为用户其实是喜欢的，产生的也是正样本呢？举这么个例子主要是为了说明，对于每个不同的推荐场景来说，正负样本的设计都应该充分结合业务特性，不然容易产生有偏样本。

（2）设计样本时应保证每个用户样本数的均衡：在app分发或者内容分发场景，容易存在一些刷量用户；该批用户频繁进入游戏中心从而产生多次操作行为，因此在设计样本时应对多次操作的U-I样本对去重，并保证每个用户样本数的均衡，从而避免模型被少数用户所带偏。

（3）样本权重的设计问题：在feeds推荐的场景中，不同推荐槽位所产生的样本权重应该有所不同；比方说首页feeds场景，用户刚进入场景时，注意力会比较集中，产生的负样本应该置信度较高，权重也较高；当用户下滑到后面feeds的时候，对feeds的内容可能会比较乏味了，产生的正样本置信度应该也是较高的，权重应该也设置较高。

（4）适当丰富样本来源的多样性：一般样本都是基于当前场景所产生的用户行为来选取的，而当前场景用户的行为某种程度是受推荐结果而影响的（“你给我推荐了王者荣耀，那么我只能喜欢王者，但是可能我更喜欢你没给我推的吃鸡呢”），随着算法的迭代，越到后面，算法其实是在迭代自身，越学越窄，这也是推荐系统经典的多样性问题。youtube所采用的一种缓解的方法就是从其他没有算法干扰的场景选取部分样本，来避免这个问题，而在游戏中心的样本设计中，都会单独开设一股没有算法干扰的小流量作为干净样本的补充。

4、特征提取

特征决定机器学习的上限，而模型只是在逼近这个上限。可想而知，特征设计的重要程度是多么的高。关于特征设计的方法论有很多，这儿就不具体讨论。这里主要介绍一下游戏中心各个场景在设计特征时候的通用思路以及为了解决首页feeds特征空间不一致时所采用的多模态embedding特征。

（1）通用特征设计思路：如图6所示。这儿需要提一下的是，游戏中心的推荐场景由于涉及平台利益，所以一般情况下，特征设计时都需要考虑特征的可解释性。

图6：特征设计思路

（2）多模态embedding特征向量：首页feeds流分发场景是一个具有挑战性的场景，其中一个比较有意思的难题就是待推荐的内容类型较多。传统的feeds推荐场景要么都是纯视频流、要么是纯文字feeds等，而游戏中心首页这儿待推荐的内容类型有攻略、视频、直播、活动、礼包等，而且每一种内容类型的二级承载页产品形态也不一致，这样会导致可提取的特征空间维度不一致。比方说视频承载页的观看时长与图文承载页的观看时长量级不一致，视频承载页有icon点击等操作而图文承载页则没有。特征空间的不一致会导致模型在打分的时候会有所偏颇，离线实验过程中发现视频由于特征维度较齐全，打分结果整体偏高。因此，为了减缓特征空间维度不一致问题，游戏中心首页feeds流引入了多模态embedding特征向量，该方法在企鹅电竞视频推荐场景已经取得了较好的效果（如图7所示）。多模态embedding特征向量的设计主要参考youtube的论文，从而获得每个user、item的低维特征向量，一方面解决item的原始特征空间维度不一致问题，另一方面也根据用户的历史行为，学习user、item的隐语义特征维度，起到信息补充的作用。

图7：多模态embedding网络

5、模型训练

好了，终于到了别人所认为的高大上的步骤了——模型训练，其实一点都不高大上，尤其是有了神盾推荐这个平台。目前神盾推荐离线算法平台已经集成了大部分常见的推荐算法，包括LR，Xgboost，FM，CF等，因此离线训练只需要准备好样本跟特征，配置好参数，就可以一键点run喝咖啡了（开玩笑开玩笑，是继续搬下一块砖）。傻瓜式的模型训练（调包侠）其实并没有太大的坑，但是有几点经验也在这稍微写一下哈：

（1）注意调参的正确姿势：目前神盾默认是将数据集划分为train跟test，如果盯着test数据集的指标来调参的话，是很有可能出现线下高线上低的情况。因为盯着test指标进行调参的话容易加入个人先验，本身就是一种过拟合的操作，正规的操作应该是将数据集划分为train-test-validation。

（2）同样的业务场景建议共用一个大模型：新版游戏中心目前有9个场景需要算法接入，如果每一个场景都单独建模的话，一来维护成本高，二来浪费人力。适当对场景问题进行归纳，训练通用模型可以有效地节省开发时间。比如说首页分类列表推荐，游戏Tab的热游列表推荐等，其实都是纯icon的推荐，可以用统一的大模型来建模。通用模型首先要考虑的问题就是样本、特征的选取，样本可能比较好设计，汇总所有场景的样本即可，最多就是根据场景特性设计不同的权重；而特征就需要好好斟酌，是分场景提取特征还是汇总后提取、不同场景特征维度不一致如何处理等。

（3）选择合适的机器学习方案：目前首页feeds是将排序问题转化为二分类问题，评估指标选取的是auc，所以优化的重点在于尽可能地将正负样本区分开（正样本排在负样本前面），但对于正样本之间谁更“正”却不是二分类模型的关注重点。神盾近来已经支持pari-wise的LTR算法，可以解决任意两样本之间置信度问题，后续可以在首页feeds场景上做尝试。

（4）选择合适的优化指标：对于视频瀑布流场景，优化的目标可以有很多，比如人均播放个数、播放率、人均播放时长，具体需要跟产品同学沟通清楚。

（5）避免对分类问题的过度拟合：前面已经提过，在推荐场景，经常将推荐问题转化为分类问题来处理，但是需要注意的是，推荐问题不仅仅只是分类问题。分类问题是基于历史行为来做预测，但推荐问题有时候也需要考虑跳出用户历史行为的限制，推荐一些用户意想不到的item，因此，推荐是一个系统性问题，应当避免过度拟合分类问题。

6、数据上线

数据上线可以说是推荐系统中较为核心的环节，其中会面临很多难题。这儿的数据主要指的是离线计算好的物料数据、特征数据（用户、物品）、模型数据等。目前神盾会周期性地对需要上线的数据出库到hdfs，通过数据导入服务推送到线上存储，主要是grocery（用户特征）跟共享内存ssm（物品特征以及池子数据等查询较为频繁的数据）。目前这儿会有几个小问题：

（1）数据的一致性问题：离线模型在训练的时候，会对样本数据跟特征数据做拼接，通常都是将当前周期的样本跟上一周期的特征做拼接，以天为例，也就是今天的样本会跟昨天的特征数据做拼接。但是离线数据的计算以及上线是会有时间延迟的，尤其是特征数据。有可能今天的凌晨0点到5点，线上所拉到的特征数据其实是前天的特征数据，5点之后，昨天的特征数据才计算完并更新到线上。也就是说凌晨5点之前，所产生的推荐结果其实是用前天的特征数据来计算的，那么离线训练的时候，拼接的特征数据就会与实际的数据不一致。

（2）数据的实时性问题：前面也讲了，业务数据一般会周期（按小时）落地到hdfs或者tdw以库表形式存在，基于spark进行数据处理之后又推送到线上存储，这种复杂的数据处理链路导致数据时效性得不到保证（频繁地数据落地以及数据上线所导致）。因此，离线层仅适用于对数据时效性不高的任务，比如长期兴趣的计算等。

近线层

前面已经提到，离线层在数据时效性以及数据一致性的问题上面临较大的挑战。本质上是由于数据频繁落地以及上线导致的延迟所引起的，给游戏中心推荐带来较大的困扰。企鹅电竞也面临同样的问题，因此，两个业务联合设计了近线层（如图8所示）。目前整个数据链路已经打通，并且也在企鹅电竞业务上试点成功。整个框架是基于kafka+spark streaming来搭建的，目前主要实现两个功能点：实时特征的提取以及实时样本特征的拼接。由于近线层不需要落地以及线上导数据服务，而是直接对业务流水进行操作后写入线上存储，因此耗时较少，基本可以做到秒级别的特征反馈，解决了离线层计算周期长的缺点，适用于用户短时兴趣的捕捉。

实时样本特征的拼接主要是为了解决数据一致性问题。离线层对样本、特征进行拼接的时候一般都是默认当前周期样本拼接上一周期的特征，当由于特征上线的延迟，有部分当前周期样本的产生其实是由t-2周期的特征所导致，因此为了保证训练数据的准确性，我们在近线层设计了实时的样本特征拼接。当用户请求时，会带上读取的特征数据，拼接到用户的操作流数据上，构成离线层的训练数据。

图8：近线层功能逻辑

在线层

在线层是推荐系统的关键环节，直接影响最终的推荐结果。一般分为召回层，精排层、重排层（或者是matching、ranking、rerank）。召回层一般是起到粗筛的作用，对于内容推荐来说，推荐的池子一般都是上万级别，如果直接进行模型打分的话，线上服务压力会比较大，因此，通常都会采用各种召回的策略来进行候选集的粗筛。目前游戏中心所采用的召回策略主要有标签、热度、新鲜度、CF等。精排层所干的事情就比较纯粹了，一般就是模型加载以及模型打分，对召回的物品进行一个打分排序。最后就是重排层，主要是对模型打分结果进行一个策略的调整。游戏中心的重排排层主要有以下几个逻辑：1）分类打散：首页feeds在推荐的时候，如果只由模型进行打分控制的话，容易出现游戏扎堆的现象，也就是连续几条feeds都是同款游戏，因此需要重排层来调整展示的顺序；2）流量分配：游戏的分发涉及平台的利益，每款游戏的曝光量会影响平台的收入，因此需要合理分配每款游戏的展示量；3）bandint策略：主要是用于兴趣试探，feeds场景会涉及多种内容类型，如何在推荐用户历史喜欢的内容类型以及尝试曝光新的内容类型之间做平衡是推荐系统典型的E&E问题，这儿我们设计了一个简单的bandint策略，下面会详细讲一下。4）运营策略：一些偏业务性质的运营策略也会在重排层体现。

推荐系统中会遇到一个经典的问题就是Exploitation（开发） VS Exploration（探索）问题，其中的Exploitation是基于已知最好策略，开发利用已知具有较高回报的item（贪婪、短期回报），而对于Exploration则不考虑曾经的经验，勘探潜在可能高回报的item（非贪婪、长期回报），最后的目标就是要找到Exploitation & Exploration的trade-off，以达到累计回报最大化。对于游戏中心首页feeds而言，一味推荐用户历史喜欢的内容类型或者大量尝试曝光新的内容类型都是不可行的；首先用户的兴趣可能会有所波动，过去可能喜欢视频类型，但是下一刻就可能不喜欢了；其次一味推荐用户历史喜欢的内容类型，可能会让用户产生厌倦。为了平衡两者之间的关系，我们在重排层设计了一个简单的策略，具体如图9、图10所示。

图9：游戏中心bandit策略算法逻辑

图10：游戏中心bandit策略具体实现

迭代计划

目前游戏中心个性化推荐所遇到的难点以及下一步的迭代计划主要如下：

1、外部数据的引入：1）结合第三方数据做推荐：目前游戏中心个性化推荐的依据主要是用户的场景表现、游戏内表现以及一些基础的画像数据，数据来源较为单一。引入更多的第三方业务数据（比如企鹅电竞），一方面可以丰富用户的特征维度，另一方面可以给用户带来体验上的提升（用户刚在企鹅电竞看了个吃鸡的直播，来到游戏中心就给推荐了“刺激战场”）。2）丰富推荐物料：目前游戏中心的内容来源部分存在“同质化”现象，素材类型还不是特别丰富，需要引入更多优质的外部内容。

2、多模态特征提取：游戏中心的推荐内容类型较为丰富，包括了视频、图文、活动、礼包等，如何在同一个特征向量空间对各个item进行信息抽取是目前遇到的难题之一。现有的解决方案是基于youtube的embedding网络进行user、item的embedding向量学习。该网络的输入是无序的，也就是没有考虑用户历史行为的轨迹，那么是否可以用图来表示行为的轨迹，基于graph embedding的方法获得信息更加丰富的item向量？目前业界也有若干基于graph embedding的推荐案例（手淘首页、阿里凑单）。

3、内容元信息的提取：目前游戏中心对于item的特征提取要么是基于统计的特征，要么就是基于item历史行为的embedding特征或者tag提取，对于内容本体信息的提取还较为薄弱，如何有效地提取非结构化内容的信息是下一步迭代需要考虑的问题。

4、模型的快速更新：对于用户兴趣的实时捕捉，不仅依赖于数据的实时更新，同样依赖于模型的实时更新。目前线上的模型是按天例行更新，如何快速地训练模型以及部署模型是后续不可避免的问题。

5、优化指标考虑收入相关因子：当前的优化指标基本是转化率、时长等推荐系统常见的指标，但游戏中心涉及平台收入，需要综合考虑每个游戏的收益（类似广告系统中的竞价）。如何设计合理的优化指标（考虑游戏arpu、ltv等）以及在用户体验跟平台收入之间做平衡也是下一步迭代的关键。

6、流量分配问题：首页feeds场景既涉及游戏流量的分配，也涉及内容类型流量的分配，如何有效地设计流量分配方案，从而减轻重排逻辑的负担也是需要考虑的优化点。

7、拉活还是拉新：如何根据用户在游戏生命周期的不同阶段推荐合适的内容是首页feeds场景需要考虑的问题。

8、新品试探：目前我们只是在内容类型上做了一些简单的策略，后续还需要调研更加成熟的解决方案来解决E&E问题。

总结

本文主要是对游戏中心在算法一期的接入过程所遇到的问题做一些总结，以及梳理下一步迭代的计划。由于算法一期的重心在于算法的快速接入，因此整个个性化推荐框架中所涉及到的策略可能都略显“着急”，希望各位同行大佬多多包涵。关于游戏中心推荐问题，欢迎随时交流。

来源：腾讯QQ大数据

旅游批发商如何利用数据挖掘实现差异化？

DinK — Wed, 15 Jun 2016 14:40:29 +0000

全球旅游批发商Tourico利用数据挖掘技术帮助中国分销商评估消费者的旅游预订行为，从而改善产品和服务质量。

全球旅游批发商Tourico利用数据挖掘技术帮助中国分销商评估消费者的旅游预订行为，从而改善产品和服务质量。本文将深入研究商业智能是如何帮助B2B领域的旅游公司提升竞争优势的。

Tourico Holidays专注于旅游批发业务，该公司目前加大了数据挖掘应用方面的力度，以提升其在中国所提供的旅游产品的价值。

Tourico的Travel Global Systems会借助专门的数据挖掘对其平台上的访问请求进行评估分析。同时，Tourico也在其产品批发模式的基础上新增了一个维度。Tourico拥有专业的计算机科学家团队，他们负责分析消费者旅游预订行为发生变化的原因。Tourico声称，这是评估旅游批发业务表现如何的一种新方式。

很明显，Tourico的计算机科学家团队已经跳出了连接技术、内容和价格等传统的因素，他们致力于借助商业智能（以下称BI）软件评估过去几年消费者对不同旅游目的地的需求。这种预测分析法主要以旅游搜索量和预订数据为考量因素。

效率

Tourico的数据挖掘团队（由10名数据科学家组成）在效率方面重点关注两个因素——提升团队的定价和签约能力（包括谈判、根据某个旅游目的地的搜索情况等提供相关产品）以及为采购库存的人员提供具有建设性意义的反馈及推荐，以帮助他们改善整体用户体验，并提升各自平台上的转化率。任何一家旅游公司都希望能够未雨绸缪，以应对未来的需求增长。而Tourico的商业模式正好说明了这一点，作为全球旅游分销商，Tourico通常会提前几年批量购买库存。

以帮助OTA获得Tourico的协议价为例，假设有两家OTA，一家是国外的，一家是中国的，它们的出境游业务以同一个旅游目的地为目标。我们假设国外OTA在任何时间点都充分利用了Tourico的库存，而中国OTA并没有展示可供预订的酒店。那么，Tourico会主动告知中国OTA，展示一定数量的酒店就有机会使每月的营业收入增加20万美元。当然，用户界面或者搜索结果/推荐是由OTA自己决定的，但Tourico认为，这种市场信息的及时反馈可以帮助那些因为“技术或营销”原因而错失良机的分销商。

来源：Tourico

上图显示了Tourico目前使用的BI模块之一。此模块显示了该公司在多项主要的KPI方面的实时表现，例如过去四周和过去一年的平均数据。这些KPI主要关注一些数据点，例如订单量、预订量、利润等。其系统还可以显示针对某一家特定酒店或客户的数据。

Tourico告诉我们，该公司的BI模块包含销售、签约、自动化收益管理及系统的技术方面（比如：响应时间）。Travel Global Systems的数据挖掘团队主管Einat Aviv解释道：“我们也有一些模拟设置，可以模拟利润及其他因素的变化对总收入、净利润、取消率甚至是Tourico的息税前利润的影响。”

Tourico在中国的表现如何呢？Tourico称今年第一季度在全球出售的间夜量同比增长了两倍，中国作为客源市场，增长率超过200%。Aviv说：“从2015年开始，我们在中国最大的客户搜索普吉岛、曼谷和新加坡的次数增长甚至超过了1000倍。” Aviv还补充道，Tourico的数据挖掘团队正在尝试了解消费者的“确切的偏好”，并据此制定一份“目标清单”以满足他们的需求。“我们在进行数据挖掘后发现，越来越多的消费者选择去普吉岛、曼谷和新加坡，而且人数还在不断增长，所以我们决定增加这些市场上的产品供给。”

分析

Aviv称，Tourico正在分析由中国分销商提供的“每天高达几千万的独立访客的搜索数据”。计算机科学与BI技术的结合使Tourico不仅能分析历史数据，还能预测未来可能出现的变化。

Aviv说：“通过分析数据、了解中国合作伙伴的意向，我们能更好地了解中国合作伙伴，为他们提供量身打造的产品，从而帮助他们提升利润。我们还会给分销商提供其竞争对手或其他酒店绩效的对比情况。”

Tourico称，该公司正在将BI和旅游生态系统中的数据结合起来。

Aviv解释道：“（除了Tourico自己的数据之外），我们目前还对旅游批发网站等主要的互联网渠道上的数据进行挖掘，以对全球的酒店进行分类。使用外部大数据集可以帮助我们确定哪些产品具有相似性以及哪些产品最适合我们的客户。我们还可以研究最畅销的酒店、了解它们畅销的原因、找到未来可以签约的类似的酒店。”

那么，这些反馈是实时的吗？

Aviv称：“不是实时的，不过我们目前正在研究如何简化反馈流程。”

定价方面有变化吗？在谈到预订引擎、旅游提供商、CRS和直连之间实时沟通的复杂性时，Aviv表示，首先需要了解一点，那就是价格的频繁波动并非是消费者所乐见的。Aviv说：“频繁的价格变动会影响到每一个进行价格缓存的人。从国内酒店分销商到海外批发商、旅行社乃至消费者，整个分销链都会受到影响。”定价方面的变化需要引起关注，而且需要避免“诱购”策略，因为这只会让消费者恼怒，降低他们的忠诚度。

B2B领域的BI技术应用趋于成熟

越来越多B2B旅游分销领域的公司开始提供以BI为导向的产品。比如，传统旅行社可以在网站上获取预订趋势、各种增加收入的机会等信息。而充分利用BI无需旅行社改变工作流程。

有消息透露：“GTA和Tourico这样的公司提供的产品和服务能使中国的旅游电商平台受益。分销商都需要借助XML API获取定价信息、进行准确定价、获取机票和市场的相关信息。这样可以帮助他们调整产品和营销活动等。”

Tourico有没有在响应时间和速度等方面做一些改进呢？Tourico称，以下几点使其技术优于其他竞争对手：

1. 平行服务避免了故障点的出现，同时实现了负载均衡。
2. Tourico无需停止服务，就能对软件进行大的调整。
3. 在数据方面，Tourico拥有许多监控器，能提醒全天候服务的员工可能存在的问题。
4. Tourico称，该公司运用了机器学习来检测各种问题，并在问题早期就找出原因。
5. 寻找多家互联网服务提供商，以拓展带宽，并改善各种客户的页面访问路径。
6. 增添硬件，以为不断增多的访问需求提供更好的服务。
7. 进行代码优化，以缩短服务器响应时间。
8. 多协议标签交换(MPLS，用于高性能电讯网络的数据承载技术)能起到加速的作用。

（Claire编译）

做好数据挖掘模型的9条经验总结

DinK — Sat, 26 Mar 2016 14:46:22 +0000

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程，这种知识是以自然或者人工形式创造的新知识。

当前的数据挖掘形式，是在20世纪90年代实践领域诞生的，是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非理论，在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM，逐渐成为数据挖掘过程的一种标准化过程，被越来越多的数据挖掘实践者成功运用和遵循。

虽然CRISP-DM能够指导如何实施数据挖掘，但是它不能解释数据挖掘是什么或者为什么适合这样做。在本文中我将阐述我提出数据挖掘的九种准则或“定律”(其中大多数为实践者所熟知)以及另外其它一些熟知的解释。开始从理论上(不仅仅是描述上)来解释数据挖掘过程。

我的目的不是评论CRISP-DM，但CRISP-DM的许多概念对于理解数据挖掘是至关重要的，本文也将依赖于CRISP-DM的常见术语。CRISP-DM仅仅是论述这个过程的开始。

第一，目标律：业务目标是所有数据解决方案的源头

它定义了数据挖掘的主题：数据挖掘关注解决业务业问题和实现业务目标。数据挖掘主要不是一种技术，而是一个过程，业务目标是它的的核心。没有业务目标，没有数据挖掘(不管这种表述是否清楚)。因此这个准则也可以说成：数据挖掘是业务过程。

第二，知识律：业务知识是数据挖掘过程每一步的核心

这里定义了数据挖掘过程的一个关键特征。CRISP-DM的一种朴素的解读是业务知识仅仅作用于数据挖掘过程开始的目标的定义与最后的结果的实施，这将错过数据挖掘过程的一个关键属性，即业务知识是每一步的核心。

为了方便理解，我使用CRISP-DM阶段来说明：

商业理解必须基于业务知识，所以数据挖掘目标必须是业务目标的映射(这种映射也基于数据知识和数据挖掘知识);
数据理解使用业务知识理解与业务问题相关的数据，以及它们是如何相关的;
数据预处理就是利用业务知识来塑造数据，使得业务问题可以被提出和解答(更详尽的第三条—准备律);
建模是使用数据挖掘算法创建预测模型，同时解释模型和业务目标的特点，也就是说理解它们之间的业务相关性;
评估是模型对理解业务的影响;
实施是将数据挖掘结果作用于业务过程

总之，没有业务知识，数据挖掘过程的每一步都是无效的，也没有“纯粹的技术”步骤。业务知识指导过程产生有益的结果，并使得那些有益的结果得到认可。数据挖掘是一个反复的过程，业务知识是它的核心，驱动着结果的持续改善。

这背后的原因可以用“鸿沟的表现”(chasm of representation)来解释(Alan Montgomery在20世纪90年代对数据挖掘提出的一个观点)。Montgomery指出数据挖掘目标涉及到现实的业务，然而数据仅能表示现实的一部分;数据和现实世界是有差距(或“鸿沟”)的。在数据挖掘过程中，业务知识来弥补这一差距，在数据中无论发现什么，只有使用业务知识解释才能显示其重要性，数据中的任何遗漏必须通过业务知识弥补。只有业务知识才能弥补这种缺失，这是业务知识为什么是数据挖掘过程每一步骤的核心的原因。

第三，准备律：数据预处理比数据挖掘其他任何一个过程都重要

这是数据挖掘著名的格言，数据挖掘项目中最费力的事是数据获取和预处理。非正式估计，其占用项目的时间为50%-80%。最简单的解释可以概括为“数据是困难的”，经常采用自动化减轻这个“问题”的数据获取、数据清理、数据转换等数据预处理各部分的工作量。虽然自动化技术是有益的，支持者相信这项技术可以减少数据预处理过程中的大量的工作量，但这也是误解数据预处理在数据挖掘过程中是必须的原因。

数据预处理的目的是把数据挖掘问题转化为格式化的数据，使得分析技术(如数据挖掘算法)更容易利用它。数据任何形式的变化(包括清理、最大最小值转换、增长等)意味着问题空间的变化，因此这种分析必须是探索性的。这是数据预处理重要的原因，并且在数据挖掘过程中占有如此大的工作量，这样数据挖掘者可以从容地操纵问题空间，使得容易找到适合分析他们的方法。

有两种方法“塑造”这个问题空间。第一种方法是将数据转化为可以分析的完全格式化的数据，比如，大多数数据挖掘算法需要单一表格形式的数据，一个记录就是一个样例。数据挖掘者都知道什么样的算法需要什么样的数据形式，因此可以将数据转化为一个合适的格式。第二种方法是使得数据能够含有业务问题的更多的信息，例如，某些领域的一些数据挖掘问题，数据挖掘者可以通过业务知识和数据知识知道这些。通过这些领域的知识，数据挖掘者通过操纵问题空间可能更容易找到一个合适的技术解决方案。

因此，通过业务知识、数据知识、数据挖掘知识从根本上使得数据预处理更加得心应手。数据预处理的这些方面并不能通过简单的自动化实现。

这个定律也解释了一个有疑义的现象，也就是虽然经过数据获取、清理、融合等方式创建一个数据仓库，但是数据预处理仍然是必不可少的，仍然占有数据挖掘过程一半以上的工作量。此外，就像CRISP-DM展示的那样，即使经过了主要的数据预处理阶段，在创建一个有用的模型的反复过程中，进一步的数据预处理的必要的。

第四，试验律(NFL律：No Free Lunch)：对于数据挖掘者来说，天下没有免费的午餐，一个正确的模型只有通过试验(experiment)才能被发现

机器学习有一个原则：如果我们充分了解一个问题空间(problem space)，我们可以选择或设计一个找到最优方案的最有效的算法。一个卓越算法的参数依赖于数据挖掘问题空间一组特定的属性集，这些属性可以通过分析发现或者算法创建。但是，这种观点来自于一个错误的思想，在数据挖掘过程中数据挖掘者将问题公式化，然后利用算法找到解决方法。事实上，数据挖掘者将问题公式化和寻找解决方法是同时进行的—–算法仅仅是帮助数据挖掘者的一个工具。

有五种因素说明试验对于寻找数据挖掘解决方案是必要的：

数据挖掘项目的业务目标定义了兴趣范围(定义域)，数据挖掘目标反映了这一点;
与业务目标相关的数据及其相应的数据挖掘目标是在这个定义域上的数据挖掘过程产生的;
这些过程受规则限制，而这些过程产生的数据反映了这些规则;
在这些过程中，数据挖掘的目的是通过模式发现技术(数据挖掘算法)和可以解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的规则;
数据挖掘需要在这个域上生成相关数据，这些数据含有的模式不可避免地受到这些规则的限制

在这里强调一下最后一点，在数据挖掘中改变业务目标，CRISP-DM有所暗示，但经常不易被觉察到。广为所知的CRISP-DM过程不是下一个步骤仅接着上一个步骤的“瀑布”式的过程。事实上，在项目中的任何地方都可以进行任何CRISP-DM步骤，同样商业理解也可以存在于任何一个步骤。业务目标不是简单地在开始就给定，它贯穿于整个过程。这也许可以解释一些数据挖掘者在没有清晰的业务目标的情况下开始项目，他们知道业务目标也是数据挖掘的一个结果，不是静态地给定。

Wolpert的“没有免费的午餐”理论已经应用于机器学习领域，无偏的状态好于(如一个具体的算法)任何其他可能的问题(数据集)出现的平均状态。这是因为，如果我们考虑所有可能的问题，他们的解决方法是均匀分布的，以至于一个算法(或偏倚)对一个子集是有利的，而对另一个子集是不利的。这与数据挖掘者所知的具有惊人的相似性，没有一个算法适合每一个问题。但是经过数据挖掘处理的问题或数据集绝不是随机的，也不是所有可能问题的均匀分布，他们代表的是一个有偏差的样本，那么为什么要应用NFL的结论?答案涉及到上面提到的因素：问题空间初始是未知的，多重问题空间可能和每一个数据挖掘目标相关，问题空间可能被数据预处理所操纵，模型不能通过技术手段评估，业务问题本身可能会变化。由于这些原因，数据挖掘问题空间在数据挖掘过程中展开，并且在这个过程中是不断变化的，以至于在有条件的约束下，用算法模拟一个随机选择的数据集是有效的。对于数据挖掘者来说：没有免费的午餐。

这大体上描述了数据挖掘过程。但是，在有条件限制某些情况下，比如业务目标是稳定的，数据和其预处理是稳定的，一个可接受的算法或算法组合可以解决这个问题。在这些情况下，一般的数据挖掘过程中的步骤将会减少。但是，如果这种情况稳定是持续的，数据挖掘者的午餐是免费的，或者至少相对便宜的。像这样的稳定性是临时的，因为对数据的业务理解(第二律)和对问题的理解(第九律)都会变化的。

第五，模式律(大卫律)：数据中总含有模式

这条规律最早由David Watkins提出。我们可能预料到一些数据挖掘项目会失败，因为解决业务问题的模式并不存在于数据中，但是这与数据挖掘者的实践经验并不相关。

前文的阐述已经提到，这是因为：在一个与业务相关的数据集中总会发现一些有趣的东西，以至于即使一些期望的模式不能被发现，但其他的一些有用的东西可能会被发现(这与数据挖掘者的实践经验是相关的);除非业务专家期望的模式存在，否则数据挖掘项目不会进行，这不应感到奇怪，因为业务专家通常是对的。

然而，Watkins提出一个更简单更直接的观点：“数据中总含有模式。”这与数据挖掘者的经验比前面的阐述更一致。这个观点后来经过Watkins修正，基于客户关系的数据挖掘项目，总是存在着这样的模式即客户未来的行为总是和先前的行为相关，显然这些模式是有利可图的(Watkins的客户关系管理定律)。但是，数据挖掘者的经验不仅仅局限于客户关系管理问题，任何数据挖掘问题都会存在模式(Watkins的通用律)。

Watkins的通用律解释如下：

数据挖掘项目的业务目标定义了兴趣范围(定义域)，数据挖掘目标反映了这一点;
与业务目标相关的数据及其相应的数据挖掘目标是在这个定义域上的数据挖掘过程产生的;
这些过程受规则限制，而这些过程产生的数据反映了这些规则;
在这些过程中，数据挖掘的目的是通过模式发现技术(数据挖掘算法)和可以解释这个算法结果的业务知识相结合的方法来揭示这个定义域上的规则;
数据挖掘需要在这个域上生成相关数据，这些数据含有的模式不可避免地受到这些规则的限制

总结这一观点：数据中总存在模式，因为在这过程中不可避免产生数据这样的副产品。为了发掘模式，过程从(你已经知道它)—–业务知识开始。

利用业务知识发现模式也是一个反复的过程;这些模式也对业务知识有贡献，同时业务知识是解释模式的主要因素。在这种反复的过程中，数据挖掘算法简单地连接了业务知识和隐藏的模式。

如果这个解释是正确的，那么大卫律是完全通用的。除非没有相关的数据的保证，否则在每个定义域的每一个数据挖掘问题总是存在模式的。

第六，洞察律：数据挖掘增大对业务的认知

数据挖掘是如何产生洞察力的?这个定律接近了数据挖掘的核心：为什么数据挖掘必须是一个业务过程而不是一个技术过程。业务问题是由人而非算法解决的。数据挖掘者和业务专家从问题中找到解决方案，即从问题的定义域上达到业务目标需要的模式。数据挖掘完全或部分有助于这个认知过程。数据挖掘算法揭示的模式通常不是人类以正常的方式所能认识到的。综合这些算法和人类正常的感知的数据挖掘过程在本质上是敏捷的。在数据挖掘过程中，问题解决者解释数据挖掘算法产生的结果，并统一到业务理解上，因此这是一个业务过程。

这类似于“智能放大器”的概念，在早期的人工智能的领域，AI的第一个实际成果不是智能机器，而是被称为“智能放大器”的工具，它能够协助人类使用者提高获取有效信息的能力。数据挖掘提供一个类似的“智能放大器”，帮助业务专家解决他们不能单独完成的业务问题。

总之，数据挖掘算法提供一种超越人类以正常方式探索模式的能力，数据挖掘过程允许数据挖掘者和业务专家将这种能力融合在他们的各自的问题的中和业务过程中。

第七，预测律：预测提高了信息泛化能力

“预测”已经成为数据挖掘模型可以做什么的可接受的描述，即我们常说的“预测模型”和“预测分析”。这是因为许多流行的数据挖掘模型经常使用“预测最可能的结果”(或者解释可能的结果如何有可能)。这种方法是分类和回归模型的典型应用。

但是，其他类型的数据挖掘模型，比如聚类和关联模型也有“预测”的特征。这是一个含义比较模糊的术语。一个聚类模型被描述为“预测”一个个体属于哪个群体，一个关联模型可能被描述为基于已知基本属性“预测”一个或更多属性。

同样我们也可以分析“预测”这个术语在不同的主题中的应用：一个分类模型可能被说成可以预测客户行为—-更加确切的说它可以预测以某种确定行为的目标客户，即使不是所有的目标个体的行为都符合“预测”的结果。一个诈骗检测模型可能被说成可以预测个别交易是否具有高风险性，即使不是所有的预测的交易都有欺诈行为。

“预测”这个术语广泛的使用导致了所谓的“预测分析”被作为数据挖掘的总称，并且在业务解决方案中得到了广泛的应用。但是我们应该意识到这不是日常所说的“预测”，我们不能期望预测一个特殊个体的行为或者一个特别的欺诈调查结果。

那么，在这个意义下的“预测”是什么?分类、回归、聚类和关联算法以及他们集成模型有什么共性呢?答案在于“评分”，这是预测模型应用到一个新样例的方式。模型产生一个预估值或评分，这是这个样例的新信息的一部分;在概括和归纳的基础上，这个样例的可利用信息得到了提高，模式被算法发现和模型具体化。值得注意的是这个新信息不是在“给定”意义上的“数据”，它仅有统计学意义。

第八，价值律：数据挖掘的结果的价值不取决于模型的稳定性或预测的准确性

准确性和稳定性是预测模型常用的两个度量。准确性是指正确的预测结果所占的比例;稳定性是指当创建模型的数据改变时，用于同一口径的预测数据，其预测结果变化有多大(或多小)。鉴于数据挖掘中预测概念的核心角色，一个预测模型的准确性和稳定性常被认为决定了其结果的价值的大小，实际上并非如此。

体现预测模型价值的有两种方式：一种是用模型的预测结果来改善或影响行为，另一种是模型能够传递导致改变策略的见解(或新知识)。

对于后者，传递出的任何新知识的价值和准确性的联系并不那么紧密;一些模型的预测能力可能有必要使我们相信发现的模式是真实的。然而，一个难以理解的复杂的或者完全不透明的模型的预测结果具有高准确性，但传递的知识也不是那么有见地;然而，一个简单的低准确度的模型可能传递出更有用的见解。

准确性和价值之间的分离在改善行为的情况下并不明显，然而一个突出问题是“预测模型是为了正确的事，还是为了正确的原因?” 换句话说，一个模型的价值和它的预测准确度一样，都源自它的业务问题。例如，客户流失模型可能需要高的预测准确度，否则对于业务上的指导不会那么有效。相反的是一个准确度高的客户流失模型可能提供有效的指导，保留住老客户，但也仅仅是最少利润客户群体的一部分。如果不适合业务问题，高准确度并不能提高模型的价值。

模型稳定性同样如此，虽然稳定性是预测模型的有趣的度量，稳定性不能代替模型提供业务理解的能力或解决业务问题，其它技术手段也是如此。

总之，预测模型的价值不是由技术指标决定的。数据挖掘者应该在模型不损害业务理解和适应业务问题的情况下关注预测准确度、模型稳定性以及其它的技术度量。

第九，变化律：所有的模式因业务变化而变化

数据挖掘发现的模式不是永远不变的。数据挖掘的许多应用是众所周知的，但是这个性质的普遍性没有得到广泛的重视。

数据挖掘在市场营销和CRM方面的应用很容易理解，客户行为模式随着时间的变化而变化。行为的变化、市场的变化、竞争的变化以及整个经济形势的变化，预测模型会因这些变化而过时，当他们不能准确预测时，应当定期更新。

数据挖掘在欺诈模型和风险模型的应用中同样如此，随着环境的变化欺诈行为也在变化，因为罪犯要改变行为以保持领先于反欺诈。欺诈检测的应用必须设计为就像处理旧的、熟悉的欺诈行为一样能够处理新的、未知类型的欺诈行为。

某些种类的数据挖掘可能被认为发现的模式不会随时间而变化，比如数据挖掘在科学上的应用，我们有没有发现不变的普遍的规律?也许令人惊奇的是，答案是即使是这些模式也期望得到改变。理由是这些模式并不是简单的存在于这个世界上的规则，而是数据的反应—-这些规则可能在某些领域确实是静态的。

然而，数据挖掘发现的模式是认知过程的一部分，是数据挖掘在数据描述的世界与观测者或业务专家的认知之间建立的一个动态过程。因为我们的认知在持续发展和增长，所以我们也期望模式也会变化。明天的数据表面上看起来相似，但是它可能已经集合了不同的模式、(可能巧妙地)不同的目的、不同的语义;分析过程因受业务知识驱动，所以会随着业务知识的变化而变化。基于这些原因，模式会有所不同。

总之，所有的模式都会变化，因为他们不仅反映了一个变化的世界，也反映了我们变化的认知。

后记：

这九条定律是关于数据挖掘的简单的真知。这九条定律的大部分已为数据挖掘者熟知，但仍有一些不熟悉(例如，第五、第六、第七)。大多数新观点的解释都和这九条定律有关，它试图解释众所周知的数据挖掘过程中的背后的原因。

我们为什么何必在意数据挖掘过程所采用的形式呢?除了知识和理解这些简单的诉求，有实实在在的理由去探讨这些问题。

数据挖掘过程以现在的形式存在是因为技术的发展—-机器学习算法的普及以及综合其它技术集成这些算法的平台的发展，使得商业用户易于接受。我们是否应该期望因技术的改变而改变数据挖掘过程?最终它会改变，但是如果我们理解数据挖掘过程形成的原因，然后我们可以辨别技术可以改变的和不能改变的。

一些技术的发展在预测分析领域具有革命性的作用，例如数据预处理的自动化、模型的重建以及在部署的框架里通过预测模型集成业务规则。数据挖掘的九条定律及其解释说明：技术的发展不会改变数据挖掘过程的本质。这九条定律以及这些思想的进一步发展，除了有对数据挖掘者的教育价值之外，应该被用来判别未来任何数据挖掘过程革命性变化的诉求。

做数据挖掘工作需要具备哪些思维原理？

DinK — Sun, 07 Jun 2015 17:08:38 +0000

一、数据核心原理

从“流程”核心转变为“数据”核心

大数据时代，计算模式也发生了转变，从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求，将改变IT系统的升级方式：从简单增量到架构变化。大数据下的新思维——计算模式的转变。

例如：IBM将使用以数据为中心的设计，目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下，云计算找到了破茧重生的机会，在存储和计算上都体现了数据为核心的理念。大数据和云计算的关系：云计算为大数据提供了有力的工具和途径，大数据为云计算提供了很有价值的用武之地。而大数据比云计算更为落地，可有效利用已大量建设的云计算资源，最后加以利用。

科学进步越来越多地由数据来推动，海量数据给数据分析既带来了机遇，也构成了新的挑战。大数据往往是利用众多技术和方法，综合源自多个渠道、不同时间的信息而获得的。为了应对大数据带来的挑战，我们需要新的统计思路和计算方法。

说明：用数据核心思维方式思考问题，解决问题。以数据为核心，反映了当下IT产业的变革，数据成为人工智能的基础，也成为智能化的基础，数据比流程更重要，数据库、记录数据库，都可开发出深层次信息。云计算机可以从数据库、记录数据库中搜索出你是谁，你需要什么，从而推荐给你需要的信息。

二、数据价值原理

由功能是价值转变为数据是价值

大数据真正有意思的是数据变得在线了，这个恰恰是互联网的特点。非互联网时期的产品，功能一定是它的价值，今天互联网的产品，数据一定是它的价值。

例如：大数据的真正价值在于创造，在于填补无数个还未实现过的空白。有人把数据比喻为蕴藏能量的煤矿，煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”，价值含量、挖掘成本比数量更为重要。不管大数据的核心价值是不是预测，但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

数据能告诉我们，每一个客户的消费倾向，他们想要什么，喜欢什么，每个人的需求有哪些区别，哪些又可以被集合到一起来进行分类。大数据是数据数量上的增加，以至于我们能够实现从量变到质变的过程。举例来说，这里有一张照片，照片里的人在骑马，这张照片每一分钟，每一秒都要拍一张，但随着处理速度越来越快，从1分钟一张到1秒钟1张，突然到1秒钟10张后，就产生了电影。当数量的增长实现质变时，就从照片变成了一部电影。

美国有一家创新企业Decide.com

它可以帮助人们做购买决策，告诉消费者什么时候买什么产品，什么时候买最便宜，预测产品的价格趋势，这家公司背后的驱动力就是大数据。他们在全球各大网站上搜集数以十亿计的数据，然后帮助数以十万计的用户省钱，为他们的采购找到最好的时间，降低交易成本，为终端的消费者带去更多价值。

在这类模式下，尽管一些零售商的利润会进一步受挤压，但从商业本质上来讲，可以把钱更多地放回到消费者的口袋里，让购物变得更理性，这是依靠大数据催生出的一项全新产业。这家为数以十万计的客户省钱的公司，在几个星期前，被eBay以高价收购。

再举一个例子，SWIFT是全球最大的支付平台，在该平台上的每一笔交易都可以进行大数据的分析,他们可以预测一个经济体的健康性和增长性。比如，该公司现在为全球性客户提供经济指数，这又是一个大数据服务。,定制化服务的关键是数据。《大数据时代》的作者维克托·迈尔·舍恩伯格认为，大量的数据能够让传统行业更好地了解客户需求，提供个性化的服务。

说明：用数据价值思维方式思考问题，解决问题。信息总量的变化导致了信息形态的变化，量变引发了质变，最先经历信息爆炸的学科，如天文学和基因学，创造出了“大数据”这个概念。如今，这个概念几乎应用到了所有人类致力于发展的领域中。从功能为价值转变为数据为价值，说明数据和大数据的价值在扩大，数据为“王”的时代出现了。数据被解释是信息，信息常识化是知识，所以说数据解释、数据分析能产生价值。

三、全样本原理

从抽样转变为需要全部数据样本

需要全部数据样本而不是抽样，你不知道的事情比你知道的事情更重要，但如果现在数据足够多，它会让人能够看得见、摸得着规律。数据这么大、这么多，所以人们觉得有足够的能力把握未来，对不确定状态的一种判断，从而做出自己的决定。这些东西我们听起来都是非常原始的，但是实际上背后的思维方式，和我们今天所讲的大数据是非常像的。

举例：在大数据时代，无论是商家还是信息的搜集者，会比我们自己更知道你可能会想干什么。现在的数据还没有被真正挖掘，如果真正挖掘的话，通过信用卡消费的记录，可以成功预测未来5年内的情况。统计学里头最基本的一个概念就是，全部样本才能找出规律。为什么能够找出行为规律？一个更深层的概念是人和人是一样的，如果是一个人特例出来，可能很有个性，但当人口样本数量足够大时，就会发现其实每个人都是一模一样的。

说明：用全数据样本思维方式思考问题，解决问题。从抽样中得到的结论总是有水分的，而全部样本中得到的结论水分就很少，大数据越大，真实性也就越大，因为大数据包含了全部的信息。

四、关注效率原理

由关注精确度转变为关注效率

关注效率而不是精确度，大数据标志着人类在寻求量化和认识世界的道路上前进了一大步，过去不可计量、存储、分析和共享的很多东西都被数据化了，拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门。大数据能提高生产效率和销售效率，原因是大数据能够让我们知道市场的需要，人的消费需要。大数据让企业的决策更科学，由关注精确度转变为关注效率的提高，大数据分析能提高企业的效率。

例如：在互联网大数据时代，企业产品迭代的速度在加快。三星、小米手机制造商半年就推出一代新智能手机。利用互联网、大数据提高企业效率的趋势下，快速就是效率、预测就是效率、预见就是效率、变革就是效率、创新就是效率、应用就是效率。

竞争是企业的动力，而效率是企业的生命，效率低与效率高是衡量企来成败的关键。一般来讲，投入与产出比是效率，追求高效率也就是追求高价值。手工、机器、自动机器、智能机器之间效率是不同的，智能机器效率更高，已能代替人的思维劳动。智能机器核心是大数据制动，而大数据制动的速度更快。在快速变化的市场，快速预测、快速决策、快速创新、快速定制、快速生产、快速上市成为企业行动的准则，也就是说，速度就是价值，效率就是价值，而这一切离不开大数据思维。

说明：用关注效率思维方式思考问题，解决问题。大数据思维有点像混沌思维，确定与不确定交织在一起，过去那种一元思维结果，已被二元思维结果取代。过去寻求精确度，现在寻求高效率；过去寻求因果性，现在寻求相关性；过去寻找确定性，现在寻找概率性，对不精确的数据结果已能容忍。只要大数据分析指出可能性，就会有相应的结果，从而为企业快速决策、快速动作、创占先机提高了效率。

五、关注相关性原理

由因果关系转变为关注相关性

关注相关性而不是因果关系，社会需要放弃它对因果关系的渴求，而仅需关注相关关系，也就是说只需要知道是什么，而不需要知道为什么。这就推翻了自古以来的惯例，而我们做决定和理解现实的最基本方式也将受到挑战。

例如：大数据思维一个最突出的特点，就是从传统的因果思维转向相关思维，传统的因果思维是说我一定要找到一个原因，推出一个结果来。而大数据没有必要找到原因，不需要科学的手段来证明这个事件和那个事件之间有一个必然，先后关联发生的一个因果规律。它只需要知道，出现这种迹象的时候，我就按照一般的情况，这个数据统计的高概率显示它会有相应的结果，那么我只要发现这种迹象的时候，我就可以去做一个决策，我该怎么做。这是和以前的思维方式很不一样，老实说，它是一种有点反科学的思维，科学要求实证，要求找到准确的因果关系。

在这个不确定的时代里面，等我们去找到准确的因果关系，再去办事的时候，这个事情早已经不值得办了。所以“大数据”时代的思维有点像回归了工业社会的这种机械思维——机械思维就是说我按那个按钮，一定会出现相应的结果，是这样状态。而农业社会往前推，不需要找到中间非常紧密的、明确的因果关系，而只需要找到相关关系，只需要找到迹象就可以了。社会因此放弃了寻找因果关系的传统偏好，开始挖掘相关关系的好处。

例如：美国人开发一款“个性化分析报告自动可视化程序”软件从网上挖掘数据信息，这款数据挖掘软件将自动从各种数据中提取重要信息，然后进行分析，并把此信息与以前的数据关联起来，分析出有用的信息。

非法在屋内打隔断的建筑物着火的可能性比其他建筑物高很多。纽约市每年接到2.5万宗有关房屋住得过于拥挤的投诉，但市里只有200名处理投诉的巡视员，市长办公室一个分析专家小组觉得大数据可以帮助解决这一需求与资源的落差。该小组建立了一个市内全部90万座建筑物的数据库，并在其中加入市里19个部门所收集到的数据：欠税扣押记录、水电使用异常、缴费拖欠、服务切断、救护车使用、当地犯罪率、鼠患投诉，诸如此类。

接下来，他们将这一数据库与过去5年中按严重程度排列的建筑物着火记录进行比较，希望找出相关性。果然，建筑物类型和建造年份是与火灾相关的因素。不过，一个没怎么预料到的结果是，获得外砖墙施工许可的建筑物与较低的严重火灾发生率之间存在相关性。利用所有这些数据，该小组建立了一个可以帮助他们确定哪些住房拥挤投诉需要紧急处理的系统。他们所记录的建筑物的各种特征数据都不是导致火灾的原因，但这些数据与火灾隐患的增加或降低存在相关性。这种知识被证明是极具价值的：过去房屋巡视员出现场时签发房屋腾空令的比例只有13%，在采用新办法之后，这个比例上升到了70%——效率大大提高了。

全世界的商界人士都在高呼大数据时代来临的优势：一家超市如何从一个17岁女孩的购物清单中，发现了她已怀孕的事实；或者将啤酒与尿不湿放在一起销售，神奇地提高了双方的销售额。大数据透露出来的信息有时确实会起颠覆。比如，腾讯一项针对社交网络的统计显示，爱看家庭剧的男人是女性的两倍还多；最关心金价的是中国大妈，但紧随其后的却是90后。而在过去一年，支付宝中无线支付比例排名前十的竟然全部在青海、西藏和内蒙古地区。

说明：用关注相关性思维方式来思考问题，解决问题。寻找原因是一种现代社会的一神论，大数据推翻了这个论断。过去寻找原因的信念正在被“更好”的相关性所取代。当世界由探求因果关系变成挖掘相关关系，我们怎样才能既不损坏建立在因果推理基础之上的社会繁荣和人类进步的基石，又取得实际的进步呢？这是值得思考的问题。

解释：转向相关性，不是不要因果关系，因果关系还是基础，科学的基石还是要的。只是在高速信息化的时代，为了得到即时信息，实时预测，在快速的大数据分析技术下，寻找到相关性信息，就可预测用户的行为，为企业快速决策提供提前量。

比如预警技术，只有提前几十秒察觉，防御系统才能起作用。比如，雷达显示有个提前量，如果没有这个预知的提前量，雷达的作用也就没有了，相关性也是这个原理。比如，相对论与量子论的争论也能说明问题，一个说上帝不掷骰子，一个说上帝掷骰子，争论几十年，最后承认两个都存在，而且量子论取得更大的发展——一个适用于宇宙尺度，一个适用于原子尺度。

六、预测原理

从不能预测转变为可以预测

大数据的核心就是预测，大数据能够预测体现在很多方面。大数据不是要教机器像人一样思考，相反，它是把数学算法运用到海量的数据上来预测事情发生的可能性。正因为在大数据规律面前，每个人的行为都跟别人一样，没有本质变化，所以商家会比消费者更了消费者的行为。

例如：大数据助微软准确预测世界怀。微软大数据团队在2014年巴西世界足球赛前设计了世界怀模型，该预测模型正确预测了赛事最后几轮每场比赛的结果，包括预测德国队将最终获胜。预测成功归功于微软在世界怀进行过程中获取的大量数据，到淘汰赛阶段，数据如滚雪球般增多，常握了有关球员和球队的足够信息，以适当校准模型并调整对接下来比赛的预测。

世界杯预测模型的方法与设计其它事件的模型相同，诀窍就是在预测中去除主观性，让数据说话。预测性数学模型几乎不算新事物，但它们正变得越来越准确。在这个时代，数据分析能力终于开始赶上数据收集能力，分析师不仅有比以往更多的信息可用于构建模型，也拥有在很短时间内通过计算机将信息转化为相关数据的技术。

几年前，得等每场比赛结束以后才能获取所有数据，现在，数据是自动实时发送的，这让预测模型能获得更好的调整且更准确。微软世界怀模型的成绩说明了其模型的实力，它的成功为大数据的力量提供了强有力的证明，利用同样的方法还可预测选举或关注股票。类似的大数据分析正用于商业、政府、经济学和社会科学，它们都关于原始数据进行分析。

我们进入了一个用数据进行预测的时代，虽然我们可能无法解释其背后的原因。如果一个医生只要求病人遵从医嘱，却没法说明医学干预的合理性的话，情况会怎么样呢？实际上，这是依靠大数据取得病理分析的医生们一定会做的事情。

从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性，都是大数据可以预测的范围。当然，如果一个人能及时穿过马路，那么他乱穿马路时，车子就只需要稍稍减速就好。但是这些预测系统之所以能够成功，关键在于它们是建立在海量数据的基础之上的。

此外，随着系统接收到的数据越来越多，通过记录找到的最好的预测与模式，可以对系统进行改进。它通常被视为人工智能的一部分，或者更确切地说，被视为一种机器学习。真正的革命并不在于分析数据的机器，而在于数据本身和我们如何运用数据。一旦把统计学和现在大规模的数据融合在一起，将会颠覆很多我们原来的思维。所以现在能够变成数据的东西越来越多，计算和处理数据的能力越来越强，所以大家突然发现这个东西很有意思。所以，大数据能干啥？能干很多很有意思的事情。

例如，预测当年葡萄酒的品质

很多品酒师品的不是葡萄酒，那时候葡萄酒还没有真正的做成，他们品的是发烂的葡萄。因此在那个时间点就预测当年葡萄酒的品质是比较冒险的。而且人的心理的因素是会影响他做的这个预测，比如说地位越高的品酒师，在做预测时会越保守，因为他一旦预测错了，要损失的名誉代价是很大的。所以的品酒大师一般都不敢贸然说今年的酒特别好，或者是特别差；而刚出道的品酒师往往会“语不惊人死不休的”。

普林斯顿大学有一个英语学教授，他也很喜欢喝酒，喜欢储藏葡萄酒，所以他就想是否可以分析到底哪年酒的品质好。然后他就找了很多数据，比如说降雨量、平均气温、土壤成分等等，然后他做回归，最后他说把参数都找出来，做了个网站，告诉大家今年葡萄酒的品质好坏以及秘诀是什么。

当他的研究公布的时候，引起了业界的轩然大波，因为他做预测做的很提前，因为今年的葡萄收获后要经过一段的时间发酵，酒的味道才会好，但这个教授突然预测说今年的酒是世纪最好的酒。大家说怎么敢这么说，太疯狂了。更疯狂的是到了第二年，他预测今年的酒比去年的酒更好，连续两次预测说是百年最好的酒，但他真的预测对了。现在品酒师在做评判之前，要先到他的网站上看看他的预测，然后再做出自己的判断。有很多的规律我们不知道，但是它潜伏在这些大数据里头。

例如，大数据描绘“伤害图谱”

广州市伤害监测信息系统通过广州市红十字会医院、番禺区中心医院、越秀区儿童医院3个伤害监测哨点医院，持续收集市内发生的伤害信息，分析伤害发生的原因及危险因素，系统共收集伤害患者14681例，接近九成半都是意外事故。整体上，伤害多发生于男性，占61.76%，5岁以下儿童伤害比例高达14.36%，家长和社会应高度重视，45.19%的伤害都是发生在家中，其次才是公路和街道。

收集到监测数据后，关键是通过分析处理，把数据“深加工”以利用。比如，监测数据显示，老人跌倒多数不是发生在雨天屋外，而是发生在家里，尤其是旱上刚起床时和浴室里，这就提示，防控老人跌倒的对策应该着重在家居，起床要注意不要动作过猛，浴室要防滑，加扶手等等。

说明：用大数据预测思维方式来思考问题，解决问题。数据预测、数据记录预测、数据统计预测、数据模型预测，数据分析预测、数据模式预测、数据深层次信息预测等等，已转变为大数据预测、大数据记录预测、大数据统计预测、大数据模型预测，大数据分析预测、大数据模式预测、大数据深层次信息预测。

互联网、移动互联网和云计算机保证了大数据实时预测的可能性，也为企业和用户提供了实时预测的信息，相关性预测的信息，让企业和用户抢占先机。由于大数据的全样本性，人和人都是一样的，所以云计算机软件预测的效率和准确性大大提高，有这种迹象，就有这种结果。

七、信息找人原理

从人找信息，转变为信息找人

互联网和大数据的发展，是一个从人找信息，到信息找人的过程。先是人找信息，人找人，信息找信息，现在是信息找人的这样一个时代。信息找人的时代，就是说一方面我们回到了一种最初的，广播模式是信息找人，我们听收音机，我们看电视，它是信息推给我们的，但是有一个缺陷，不知道我们是谁，后来互联网反其道而行，提供搜索引擎技术,让我知道如何找到我所需要的信息，所以搜索引擎是一个很关键的技术。

例如：从搜索引擎——向推荐引擎转变。今天，后搜索引擎时代已经正式来到，什么叫做后搜索引擎时代呢？使用搜索引擎的频率会大大降低，使用的时长也会大大的缩短，为什么使用搜索引擎的频率在下降？时长在下降?原因是推荐引擎的诞生。就是说从人找信息到信息找人越来越成为了一个趋势，推荐引擎就是说它很懂我，知道我要知道，所以是最好的技术。乔布斯说，让人感受不到技术的技术是最好的技术。

大数据还改变了信息优势。按照循证医学，现在治病的第一件事情不是去研究病理学，而是拿过去的数据去研究，相同情况下是如何治疗的。这导致专家和普通人之间的信息优势没有了。原来我相信医生，因为医生知道的多，但现在我可以到谷歌上查一下，知道自己得了什么病。

谷歌有一个机器翻译的团队，最开始的时候翻译之后的文字根本看不懂，但是现在60%的内容都能读得懂。谷歌机器翻译团队里头有一个笑话，说从团队每离开一个语言学家，翻译质量就会提高。越是专家越搞不明白，但打破常规让数据说话，得到真理的速度反而更快。

说明：用信息找人的思维方式思考问题，解决问题。从人找信息到信息找人，是交互时代一个转变，也是智能时代的要求。智能机器已不是冷冰冰的机器，而是具有一定智能的机器。信息找人这四个字，预示着大数据时代可以让信息找人，原因是企业懂用户，机器懂用户，你需要什么信息，企业和机器提前知道，而且主动提供你需要的信息。

八、机器懂人原理

由人懂机器转变为机器更懂人

不是让人更懂机器，而是让机器更懂人，或者说是能够在使用者很笨的情况下，仍然可以使用机器。甚至不是让人懂环境，而是让我们的环境来懂我们，环境来适应人，某种程度上自然环境不能这样讲，但是在数字化环境中已经是这样的一个趋势，就是我们所在的生活世界，越来越趋向于它更适应于我们，更懂我们。哪个企业能够真正做到让机器更懂人，让环境更懂人，让我们随身携带的整个的生活世界更懂得我们的话，那他一定是具有竞争力的了，而“大数据”技术能够助我们一臂之力。

例如：亚马逊网站，只要买书，就会提供一个今天司空见惯的推荐，买了这本书的人还买了什么书，后来发现相关推荐的书比我想买的书还要好，时间久之后就会对它产生一种信任。这种信任就像在北京的那么多书店里面，以前买书的时候就在几家，原因在于我买书比较多，他都已经认识我了，都是我一去之后，我不说我要买什么书，他会推荐最近上来的几本书，可能是我感兴趣的。这样我就不会到别的很近的书店，因为这家书店更懂我。

例如，解题机器人挑战大型预科学校高考模拟试题的结果，解题机器人的学历水平应该比肩普通高三学生。计算机不擅长对语言和知识进行综合解析，但通过借助大规模数据库对普通文章做出判断的方法，在对话填空和语句重排等题型上成绩有所提高。

让机器懂人，是让机器具有学习的功能。人工智能已转变为研究机器学习。大数据分析要求机器更智能，具有分析能力，机器即时学习变得更重要。机器学习是指：计算机利用经验改善自身性能的行为。机器学习主要研究如何使用计算机模拟和实现人类获取知识（学习）过程、创新、重构已有的知识，从而提升自身处理问题的能力，机器学习的最终目的是从数据中获取知识。

大数据技术的其中一个核心目标是要从体量巨大、结构繁多的数据中挖掘出隐蔽在背后的规律，从而使数据发挥最大化的价值。由计算机代替人去挖掘信息，获取知识。从各种各样的数据（包括结构化、半结构化和非结构化数据）中快速获取有价值信息的能力，就是大数据技术。大数据机器分析中，半监督学习、集成学习、概率模型等技术尤为重要。

说明：用机器更懂人的思维方式思考问题，解决问题。机器从没有常识到逐步有点常识，这是很大的变化。去年，美国人把一台云计算机送到大学里去进修，增加知识和常识。最近俄罗斯人开发一台计算机软件通过图林测试，表明计算机已初步具有智能。

让机器懂人，这是人工智能的成功，同时，也是人的大数据思维转变。你的机器、你的软件、你的服务是否更懂人？将是衡量一个机器、一件软件、一项服务好坏的标准。人机关系已发生很大变化，由人机分离，转化为人机沟通，人机互补，机器懂人，现在年青人已离不开智能手机是一个很好的例证。在互联网大数据时代，有问题—问机器—问百度，成为生活的一部分。机器什么都知道，原因是有大数据库，机器可搜索到相关数据，从而使机器懂人。是人让机器更懂人，如果机器更懂人，那么机器的价值更高。

九、电子商务智能原理

大数据改变了电子商务模式，让电子商务更智能

商务智能，在今天大数据时代它获得的重新的定义。

例如：传统企业进入互联网，在掌握了“大数据”技术应用途径之后，会发现有一种豁然开朗的感觉，我整天就像在黑屋子里面找东西，找不着，突然碰到了一个开关，发现那么费力的找东西，原来很容易找得到。大数据思维，事实上它不是一个全称的判断，只是对我们所处的时代某一个纬度的描述。

大数据时代不是说我们这个时代除了大数据什么都没有，哪怕是在互联网和IT领域，它也不是一切，只是说在我们的时代特征里面加上这么一道很明显的光，从而导致我们对以前的生存状态，以及我们个人的生活状态的一个差异化的一种表达。

例如：大数据让软件更智能。尽管我们仍处于大数据时代来临的前夕，但我们的日常生活已经离不开它了。交友网站根据个人的性格与之前成功配对的情侣之间的关联来进行新的配对。例如，具有“自动改正”功能的智能手机通过分析我们以前的输入，将个性化的新单词添加到手机词典里。在不久的将来，世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友，还有更多更复杂的任务。别忘了，亚马逊可以帮我们推荐想要的书，谷歌可以为关联网站排序，Facebook知道我们的喜好，而linkedIn可以猜出我们认识谁。

当然，同样的技术也可以运用到疾病诊断、推荐治疗措施，甚至是识别潜在犯罪分子上。或者说，在你还不知道的情况下，体检公司、医院提醒你赶紧去做检查，可能会得某些病，商家比你更了解你自己，以及你这样的人在某种情况下会出现的可能变化。就像互联网通过给计算机添加通信功能而改变了世界，大数据也将改变我们生活中最重要的方面，因为它为我们的生活创造了前所未有的可量化的维度。

说明：用电子商务更智能的思维方式思考问题，解决问题。人脑思维与机器思维有很大差别，但机器思维在速度上是取胜的，而且智能软件在很多领域已能代替人脑思维的操作工作。例如美国一家媒体公司已用电脑智能软件写稿，可用率已达70%。云计算机已能处理超字节的大数据量，人们需要的所有信息都可得到显现，而且每个人互联网行为都可记录，这些记录的大数据经过云计算处理能产生深层次信息，经过大数据软件挖掘，企业需要的商务信息都能实时提供，为企业决策和营销、定制产品等提供了大数据支持。

十、定制产品原理

由企业生产产品转变为由客户定制产品。

下一波的改革是大规模定制，为大量客户定制产品和服务，成本低、又兼具个性化。比如消费者希望他买的车有红色、绿色，厂商有能力满足要求，但价格又不至于像手工制作那般让人无法承担。因此，在厂家可以负担得起大规模定制带去的高成本的前提下，要真正做到个性化产品和服务，就必须对客户需求有很好的了解，这背后就需要依靠大数据技术。

例如：大数据改变了企业的竞争力。定制产品这是一个很好的技术，但是能不能够形成企业的竞争力呢？在产业经济学里面有一个很重要的区别，就是生产力和竞争力的区别，就是说一个东西是具有生产力的，那这种生产力变成一种通用生产力的时候，就不能形成竞争力，因为每一个人，每一个企业都有这个生产力的时候，只能提高自己的生产力，过去没有车的时候和有车的时候，你的活动半径、运行速度大大提高了，但是当每一个人都没有车的时候，你有车，就会形成竞争力。大数据也一样，你有大数据定制产品，别人没有，就会形成竞争力。

在互联网大数据的时代，商家最后很可能可以针对每一个顾客进行精准的价格歧视。我们现在很多的行为都是比较粗放的，航空公司会给我们里程卡，根据飞行公里数来累计里程，但其实不同顾客所飞行的不同里程对航空公司的利润贡献是不一样的。所以有一天某位顾客可能会收到一封信，“恭喜先生，您已经被我们选为幸运顾客，我们提前把您升级到白金卡。”这说明这个顾客对航空公司的贡献已经够多了。有一天银行说“恭喜您，您的额度又被提高了，”就说明钱花得已经太多了。

正因为在大数据规律面前，每个人的行为都跟别人一样，没有本质变化。所以商家会比消费者更了消费者的行为。也许你正在想，工作了一年很辛苦，要不要去哪里度假？打开e-Mail，就有航空公司、旅行社的邮件。

说明：用定制产品思维方式思考问题，解决问题。大数据时代让企业找到了定制产品、订单生产、用户销售的新路子。用户在家购买商品已成为趋势，快递的快速，让用户体验到实时购物的快感，进而成为网购迷，个人消费不是减少了，反而是增加了。为什么企业要互联网化大数据化，也许有这个原因。2000万家互联网网店的出现，说明数据广告、数据传媒的重要性。

企业产品直接销售给用户，省去了中间商流通环节，使产品的价格可以以出厂价销售，让销费者获得了好处，网上产品便宜成为用户的信念，网购市场形成了。要让用户成为你的产品粉丝，就必须了解用户需要，定制产品成为用户的心愿，也就成为企业发展的新方向。

大数据思维是客观存在，大数据思维是新的思维观。用大数据思维方式思考问题，解决问题是当下企业潮流。大数据思维开启了一次重大的时代转型。

数据挖掘的知识类型

DinK — Sat, 24 Jan 2015 05:01:06 +0000

一、概念/类描述

概念/类描述就是通过对某类对象关联数据的汇总，分析和比较，用汇总的简洁的精确的方式对此类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为：特征性描述和区别性描述。

特征性描述：是指从与某类对象相关的一组数据中提取出关于这些对象的共同特征。生成一个类的特征性描述只涉及该类对象中所有对象的同性。。

区别性描述：描述两个或者更多不同类对象之间的差异。生成区别性描述则涉及目标类和对比类中对象的共性。

数据特征的输出可以用多种形式提供：包括饼图，条图，曲线，多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则（称作特征性规则）形式提供

例如：利用面向属性的归纳方法（AOI），在一个商场数据库（2000销售）中进行属性归纳操作，获得了如下的归纳结果：

表2-1 AOI方法挖掘结果表格表示示意描述

区别性描述是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较，这种比较必须是在具备可比性的两个或多个类之间进行。

例如，对某校讲师和副教授的特征进行比较，可能会得到这样一条规则： “讲师：（78%）（paper<3）and (teaching course<2)”，而 “副教授：（66%）（paper>=3）and (teaching course>=2)”；该对比规则表示该校讲师中约有四分至三的人发表论文少于三篇且主讲课程不超过一门；而对比之下该校副教授中约有三分至二的人发表论文不少于三篇且主讲课程不少于一门。

二、关联模式

关联模式挖掘旨在从大量的数据当中发现特征之间或者数据之间的相互依赖关系。这种存在于给定数据集中的频繁出现的关联模式，又称为关联规则。关联可以分为简单关联，时序关联，因果关联等。这些关联并不总是事先知道，而是通过数据库中数据的关联分析获得的，其对商业决策具有重要的价值，因而关联分析广泛用于市场营销，事物分析等领域。

挖掘关联知识的一个典型应用实例就是市场购物分析。根据被放到一个购物袋的（购物）内容记录数据而发现的不同（被购买）商品之间所存在的关联知识无疑将会帮助商家分析顾客的购买习惯。发现常在一起被购买的商品（关联知识）将帮助商家指定有针对性的市场策略。

比如：顾客在购买牛奶时，是否也可能同时购买面包或会购买哪个牌子的面包，显然能够回答这些问题的有关信息肯定回有效地帮助商家进行有针对性的促销，以及进行合适的货架商品摆放。如可以将牛奶和面包放在相近的地方或许会促进这两个商品的销售。

根据关联规则所涉及变量的多少，可以分为多维关联规则和单维关联规则，通常，关联规则具有：X=>Y的形式，即：A1^…^Am=>B1^…^Bn的规则，其中, Ai (i属于{1,…,m}), Bj (j属于{1,…,n})是属性-值对。关联规则X => Y解释为“满足X中条件的数据库元组多半也满足Y中条件”。

例如：一个数据挖掘系统可以从一个商场的销售(交易事务处理)记录数据中，挖掘出如下所示的关联规则： age(X,”20-29”)∧income(X,”20K-30K”) Þbuys(X，”mp3”)[support=2%,confidence=60%]上述关联规则表示：该商场有的顾客年龄在20岁到29岁且收入在2 万到3万之间，这群顾客中有60%的人购买了MP3，或者说这群顾客购买MP3的概率为六成。这一规则涉及到年龄、收入和购买三个变量(即三维)，可称为多维关联规则。

对于一个商场经理，或许更想知道哪些商品是常被一起购买，描述这种情况的一条关联规则可能是：Contains(X,”computer”) =>contain(X,”software”) [support=1%,confidence=60%]上述关联规则表示：该商场1%销售交易事物记录中包含“computer”和 “software”两个商品；而对于一条包含（购买）“computer”商品的交易事物记录有60%可能也包含（购买）”software”商品。这条记录中由于只涉及到购买事物这一个变量，所以称为单维关联规则。

三、分类

分类是数据挖掘中一项非常重要的任务，利用分类可以从数据集中提取描述数据类的一个函数或模型（也常称为分类器），并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点，分类技术是一种有指导（我们通常称之为有监督）的学习，即每个训练样本的数据对象已经有类的标识，通过学习可以形成表达数据对象与类标识间对应的知识。从这个意义上说，数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类，进而也可以预测未来数据的分类。（十一城注：这里的分类和日常生活中的分类含义有些不一样，它是将数据映射到预先定好的群组或者类中。所以很明显，它是有监督/指导的，即它预先定好了东西来引导别人分类。）

分类挖掘所获的分类模型可以采用多种形式加以描述输出，其中主要的表示方法有：分类规则（IF-THEN），决策树（decision tree），数学公式（mathematical formulae）和神经网络。

决策树是一个类似于流程图的结构，每个节点代表一个属性上的值，每个分枝代表测试的一个输出，树叶代表类或者类分布。决策树容易转换成分类规则。

神经网络用于分类的时候，是一组类似于神经元的处理单元，单元之间加权连接。

另外，最近有兴起了一种新的方法—粗糙集（rough set）其知识表示是生产式规则。

分类通常用来预测对象的类标号。例如，银行信贷部门可以根据一个顾客信用信息数据库，将功课的信用等级记录为一般或良好，然后根据挖掘得出信用良好的顾客信息特征，应用这些特征描述，可以有效发现优质客户。这一分类过程主要含有两个步骤：

（1）建立一个已知数据集类别或概念的模型。

（2）对学习所获模型的准确率进行测试。如下图所示

四、聚类分析

与分类技术不同，在机器学习中，聚类是一种无指导学习。也就是说，聚类分析是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息集聚的一种方法。聚类的目的是使得属于同一类别的个体之间的差别尽可能的小，而不同类别上的个体见的差别尽可能的大。因此，聚类的意义就在于将观察到的内容组织成类分层结构，把类似的事物组织在一起。通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的有趣的关系。（十一城注：聚类和分类的区别在于聚类是无监督学习，分类是有监督学习。聚类其实也可以理解为是一种分类，只是它这种分类）

数据聚类分析是一个正在蓬勃发展的领域。聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有代表性的聚类技术是基于几何距离的聚类方法，如欧氏距离、曼哈坦（Manhattan）距离、明考斯基（Minkowski）距离等。

聚类分析广泛应用于商业、生物、地理、网络服务等多种领域。例如，聚类可以帮助市场分析人员从客户基本库中发现不同的客户群，并能用不同的购买模式来刻画不同的客户群的特征，如图2-6显示了一个城市内顾客位置的二维图，数据点的三个簇是显而易见的。聚类还可以从地球观测数据库中帮助识别具有相似土地使用情况的区域；以及可以帮助分类识别互联网上的文档以便进行信息发现等等。

五、预测

预测型知识（Prediction）是指由历史的和当前的数据产生的并能推测未来数据趋势的知识。这类知识可以被认为是以时间为关键属性的关联知识，因此上面介绍的关联知识挖掘方法可以应用到以时间为关键属性的源数据挖掘中。

前面介绍分类知识挖掘时曾经提到过：分类通常用来预测对象的类标号。然而，在某些应用中，人们可能希望预测某些遗漏的或不知道的数据值，而不是类标号。当被预测的值是数值数据时，通常称之为预测。

也就是说，预测用于预测数据对象的连续取值，如：可以构造一个分类模型来对银行贷款进行风险评估（安全或危险）；也可建立一个预测模型以利用顾客收入与职业（参数）预测其可能用于购买计算机设备的支出大小

预测型知识的挖掘可以利用统计学中的回归方法，通过历史数据直接产生连续的对未来数据的预测值；可以借助于经典的统计方法、神经网络和机器学习等技术。无论如何，经典的统计学方法是挖掘预测知识的基础。

六、时间序列

具有一个或多个时间属性的预测应用称为时间序列问题。时间序列是数据存在的特殊形式，序列的过去值会影响到将来值，这种影响的大小以及影响的方式可由时间序列中的趋势周期及非平稳等行为来刻画。

例如：系统调用日志记录了操作系统及其系统进程调用的时间序列，通过对正常调用序列的学习可以预测随后发生的系统调用序列、发现异常的调用。表2-4给出了一个系统调用数据表。这样的数据源可以通过适当的数据整理使之成为调用序列，如表2-5，再通相应的挖掘算法达到跟踪和分析操作系统审计数据的目的。

七、偏差检测

偏差检测（deviation detection）就是对数据集中的偏差数据进行检测与分析。
在要处理的大量数据中，常常存在一些异常数据，它们与其它的数据的一般行为或模型不一致。这里数据记录就是偏差（deviation），也就是孤立点。
偏差包括很多潜在的知识，如不满足常规类的异常例子、分类中出现的反常实例、在不同时刻发生了显著变化的某个对象或集合、观察值与模型推测出的期望值之间有显著差异的事例等。
偏差的产生可能是某种数据错误造成的，也可能是数据变异所固有的结果。从数据集中检测出这些偏差很有意义，例如在欺诈探测中，偏差可能预示着欺诈行为。

via：十一城

LinkedIn：2014年最吃香工作技能-统计分析和数据挖掘位列第一

DinK — Thu, 18 Dec 2014 16:02:52 +0000

LinkedIn对全球超过3.3亿用户的工作经历和技能进行分析，公布2014年最受雇主喜欢、最炙手可热的25项技能。其中位列榜首的是统计分析和数据挖掘。这项技能在去年只排名第五，而当时的最热技能是社交媒体营销。

25岁的Quint Gribbin是Red Owl Analytics的数据科学家。图片来自《华盛顿邮报》

数据分析越来越受重视，企业开始倾向聘请在数据存储、检索和分析方面有所长的人才。对拥有这项技能的人来说，现在的形势可谓是一片大好。

据Glassdoor网站报告，现在数据科学家的平均年薪是118709美元，比程序员的64537美元还要多。而数据人才还将越来越抢手。一份麦肯锡研究预测，到2018年，美国将面临数据挖掘和分析人才短缺，将有14万到19万个工作岗位等着“有深入分析能力的人才”，同时还急需150万“懂得运用大数据分析结果作出有效决策的管理人员”。

除了数据的大趋势，在全球范围来看，技术人才还是很吃香的。在这25项技能榜单中，技术类技能占了极大部分。

而另一个不可忽视的趋势，是技术营销的崛起。在2012年，美国咨询公司高德纳的分析员Laura McLellan预测，到2017年，企业的市场营销部门在技术上的开支将比技术部门要多得多。今年搜索引擎优化营销和数字网络营销双双上榜，这样的预测估计在不久的将来就会实现。

完整的榜单如下：

LinkedIn：2014年最炙手可热的25项工作技能

【1】统计分析和数据挖掘

【2】中间件和集成软件

【3】存储系统及管理

【4】网络和信息安全

【5】搜索引擎优化营销（SEO/SEM）

【6】商业智能

【7】移动应用开发

【8】网站建设和框架开发

【9】算法设计

【10】程序设计语言Perl/Python/Ruby

【11】数据工程和数据仓库技术

【12】营销活动管理

【13】Mac、Linux和Unix系统语言

【14】用户界面设计

【15】招聘

【16】数字与网络营销

【17】计算机制图和动画

【18】经济学

【19】Java开发

【20】渠道营销

【21】SAP、ERP系统

【22】集成电路设计

【23】shell脚本语言

【24】游戏开发

【25】虚拟化技术

LinkedIn还分别对澳大利亚、加拿大、印度、英国、美国等共10个国家的工作技能进行分析排行，不过很可惜并没有中国的结果。

其它各国排行榜：

文来自：界面

营销应用数据挖掘哪里强！

DinK — Mon, 17 Nov 2014 15:45:22 +0000

数据挖掘背景
当下的时代是互联网的时代，互联网的深入的应用已经覆盖了各行各业，老老少少。任何人，无论是什么职业，有什么业务模式，产品也好，服务也罢，如果想要有效地开拓市场、引起关注、唤醒客户，都不能离开互联网这个平台而独善。一句话，如果忽视了互联网的影响，任何业务，任何行业都难有大的发展，甚至可能生存不下去。这话听上去很绝对很残酷，但是基本上是事实。作为数据挖掘营销应用的专业人士来说，如果对互联网的营销应用挖掘业务不熟悉的话，那就不只是“遗憾”了，很有可能成为严重影响你专业能力的“短板”，因为你没有活在“当下”(你最多活在“互联网”之前的时代，那个时代跟石器时代一样都是很“遥远”的历史了)。一句话，如果在你的专业领域里没有“互联网的应用”的认识的话，你算不上是你本专业的现代人。

既然形势如此残酷，那么主动也好，被动也罢，各位在各自的专业领域，都应该尝试、熟悉各自专业在互联网里的实践应用。作家，可以考虑在网络上发表作品;歌手，已经有人在网络上贩卖自己的音乐;快餐业里有大量的企业在开拓网络定餐业务;票务公司也在大力开拓网络销售渠道。作为数据挖掘营销应用专业人士，也应该“识时务，挖网络”，于是有了本文，对目前比较成熟的网络用户行为挖掘的营销应用小小总结。我对web挖掘的思考和总结基本上是从旁观者的角度来学习和参考的;在以后的岁月里，随着我的web挖掘项目实践的逐渐投入，相信对于这个领域的思考和总结会更加生动，更加真实，也更加有价值。有鉴于此，此时此刻更加有必要将目前纸上谈兵的一些想法和感悟敲成文字存入本博客，留待一年后自己真正从web挖掘项目中获得新感悟时加以对照，让实践来证明本期纸上谈兵的“web挖掘营销应用小结”到底是没有价值的纸上谈兵，还是真正的“正确的理论可以成功地指导实践”?呵呵，人生无处不矛盾，人生无处不辨证!!!看破矛盾，人生就洒脱了;学会辨证，人生就进步了!!!

网络挖掘三步骤

一般包括三大块内容(Web内容挖掘，Web结构挖掘, 以及跟营销应用直接相关的同时也应用最广泛的Web用法挖掘)，本文只谈这个跟营销应用最直接最紧密的Web用法挖掘。下面以B2C网站为例，具体说明从营销应用的角度目前都有那些比较成熟的思路和系列方法、模型。

首先，从网站商业运营管理的一些特征指标来分析。各行各业都有适合本行业特性要求的特征指标(KPI)，通过这些KPI的分析、跟踪，就可以从宏观上迅速的比较准确的判断出企业的运营的效率。B2C网站与传统的零售行业有一些相似的地方(都是零售，都是针对消费者产生利润)，但是B2C网站区别与传统的零售行业的个性化指标是这个行业的基本特征，必须充分关注，重点分析。这些重点指标、特征包括：流量注册比、购物车比例、订单转化率、page views, 订单平均浏览时间、客单价、重复购买率，等等。

接下来，从网站月度、季度、年度的综合的汇总数据比较，从宏观的角度分析网站运营连续时间段里的运营效益、客户变化、赢利趋势、产品趋势、消费变化等等(产品的、利润的、客户的各个纬度展开分析)。这种宏观的统计汇总分析比较简单，但是很有效果，能迅速发现B2C企业最近几年的发展趋势，出现的问题，甚至可以锁定核心价值客户的群体规模和门槛指标，比如2080原理在本企业的具体定义，比如客户注册之后具体的促销刺激产生消费的时间段的明确界定，甚至客户流失的大致规律和时间期，进出网站的路径分析，等等。

第三步，在上述两步简单分析的基础上，针对更加深入的营销问题和客户关系管理的问题，可以考虑从数据挖掘应用的角度开展分析应用。目前这类数据挖掘应用中最常见的方法是聚类分析、关联分析、以及在此基础上的各种深入的预测模型应用(比如逻辑回归，比如决策树应用等等)。

企业具体的营销应用

1. 消费者群体划分，对网站用户按照不同的营销要求进行多纬度的指标划分，找出核心消费群体的消费特点(尤其是网络行为特点)，并据此采取有针对性的营销措施和服务措施加以满足;这种聚类分析稍加深入就可用做网友关联、兴趣关联、阅读推荐、商品推荐，等等。

2. 某一类消费群体的消费特点分析，找出关联性强的利润贡献高的商品组合，并据此制定有针对性的促削措施、营销推广、产品策略、价格捆绑策略，等等，类似于零售业里面的菜篮子分析;

3. 赢利性强的消费群体的消费特征分析，流失分析，流失特征分析，生命周期分析、交叉销售分析，等等，根据这些分析挖掘出的线索制定相应的营销措施、客户关怀(挽留)、潜力挖掘;

上面例举的是一些最常见的web挖掘的营销用途，实际应用中根据具体企业的实际业务模式和实际数据资源，可以展开千变万化的拓展应用，实在无法一一罗列完。

数据挖掘运用

换一个说法，从互联网行业的热门术语来说，“产品推荐引擎”和“用户导向”这两个热门应用是提升网站核心价值的重要途径，其实都是可以通过上述数据挖掘应用技术来圆满回答的，其他应用包括网站路径设计与优化(主要是采用link analysis技术)，收费产品分类营销，等等凡是网站营销运营管理中出现的很多重大问题和领域，都是可以借助数据挖掘技术有效解决的。至于上面每种挖掘算法在实际应用中的具体注意事项和成熟的套路，现在也已经有了一些明确的模式和捷径，比如说在聚类分析挖掘中，目前最成熟的商业应用基本上就是基于网络用户的浏览中产生的frequency数据指标来进行分析(比如消费的金额、利润、阶段时间里的浏览次数等等);又比如在很多大型网站里动辄就是几百上千甚至更多的网页，利用归类的方法可以有效压缩页面种类，使得到的挖掘结果能更有效的推广指导实践应用。

消息源：PMtoo

一个数据挖掘大牛，用程序算法做人生选择

DinK — Tue, 12 Aug 2014 15:28:35 +0000

每年一到要找工作的时候，我就能收到很多人给我发来的邮件，总是问我怎么选择他们的offer，去腾讯还是去豆瓣，去外企还是去国内的企业，去创业还是去考研，来北京还是回老家，该不该去创新工场？该不该去thoughtworks？……等等，等等。今年从7月份到现在，我收到并回复了60多封这样的邮件。我更多帮他们整理思路，帮他们明白自己最想要的是什么。（注：我以后不再回复类似的邮件了）。

我深深地发现，对于我国这样从小被父母和老师安排各种事情长大的人，当有一天，父母和老师都跟不上的时候，我们几乎完全不知道怎么去做选择。而我最近也离开了亚马逊，换了一个工作，让我想到写一篇这样的文章。

几个例子

当我们在面对各种对选择的影响因子的时候，如：城市，公司规模，公司性质，薪水，项目，户口，技术，方向，眼界…… 你总会发现，你会在几个公司中纠结一些东西，举几个例子：

某网友和我说，他们去上海腾讯，因为腾讯的规模很大，但却发现薪水待遇没有豆瓣高（低的还不是一点），如果以后要换工作的话，起薪点直接关系到了以后的高工资。我说那就去豆瓣吧，他说豆瓣在北京，污染那么严重，又没有户口，生存环境不好。我说去腾讯吧，他说腾讯最近组织调整，不稳定。我说那就去豆瓣吧，慢公司，发展很稳当。他说，豆瓣的盈利不清楚，而且用Python，自己不喜欢。我说，那就去腾讯吧，……
还有一网友和我说，他想回老家，因为老家的人脉关系比较好，能混得好。但又想留在大城市，因为大城市可以开眼界。
另一网友和我说，他想进外企，练练英语，开开眼界，但是又怕在外企里当个螺丝钉，想法得不到实施。朋友拉他去创业，觉得创业挺好的，锻炼大，但是朋友做的那个不知道能不能做好。
还有一网友在创新工场的某团队和考研之间抉择，不知道去创新工场行不行，觉得那个项目一般，但是感觉那个团队挺有激情的，另一方面觉得自己的学历还不够，读个研应该能找到更好的工作。
还有一些朋友问题我应该学什么技术？不应该学什么技术？或是怎么学会学得最快，技术的路径应该是什么？有的说只做后端不做前端，有的说，只做算法研究，不做工程，等等，等等。因为他们觉得人生有限，术业有专攻。

等等，等等……

我个人觉得，如果是非计算机科班出生的人不会做选择，不知道怎么走也罢了，但是我们计算机科班出生的人是学过算法的，懂算法的人应该是知道怎么做选择的。

排序算法

你不可能要所有的东西，所以你只能要你最重要的东西，你要知道什么东西最重要，你就需要对你心内的那些欲望和抱负有清楚的认识，不然，你就会在纠结中度过。

所以，在选择中纠结的人有必要参考一下排序算法。

首先，你最需要参考的就是“冒泡排序”——这种算法的思路就是每次冒泡出一个最大的数。所以，你有必要问问你自己，面对那些影响你选择的因子，如果你只能要一个的话，你会要哪个？而剩下的都可以放弃。于是，当你把最大的数，一个一个冒泡出来的时候，并用这个决策因子来过滤选项的时候，你就能比较容易地知道知道你应该选什么了。这个算法告诉我们，人的杂念越少，就越容易做出选择。

好吧，可能你已茫然到了怎么比较两个决策因子的大小，比如：你分不清楚，工资>业务前景吗？业务前景>能力提升吗？所以你完全没有办法进行冒泡法。那你，你不妨参考一个“快速排序”的思路——这个算法告诉我们，我们一开始并不需要找到最大的数，我们只需要把你价值观中的某个标准拿出来，然后，把可以满足这个价值的放到右边，不能的放到左边去。比如，你的标准是：工资大于5000元&&业务前景长于3年的公司，你可以用这个标准来过滤你的选项。然后，你可以再调整这个标准再继续递归下去。这个算法告诉我们，我们的选择标准越清晰，我们就越容易做出选择。

这是排序算法中最经典的两个算法了，面试必考。相信你已烂熟于心中了。所以，我觉得你把这个算法应用于你的人生选择也应该不是什么问题。关于在于，你是否知道自己想要的是什么？

排序算法的核心思想就是，让你帮助你认清自己最需要的是什么，认清自己最想要的是什么，然后根据这个去做选择。

贪婪算法

所谓贪婪算法，是一种在每一步选择中都采取在当前状态下最好或最优（即最有利）的选择（注意：是当前状态下），从而希望导致结果是最好或最优的算法。贪婪算法最经典的一个例子就是哈夫曼编码。

对于人类来说，一般人在行为处事的时候都会使用到贪婪算法，

比如在找零钱的时候，如果要找补36元，我们一般会按这样的顺序找钱：20元，10元，5元，1元。

或者我们在过十字路口的时候，要从到对角线的那个街区时，我们也会使用贪婪算法——哪边的绿灯先亮了我们就先过到那边去，然后再转身90度等红灯再过街。

这样的例子有很多。对于选择中，大多数人都会选用贪婪算法，因为这是一个比较简单的算法，未来太复杂了，只能走一步看一步，在当前的状况下做出最利于自己的判断和选择即可。

有的人会贪婪薪水，有的人会贪婪做的项目，有的人会贪婪业务，有的人会贪婪职位，有的人会贪婪自己的兴趣……这些都没什么问题。贪婪算法并没有错，虽然不是全局最优解，但其可以让你找到局部最优解或是次优解。其实，有次优解也不错了。贪婪算法基本上是一种急功近利的算法，但是并不代表这种算法不好，如果贪婪的是一种长远和持续，又未尝不可呢？。

动态规划

但是我们知道，对于大部分的问题，贪婪法通常都不能找出最优解，因为他们一般没有测试所有可能的解。因为贪婪算法是一种短视的行为，只会跟据当前的形式做判断，也就是过早做决定，因而没法达到最佳解。

动态规划和贪婪算法的最大不同是，贪婪算法做出选择，不能回退。动态规划则会保存以前的运算结果，并根据以前的结果对当前进行选择，有回退功能。

动态规划算法至少告诉我们两个事：

1）承前启后非常重要，当你准备去做遍历的时候，你的上次的经历不但能开启你以后的经历，而且还能为后面的经历所用。你的每一步都没有浪费。

2）是否可以回退也很重要。这意思是——如果你面前有两个选择，一个是A公司一个是B公司，如果今天你错失了B公司，那到你明天还能不能找回来？

比如说：你有两个offer，一个是Yahoo，一个是Baidu，上述的第一点会让我们思考，Yahoo和Baidu谁能给我们开启更大的平台？上述的第二点告诉我们，是进入Yahoo后如果没有选好，是否还能回退到Baidu公司？还是进入Baidu公司后能容易回退到Yahoo公司？

Dijkstra最短路径

最短路径是一个Greedy + DP的算法。相当经典。这个算法的大意如下：

1）在初始化的时候，所有的结点都和我是无穷大，默认是达不到的。

2）从离自己最近的结点开始贪婪。

3）走过去，看看又能到达什么样的结点，计算并更新到所有目标点的距离。

4）再贪婪与原点最短的结点，如此反复。

这个算法给我们带来了一些这样的启示：

有朋友和我说过他想成为一个架构师，或是某技术领域的专家，并会踏踏实实的向这个目标前进，永不放弃。我还是鼓励了他，但我也告诉他了这个著名的算法，我说，这个算法告诉你，架构师或某领域的专家对你来说目前的距离是无穷大，他们放在心中，先看看你能够得着的东西。所谓踏实，并不是踏踏实实追求你的目标，而是踏踏实实把你够得着看得见的就在身边的东西干好。我还记得我刚参加工作，从老家出来的时候，从来没有想过要成为一个技术牛人，也从来没有想过我的博客会那么的有影响力，在做自己力所能及，看得见摸得着的事情，我就看见什么技术就学什么，学着学着就知道怎么学更轻松，怎么学更扎实，这也许就是我的最短路径。

有很多朋友问我要不要学C++，或是问我学Python还是学Ruby，是不是不用学前端，等等。这些朋友告诉我，他们不可能学习多个语言，学了不用也就忘了，而且术业有专攻。这并没有什么不对的，只是我个人觉得，学习一个东西没有必要只有两种状态，一种是不学，另一种是精通。了解一个技术其实花不了多少时间，我学C++的目的其实是为了更懂Java，学TCP/IP协议其实是为了更懂Socket编程，很多东西都是连通和相辅相成的，学好了C/C++/Unix/TCP等这些基础技术后，我发现到达别的技术路径一下缩短了（这就是为什么我用两天时间就可以了解Go语言的原因）。这就好像这个算法一样，算法效率不高，也许达到你的目标，你在一开始花了很长时间，遍历了很多地方，但是，这也许这就是你的最短路径。

算法就是Trade-Off

你根本没有办法能得到所有你想得到的东西，任何的选择都意味着放弃——当你要去获得一个东西的时候，你总是需要放弃一些东西。人生本来就是一个跷跷板，一头上，另一头必然下。这和我们做软件设计或算法设计一样，用时间换空间，用空间换时间，还有CAP理论，总是有很多的Trade-Off，正如这个短语的原意一样——你总是要用某种东西去交易某种东西。

我们都在用某种东西在交易我们的未来，有的人用自己的努力，有的人用自己的思考，有的人用自己的年轻，有的人用自己的自由，有的人用自己的价值观，有的人用自己的道德…… …… 有的人在交换金钱，有的人在交换眼界，有的人在交换经历，有的人在交换地位，有的人在交换能力，有的人在交换自由，有的人在交换兴趣，有的人在交换虚荣心，在交换安逸享乐…… ……

每个人有每个人的算法，每个算法都有每个算法的purpose，就算大家在用同样的算法，但是每个人算法中的那些变量、开关和条件都不一样，得到的结果也不一样。我们就是生活在Matrix里的一段程序，我们每个人的算法决定着我们每个人的选择，我们的选择决定了我们的人生。

VIA：coolshell

数据挖掘：连锁药店待开发的金矿

DinK — Tue, 12 Aug 2014 15:27:00 +0000

连锁药店是一个时时刻刻与数据打交道的行业，商品的一进一存一出就形成了零售行业的庞大数据集，这些数据集组成了零售业的生命链条。连锁药店从“一把手”到中高层的管理人才都清楚这个生命链条的意义。

所以，深刻的理解这些数据，通过挖掘、提取与分析，遵循规定的运营轨迹，其意义也将极其深远。

“一把手”是握紧企业生命链条的灵魂人物。老板应该培养数字化管理的意识，具备数据分析的能力，以便更深、更宽、更细、更准确地把握企业运行中每个时段、每个商品、每个顾客、每个员工、每笔资金的状态，并作出正确的管理应对方法。虽然这是一个永远难以达到的终极目标，但是我们就是要尽一切可能向这个终极目标逼近再逼近。

石家庄新兴药房的陈列革命在行业内引起的轰动并不小，但是敢复制其做法的企业却寥寥无几。在推动“陈列大革命”而发出第一次“动员令”时，效果并不理想。但是董事长郭生荣凭借多年的管理经验和对数据敏锐的洞察力，坚持绝对执行的态度，最终成为陈列革命推动的主要动力。所以说，老板高度决定企业高度，老板文化决定企业文化，老板战略决定企业发展。

在这个“用数据说话，按流程办事”的时代，“一把手”把握企业的决策方向也必须以数据为依托，通过数据预测到企业未来的发展趋势，做到趋利避害。

商品数据分析

商品是企业的核心，是企业赖以生存的基础。关注品类管理的连锁药店，通常会设置商品部，或在采购部下设商品管理专员。其中，商品分类、商品线规划、商品线销售贡献分析及商品的引进与汰换、重点品种目录及重点品种管理等是商品部的核心职责。

在通过数据分析软件进行商品分类时，商品部管理人员既不能完全否认分类软件中已有的商品分类方法，也不应完全依赖，而应与自身企业情况结合并灵活应用与判断。通常，涉及到功能主治分类的时候，要求分类人员具备基本的药学知识，并对患者有一定的了解，一般由药店内的药师来完成。

商品部人员在进行商品线规划时，应以购物者研究的结果为基础，通过持续的消费者研究，对目标市场、目标商圈、目标顾客进行动态定位，从而确定企业的客户定位，找到企业的核心顾客群。之后，从商品的品牌、毛利贡献、功能主治、价格带等角度，依据品种数占比、销售额占比等，与标准样板数据进行参考对比，从而成为引进和汰换商品、制定促销计划的依据。

由于企业的数据每分每秒都在变化，商品部需要定期分析商品的销售表现，如大中小类、不同单品商品的销售额、毛利贡献、客流量、客单价、销售数量及同比、环比等，从而发现和掌握品类、单品的销售趋势和变化规律。

例如某连锁商品部在商品结构梳理时，将竞销品中无法与其他商品做关联的商品目录梳理出来以后，选择出部分难以进行关联话术销售的商品，经研究决定果断申请取消这些商品所有的打折、买赠活动。这个动作的进行，尽管使客流有了少许下滑，但却屏蔽掉了很多“职业买家”。企业的毛利额显示平稳，表明盈利能力没有受到任何影响。该企业就是通过数据，发现了一些避免促销浪费的商品，为企业节省了资金，减少了消耗。

门店经营分析

对于零售业来讲，如何提升门店经营业绩，是经营管理中的重中之重。企业的数据也是由门店的日常运营而得出。通过数据分析得出的指导结果，会让运营者看清楚，商品是不是按着我们划分的轨道在运营，也才能找出偏差，进而复制优质的运营模式。

在门店运营分析中，有一些常用的分析方法，例如占比分析法、变化率分析法、趋势分析法等。以数据为依托的分析方法还可以延续至排序分析法、参考值分析法、80/20法、对比分析法等。门管部熟练掌握这些分析方法，就可以掌握门店运营动向，针对门店的商品、顾客、店员的数据进行分析，发现其中的数据异常，并提出合理的整改建议，是门管部人员定期要进行的工作。

连锁药店还应定期举行经营分析会，由门管部人员与相关店长研究和讨论，得出合理的整改建议，从而指导店长改进管理。在店长的改进过程中，门管部管理人员还需要借助数据，来分析和研究门店改进的进度和成果，及时发现调整过程中的问题，并给与指导。

山东燕喜堂的门管部在发现门店有拦截的现象发生后，就召集每个片区经理，要求每个片区选出一个样板店进行品种补充。四五个月的时间内，每个门店都补充了200～700个品种不等。在这一过程中有一个共性的现象出现了，销售额、毛利额、动销品种数、客流量都在递增，存销比却下降了。

促销分析

门店的一项重要营销工作是促销，其是提高门店销售额见效最快的一种常见营销方式。

企划部在进行促销活动策划时，首先需要确定促销顾客群，选择促销方案、促销品，设计促销POP、DM单、促销话术、关联营销案例等，并对店员进行培训。

在促销过程中，门店管理部需要随时监控促销活动的进程及销售表现，并对数据异常及时响应和反馈。

促销完成后，企划部还有一项重要工作，那就是对促销进行分析总结，从数据的角度研究促销品、促销过程中的问题，为下一次促销做好准备。

延边正道大药房根据数据分析发现，他们的核心顾客群是中青年顾客，而白领女性是其中比较有购买力的顾客群，于是在夏季进行了“明媚夏日，靓丽女人”的保健品促销和一句话促销活动。这个活动的进行将企业的一类长期滞销商品——护手霜，通过收银台的一句话促销全部动销，到活动收尾的时候甚至因为厂家不能提供货源而造成部分客流的流失。

结语

连锁药店的数据就是一个金矿，善于分析与观察者可以从中淘金成功;连锁药店也是一块可孕育数据分析人才的沃土，善于学习和锐意进取者定能拓荒成功。

数据分析的能力是可以培养的，通常综合素质高、专业技能强、管理水平高的复合型人才有较大优势。数据分析对零售运营的支持作用是毋庸置疑的，而本着以人为本的理念，理论与工具及方案结合，充分获得数据分析的支持，就一定可以走到最先进的行列里，而数据分析的最大意义在于使零售业的运营有迹可循，复制成功，甚至复制优秀人才。

作者：保文

数据挖掘的三大要素

DinK — Tue, 20 May 2014 09:23:40 +0000

我对数据挖掘和机器学习是新手，从去年7月份在Amazon才开始接触，而且还是因为工作需要被动接触的，以前都没有接触过，做的是需求预测机器学习相关的。后来，到了淘宝后，自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作，有一些浅薄的心得。不管怎么样，欢迎指教和讨论。

另外，注明一下，这篇文章的标题模仿了一个美剧《权力的游戏：冰与火之歌》。在数据的世界里，我们看到了很多很牛，很强大也很有趣的案例。但是，数据就像一个王座一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。

数据挖掘中的三种角色

在Amazon里从事机器学习的工作时，我注意到了Amazon玩数据的三种角色。

Data Analyzer：数据分析员。这类人的人主要是分析数据的，从数据中找到一些规则，并且为了数据模型的找不同场景的Training Data。另外，这些人也是把一些脏数据洗干净的的人。

Research Scientist：研究科学家。这种角色主要是根据不同的需求来建立数据模型的。他们把自己戏称为不近人间烟火的奇异性物种，就像《生活大爆炸》里的那个Sheldon一样。这些人基本上玩的是数据上的科学

Software Developer：软件开发工程师。主要是把Scientist建立的数据模型给实现出来，交给Data Analyzer去玩。这些人通常更懂的各种机器学习的算法。

我相信其它公司的做数据挖掘或是机器学习的也就这三种工作，或者说这三种人，对于我来说，

最有技术含量的是Scientist，因为数据建模和抽取最有意义的向量，以及选取不同的方法都是这类人来决定的。这类人，我觉得在国内是找不到的。

最苦逼，也最累，但也最重要的是Data Analyzer，他们的活也是这三个角色中最最最重要的（注意：我用了三个最）。因为，无论你的模型你的算法再怎么牛，在一堆烂数据上也只能干出一堆垃圾的活来。正所谓：Garbage In, Garbage Out！但是这个活是最脏最累的活，也是让人最容易退缩的活。

最没技术含量的是Software Developer。现在国内很多玩数据的都以为算法最重要，并且，很多技术人员都在研究机器学习的算法。错了，最重要的是上面两个人，一个是苦逼地洗数据的Data Analyzer，另一个是真正懂得数据建模的Scientist！而像什么K-Means，K Nearest Neighbor，或是别的什么贝叶斯、回归、决策树、随机森林等这些玩法，都很成熟了，而且又不是人工智能，说白了，这些算法在机器学习和数据挖掘中，似乎就像Quick Sort之类的算法在软件设计中基本没什么技术含量。当然，我不是说算法不重要，我只想说这些算法在整个数据处理中是最不重要的。

数据的质量

目前所流行的Buzz Word——大数据是相当误导人的。在我眼中，数据不分大小，只分好坏。

在处理数据的过程中，我第一个感受最大的就是数据质量。下面我分几个案例来说明：

案例一：数据的标准

在Amazon里，所有的商品都有一个唯一的ID，叫ASIN——Amazon Single Identify Number，这个ID是用来标识商品的唯一性的（来自于条形码）。也就是说，无论是你把商品描述成什么样，只要ASIN一样，这就是完完全全一模一样的商品。

这样，就不像淘宝一样，当你搜索一个iPhone，你会出现一堆各种各样的iPhone，有的叫“超值iPhone”，有的叫“苹果iPhone”，有的叫“智能手机iPhone”，有的叫“iPhone白色/黑色”……，这些同一个商品不同的描述是商家为了吸引用户。但是带来的问题有两点：

1）用户体验不好。以商品为中心的业务模型，对于消费者来说，体验明显好于以商家为中心的业务模型。

2）只要你不能正确读懂（识别）数据，你后面的什么算法，什么模型统统没用。

所以，只要你玩数据，你就会发现，如果数据的标准没有建立起来，干什么都没用。数据标准是数据质量的第一道关卡，没这个玩意，你就什么也别玩了。所谓数据的标准，为数据做唯一标识只是其中最最基础的一步，数据的标准还单单只是这个，更重要的是把数据的标准抽象成数学向量，没有数学向量，后面也无法挖掘。

所以，你会看到，洗数据的大量的工作就是在把杂乱无章的数据归并聚合，这就是在建立数据标准。这里面绝对少不了人肉的工作。无非就是：

聪明的人在数据产生之前就定义好标准，并在数据产生之时就在干数据清洗的工作。

一般的人是在数据产生并大量堆积之后，才来干这个事。

另外，说一下Amazon的ASIN，这个事从十多年前就开始了，我在Amazon的内网里看到的资料并没有说为什么搞了个这样一个ID，我倒觉得这并不是因为Amazon因为玩数据发现必需建议个商品ID，也许因为Amazon的业务模型就是设计成以“商品为中心”的。今天，这个ASIN依然有很多很多的问题，ASIN一样不能完全保证商品就是一样的，ASIN不一样也不代表商品不一样，不过90%以上的商品是保证的。Amazon有专门的团队Category Team，里面有很多业务人员天天都在拼命地在对ASIN的数据进行更正。

案例二：数据的准确

用户地址是我从事过数据分析的另一个事情。我还记得当时看到那数以亿计的用户地址的数据的那种兴奋。但是随后我就兴奋不起来了。因为地址是用户自己填写的，这里面有很多的坑，都不是很容易做的。

第一个是假/错地址，因为有的商家作弊或是用户做测试。所以地址是错的，

比如，直接就输入“该地址不存在”，“13243234asdfasdi”之类的。这类的地址是可以被我的程序识别出来的。

还有很难被我的程序所识别出来的。比如：“宇宙路地球小区”之类的。但这类地址可以被人识别出来。

还有连人都识别不出来的，比如：“北京市东四环中路23号南航大厦5楼540室”，这个地址根本不存在。

第二个是真地址，但是因为用户写的不标准，所以很难处理，比如：

缩写：“建国门外大街”和“建外大街”，“中国工商银行”和“工行”……

错别字：“潮阳门”，“通慧河”……

颠倒：“东四环中路朝阳公园”和“朝阳公园（靠东四环）”……

别名：有的人写的是开发商的小区名“东恒国际”，有的则是写行政的地名“八里庄东里”……

这样的例子多得不能再多了。可见数据如果不准确，会增加你处理的难度。有个比喻非常好，玩数据的就像是在挖金矿一样，如果含金量高，那么，挖掘的难度就小，也就容易出效果，如果含金量低，那么挖掘的难度就大，效果就差。

上面，我给了两个案例，旨在说明——

1）数据没有大小之分，只有含金量大的数据和垃圾量大的数据之分。

2）数据清洗是一件多么重要的工作，这也是一件人肉工作量很大的工作。

所以，这个工作最好是在数据产生的时候就一点一滴的完成。

有一个观点：如果数据准确度在60%的时候，你干出来的事，一定会被用户骂！如果数据准确度在80%左右，那么用户会说，还不错！只有数据准确度到了90%的时候，用户才会觉得真牛B。但是从数据准确度从80%到90%要付出的成本要比60%到80%的付出大得多得多。大多数据的数据挖掘团队都会止步于70%这个地方。因为，再往后，这就是一件相当累的活。

数据的业务场景

我不知道有多少数据挖掘团队真正意识到了业务场景和数据挖掘的重要关系？我们需要知道，根本不可能做出能够满足所有业务的数据挖掘和分析模型。

推荐音乐视频，和电子商务中的推荐商品的场景完全不一样。电商中，只要你买了一个东西没有退货，那么，有很大的概率我可以相信你是喜欢这个东西的，然后，对于音乐和视频，你完全不能通过用户听了这首歌或是看了这个视频就武断地觉得用户是喜欢这首歌和这个视频的，所以，我们可以看到，推荐算法在不同的业务场景下的实现难度也完全不一样。

说到推荐算法，你是不是和我一样，有时候会对推荐有一种感觉——推荐就是一种按不同维度的排序的算法。我个人以为，就提一下推荐这个东西在某些业务场景下是比较Tricky的，比如，推荐有两种（不是按用户关系和按物品关系这两种），

一种是共性化推荐，结果就是推荐了流行的东西，这也许是好的，但这也许会是用户已知的东西，比如，到了北京，我想找个饭馆，你总是给我推荐烤鸭，我想去个地方，你总是给我推荐天安门故宫天坛（因为大多数人来北京就是吃烤鸭，就是去天安门的），这些我不都知道了嘛，还要你来推荐？另外，共性化的东西通常是可以被水军刷的。

另一种是一种是个性化推荐，这个需要分析用户的个体喜好，好的就是总是给我我喜欢的，不好的就是也许我的口味会随我的年龄和环境所改变，而且，总是推荐符合用户口味的，不能帮用户发掘新鲜点。比如，我喜欢吃辣的，你总是给我推荐川菜和湘菜，时间长了我也会觉得烦的。

推荐有时并不是民主投票，而是专业用户或资深玩家的建议；推荐有时并不是推荐流行的，而是推荐新鲜而我不知道的。你可以看到，不同的业务场景，不同的产品形态下的玩法可能完全不一样，

另外，就算是对于同一个电子商务来说，书、手机和服装的业务形态完全不一样。我之前在Amazon做Demand Forecasting（用户需求预测）——通过历史数据来预测用户未来的需求。

对于书、手机、家电这些东西，在Amazon里叫Hard Line的产品，你可以认为是“标品”（但也不一定），预测是比较准的，甚至可以预测到相关的产品属性的需求。

但是地于服装这样的叫Soft Line的产品，Amazon干了十多年都没有办法预测得很好，因为这类东西受到的干扰因素太多了，比如：用户的对颜色款式的喜好，穿上去合不合身，爱人朋友喜不喜欢……这类的东西太容易变了，买得人多了反而会卖不好，所以根本没法预测好，更别Stock/Vender Manager提出来的“预测某品牌的某种颜色的衣服或鞋子”。

对于需求的预测，我发现，长期在这个行业中打拼的人的预测是最准的，什么机器学习都是浮云。机器学习只有在你要面对的是成千上万种不同商品和品类的时候才会有意义。

数据挖掘不是人工智能，而且差得还太远。不要觉得数据挖掘什么事都能干，找到一个合适的业务场景和产品形态，比什么都重要。

数据的分析结果

我看到很多的玩大数据的，基本上干的是数据统计的事，从多个不同的维度来统计数据的表现。最简单最常见的统计就是像网站统计这样的事。比如：PV是多少，UV是多少，来路是哪里，浏览器、操作系统、地理、搜索引擎的分布，等等，等等。

唠叨一句，千万不要以为，你一天有十几个T的日志就是数据了，也不要以为你会用Hadoop/MapReduce分析一下日志，这就是数据挖掘了，说得难听一点，你在做的只不过是一个统计的工作。那几个T的Raw Data，基本上来说没什么意义，只能叫日志，连数据都算不上，只有你统计出来的这些数据才是有点意义的，才能叫数据。

当一个用户在面对着自己网店的数据的时候，比如：每千人有5个人下单，有65%的访客是男的，18-24岁的人群有30%，等等。甚至你给出了，你打败了40%同类型商家的这样的数据。作为一个商户，面对这些数据时，大多数人的表现是完全不知道自己能干什么？是把网站改得更男性一点，还是让年轻人更喜欢一点？完全不知道所措。

只要你去看一看，你会发现，好些好些的数据分析出来的结果，看上去似乎不错，但是其实完全不知道下一步该干什么？

所以，我觉得，数据分析的结果并不仅仅只是把数据呈现出来，而更应该关注的是通过这些数据后面可以干什么？如果看了数据分析的结果后并不知道可以干什么，那么这个数据分析是失败的。

总结

综上所述，下面是我觉得数据挖掘或机器学习最重要的东西：

1）数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量，大量人肉的工作少不了。

2）数据的业务场景。我们不可能做所有场景下的来，所以，业务场景和产品形态很重要，我个人感觉业务场景越窄越好。

3）数据的分析结果，要让人能看得懂，知道接下来要干什么，而不是为了数据而数据。

搞数据挖掘的人很多，但成功的案例却不多（相比起大量的尝试来说），就目前而言，我似乎觉得目前的数据挖掘的技术是一种过渡技术，还在摸索阶段。另外，好些数据挖掘的团队搞得业务不业务，技术不技术的，为其中的技术人员感到惋惜……

不好意思，我只给出了问题，没有建议，这也说明数据分析中有很多的机会……

最后，还要提的一个是“数据中的个人隐私问题”，这似乎就像那些有悖伦理的黑魔法一样，你要成功就得把自己变得黑暗。是的，数据就像一个王座一样，像征着一种权力和征服，但登上去的路途一样令人胆颤。

数据挖掘之七种常用的方法

DinK — Sat, 10 May 2014 16:32:34 +0000

数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程

    　利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等，它们分别从不同的角度对数据进行挖掘。

　 ①　分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。

    　它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等，如一个汽车零售商将客户按照对汽车的喜好划分成不同的类，这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中，从而大大增加了商业机会。

    　②　回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。

   　它可以应用到市场营销的各个方面，如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

    　③　聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。

   　它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

    　④　关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。

    　在客户关系管理中，通过对企业的客户数据库里的大量数据进行挖掘，可以从大量的记录中发现有趣的关联关系，找出影响市场营销效果的关键因素，为产品定位、定价与定制客户群，客户寻求、细分与保持，市场营销与推销，营销风险评估和诈骗预测等决策支持提供参考依据。

    　⑤　特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取，可以得到导致客户流失的一系列原因和主要特征，利用这些特征可以有效地预防客户的流失。

    　⑥　变化和偏差分析。偏差包括很大一类潜在有趣的知识，如分类中的反常实例，模式的例外，观察结果对期望的偏差等，其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中，管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

　 ⑦　Web页挖掘。随着Internet的迅速发展及Web 的全球普及，使得Web上的信息量无比丰富，通过对Web的挖掘，可以利用Web 的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

    　数据挖掘是一种决策支持过程，它通过高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。这对于一个企业的发展十分重要。

信息图：企业数据问题和对策

iLoveI — Mon, 31 Mar 2014 01:36:51 +0000

不管你们公司有没有专门的数据部门，但数据和信息无疑是所有企业运作赖以决策的基础。企业的良好运作有赖于合适，清晰和高质量的数据，数据是维持企业良好运作的润滑油。但完美的数据并非那么简单！

数据质量问题表现

99%的企业有数据相关的策略，但共通的问题和错误损害了数据质量

企业不时遭遇数据“宕机”的时刻：44%的企业认为数据缺失是普遍问题，41%的企业则表示过时的联系方式是他们最大的障碍，86%的企业怀疑他们的数据并不那么准确

多渠道的策略让错误变得更加复杂：49%的人认为网站，52%的企业认为是呼叫中心是问题最多的渠道

数据错误的根源

59%的企业认为是人为错误，31%则是糟糕的内部沟通，24%认为这是由于糟糕的数据策略，22%的企业认为是因为缺乏资源，20%的企业认为是由于缺乏预算

数据对策和成效

38%的企业会使用终端点（point of capture）来矫正进入的数据；34%会使用精心设计的软件来清洗数据；23%的企业依赖于人工的方法来清洗他们的数据

从数据策略中公司的主要产出是：提升效率（62%），更高的客户满意度（54%），成本节省（44%），通过用户建档带来机会（43%）

via：199IT编译experian

电子商务数据挖掘之关联算法（二）：牛奶可以搭配哪些商品

DinK — Mon, 16 Sep 2013 06:45:52 +0000

在《电商数据挖掘之关联算法（一）：“啤酒＋尿布”的关联规则是怎么来的》，我们介绍了关联规则的基本概念，这一期则以数据实例来看最著名的Apriori关联算法的演算过程。

从一家公司的销售记录中我们找到以下8条消费记录，并以3作为最小支持度，也就是说出现频率在3次以下的记录是被我们所忽略的。

所有满足最小支持度3的1项频集如下，其中的支持度是指该产品在整个数据集中出现的次数。比如牛奶出现了5次，而冰淇淋出现了3次。

递归执行，所有满足最小支持度3的2项频集如下，这其中出现最多的频集是｛牛奶，面包｝和｛面包，果酱｝，各自出现了4次。

再次递归执行，所有满足最小支持度3的3项频集只剩下一条：

那么｛牛奶，果酱，面包｝就是我们要的满足最小支持度3的3项频集，也就是说牛奶、果酱和面包这三个商品是最经常被一起购买的。

概念层次的数据挖掘

在研究挖掘关联规则的过程中，许多学者发现在实际应用中，对于很多应用来说，由于数据分布的分散性，数据比较少，所以很难在数据最细节的层次上发现一些强关联规则。要想在原始的概念层次上发现强的（strong）和有意义的（interesting）关联规则是比较困难的，因为好多项集往往没有足够的支持数。

当我们引入概念层次后，就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息，但是对于一个用户来说是普通的信息，对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

概念层次在要挖掘的数据库中经常是存在的，比如在一个超市中会存在这样的概念层次：蒙牛牌牛奶是牛奶，伊利牌牛奶是牛奶，王子牌饼干是饼干，康师傅牌饼干是饼干等。

如果我们只是在数据基本层发掘关系，｛蒙牛牌牛奶，王子牌饼干｝，｛蒙牛牌牛奶，康师傅牌饼干｝，｛伊利牌牛奶，王子牌饼干｝，｛伊利牌牛奶，康师傅牌饼干｝都不符合最小支持度。不过如果我们上升一个层级，会发现｛牛奶，饼干｝的关联规则是有一定支持度的。

我们称高层次的项是低层次项的父亲层次（parent），这种概念层次关系通常用一个DAG（directed acyclic graph，有向无环图)来表示。所谓有向无环图是指，任意一条边有方向，且不存在环路的图。这样我们就可以在较高的概念层次上发现关联规则。

支持度的设置策略

根据规则中涉及的层次和多层关联的规则，我们可以把关联规则分为同层关联规则和层间关联规则。多层关联规则的挖掘基本上可以沿用“支持度—置信度”的框架。不过，在支持度设置的问题上有一些要考虑的东西。

同层关联规则可以采用两种支持度策略：

统一的最小支持度。对于不同的层次，都使用同一个最小支持度。这样对于用户和算法实现来说都比较容易，但是弊端也是显而易见的。

递减的最小支持度。每个层次都有不同的最小支持度，较低层次的最小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些过滤的工作。层间关联规则考虑最小支持度的时候，应该根据较低层次的最小支持度来定。

以上我们讨论的基本上都是同一个字段的值之间的关系，比如用户购买的物品。换句话说就是在单维或者叫维内的关联规则，这些规则很多都是在交易数据库中挖掘的。

但是对于实际应用来说，多维的关联规则可能是更加有价值的。

同时，在挖掘维间关联规则和混合维关联规则的时候，还要考虑不同的字段种类，是分类型数据还是数值型数据等等。

via：wshang

电商数据挖掘之关联算法（一）：“啤酒＋尿布”的关联规则是怎么来的

DinK — Mon, 16 Sep 2013 05:33:09 +0000

所谓关联，反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候，可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance，第二个是关联性association，两者都可以用来描述事件之间的关联程度。其中前者主要用在互联网的内容和文档上，比如搜索引擎算法中文档之间的关联性，我们采用的词是relevance；而后者往往用在实际的事物之上，比如电子商务网站上的商品之间的关联度我们是用association来表示的，而关联规则是用association rules来表示的。

如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。简单地来说，关联规则可以用这样的方式来表示：A→B，其中A被称为前提或者左部（LHS），而B被称为结果或者右部（RHS）。如果我们要描述关于尿布和啤酒的关联规则（买尿布的人也会买啤酒），那么我们可以这样表示：买尿布→买啤酒。

关联算法的两个概念

在关联算法中很重要的一个概念是支持度（Support），也就是数据集中包含某几个特定项的概率。

比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次，那么此关联的支持度为5%。

和关联算法很相关的另一个概念是置信度（Confidence），也就是在数据集中已经出现A时，B发生的概率，置信度的计算公式是：A与B同时出现的概率/A出现的概率。

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，或者即使知道也是不确定的，因此关联分析生成的规则带有置信度。

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品（项）之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

关联规则的发现过程可分为如下两步：

第一步是迭代识别所有的频繁项目集（Frequent Itemsets），要求频繁项目集的支持度不低于用户设定的最低值；

第二步是从频繁项目集中构造置信度不低于用户设定的最低值的规则，产生关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。

支持度和置信度两个阈值是描述关联规则的两个最重要的概念。一项目组出现的频率称为支持度，反映关联规则在数据库中的重要性。而置信度衡量关联规则的可信程度。如果某条规则同时满足最小支持度（min-support）和最小置信度（min-confidence），则称它为强关联规则。

关联规则数据挖掘阶段

第一阶段必须从原始资料集合中，找出所有高频项目组（Large Itemsets）。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。以一个包含A与B两个项目的2-itemset为例，我们可以求得包含{A,B}项目组的支持度，若支持度大于等于所设定的最小支持度（Minimum Support）门槛值时，则{A,B}称为高频项目组。一个满足最小支持度的k-itemset，则称为高频k-项目组（Frequent k-itemset），一般表示为Large k或Frequent k。算法并从Large k的项目组中再试图产生长度超过k的项目集Large k+1，直到无法再找到更长的高频项目组为止。

关联规则挖掘的第二阶段是要产生关联规则。从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小可信度（Minimum Confidence）的条件门槛下，若一规则所求得的可信度满足最小可信度，则称此规则为关联规则。

例如：经由高频k-项目组{A,B}所产生的规则，若其可信度大于等于最小可信度，则称{A,B}为关联规则。

就“啤酒＋尿布”这个案例而言，使用关联规则挖掘技术，对交易资料库中的记录进行资料挖掘，首先必须要设定最小支持度与最小可信度两个门槛值，在此假设最小支持度min-support=5% 且最小可信度min-confidence=65%。因此符合需求的关联规则将必须同时满足以上两个条件。若经过挖掘所找到的关联规则 {尿布，啤酒}满足下列条件，将可接受{尿布，啤酒} 的关联规则。用公式可以描述为：

Support（尿布，啤酒）≥5% and Confidence（尿布，啤酒）≥65%。

其中，Support（尿布，啤酒）≥5%于此应用范例中的意义为：在所有的交易记录资料中，至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence（尿布，啤酒）≥65%于此应用范例中的意义为：在所有包含尿布的交易记录资料中，至少有65%的交易会同时购买啤酒。

因此，今后若有某消费者出现购买尿布的行为，我们将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据{尿布，啤酒}关联规则而定，因为就过去的交易记录而言，支持了“大部分购买尿布的交易，会同时购买啤酒”的消费行为。

从上面的介绍还可以看出，关联规则挖掘通常比较适用于记录中的指标取离散值的情况。

如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化（实际上就是将某个区间的值对应于某个值），数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。

via ：i.wshang

电商数据挖掘之关联算法

DinK — Mon, 12 Aug 2013 16:47:29 +0000

关联，其实很简单，就是几个东西或者事件是经常同时出现的，“啤酒＋尿布”就是非常典型的两个关联商品。

文 / 通策信息首席运营官谭磊

如果两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。简单地来说，关联规则可以用这样的方式来表示：A→B，其中A被称为前提或者左部(LHS)，而B被称为结果或者右部(RHS)。如果我们要描述关于尿布和啤酒的关联规则(买尿布的人也会买啤酒)，那么我们可以这样表示：买尿布→买啤酒。

关联算法的两个概念

在关联算法中很重要的一个概念是支持度(Support)，也就是数据集中包含某几个特定项的概率。

比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次，那么此关联的支持度为5%。

和关联算法很相关的另一个概念是置信度(Confidence)，也就是在数据集中已经出现A时，B发生的概率，置信度的计算公式是：A与B同时出现的概率/A出现的概率。

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

关联规则的发现过程可分为如下两步：

第一步是迭代识别所有的频繁项目集(Frequent Itemsets)，要求频繁项目集的支持度不低于用户设定的最低值；

第二步是从频繁项目集中构造置信度不低于用户设定的最低值的规则，产生关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。

支持度和置信度两个阈值是描述关联规则的两个最重要的概念。一项目组出现的频率称为支持度，反映关联规则在数据库中的重要性。而置信度衡量关联规则的可信程度。如果某条规则同时满足最小支持度(min-support)和最小置信度(min-confidence)，则称它为强关联规则。

关联规则数据挖掘阶段

第一阶段必须从原始资料集合中，找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。以一个包含A与B两个项目的2-itemset为例，我们可以求得包含{A,B}项目组的支持度，若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时，则{A,B}称为高频项目组。一个满足最小支持度的k-itemset，则称为高频k-项目组(Frequent k-itemset)，一般表示为Large k或Frequent k。算法并从Large k的项目组中再试图产生长度超过k的项目集Large k+1，直到无法再找到更长的高频项目组为止。

关联规则挖掘的第二阶段是要产生关联规则。从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小可信度(Minimum Confidence)的条件门槛下，若一规则所求得的可信度满足最小可信度，则称此规则为关联规则。

例如：经由高频k-项目组{A,B}所产生的规则，若其可信度大于等于最小可信度，则称{A,B}为关联规则。

Support(尿布，啤酒)≥5% and Confidence(尿布，啤酒)≥65%。

其中，Support(尿布，啤酒)≥5%于此应用范例中的意义为：在所有的交易记录资料中，至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布，啤酒)≥65%于此应用范例中的意义为：在所有包含尿布的交易记录资料中，至少有65%的交易会同时购买啤酒。

从上面的介绍还可以看出，关联规则挖掘通常比较适用于记录中的指标取离散值的情况。

如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值)，数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。

下一期将介绍一个运用关联规则的案例来解释关联算法的实际应用。

电商数据挖掘之关联算法（一）：“啤酒＋尿布”的关联规则是怎么来的

ooodong — Wed, 07 Aug 2013 12:20:46 +0000

关联，其实很简单，就是几个东西或者事件是经常同时出现的，“啤酒＋尿布”就是非常典型的两个关联商品。

文 / 通策信息首席运营官谭磊

关联算法的两个概念

在关联算法中很重要的一个概念是支持度（Support），也就是数据集中包含某几个特定项的概率。

比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次，那么此关联的支持度为5%。

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

关联规则的发现过程可分为如下两步：

第一步是迭代识别所有的频繁项目集（Frequent Itemsets），要求频繁项目集的支持度不低于用户设定的最低值；

关联规则数据挖掘阶段

例如：经由高频k-项目组{A,B}所产生的规则，若其可信度大于等于最小可信度，则称{A,B}为关联规则。

Support（尿布，啤酒）≥5% and Confidence（尿布，啤酒）≥65%。

从上面的介绍还可以看出，关联规则挖掘通常比较适用于记录中的指标取离散值的情况。

（原载于《天下网商·经理人》八月刊）

Immersion：麻省理工的邮件元数据挖掘分析工具

DinK — Mon, 08 Jul 2013 10:55:37 +0000

Immersion只分析邮件的发件人/收件人(包括抄送人)和时间戳，避开了”主题”栏和邮件正文。

不过，Immersion挖掘出的最终结果依然令人印象深刻。你所联络过的任意人员名单，实际上都有着逻辑方面的联系。

作为Immersion的幕后创作者之一，César Hidalgo向《波士顿环球报》表示：”所有数据都是有关’人’的。撇开了人际关系，数据基本上就失去了任何意义”。

需要重申的是，若想体验一回Immersion的分析结果，你需要授权MIT访问你的Google账户。

[编译自：TheVerge , 来源：Immersion]

揭密Facebook数据挖掘功臣:人际图谱

DinK — Sat, 08 Jun 2013 03:29:35 +0000

编者的话：Facebook工程师Eric Sun近日在Facebook官方博客上贴发文章，揭开了“图谱搜索”背后的用户信息数据库“人际图谱”（EntityGraph）的神秘面纱，“人际图谱”不仅仅是“图谱搜索”背后的技术支持更是Facebook构建其整一个社交关系网的重要技术。

　　建立与发展

Facebook的人际图谱团队创立之初的任务是把用户个人信息中的纯文字描述转化成结构化数据。如果没有这样的数据，Facebook就无法实现广告受众定位，也不能帮助你找到高中好友。

为了利用用户数据中的各种细节信息，Facebook的工程师们必须建立一个数据集，其中需要包含能够将不同用户之间建立联系的各种信息。工程师们的解决办法是利用维基百科上的现有数据。

很多用户之间的关联信息无法直接和现有页面建立联系，借助维基百科上的各种条目，Facebook工程师们建立了“数百万个‘回退’页面”，然后手动去除重合和无效的页面。此外，工程师们还需要针对用户信息中的书名和电影名等信息进行手动调整。

　Facebook的人际图谱团队还利用了WordNet数据库等工具分析用户信息，配合用户兴趣数据集向用户推荐好友。比如，在简介中提及“有些朋友会滑雪”的用户会和那些在滑雪运动页面上点“赞”的用户归类到一起。

人际图谱现状

根据Facebook工程师埃里克·孙（EricSun）的说法，人际图谱如今的增长速度是他们始料未及的。他表示，该团队目前的主要任务是“打造能够不断优化图谱的多分支、可扩展系统”。

目前，Facebook对用户信息的挖掘已经非常深入。比如，如果你对歌曲“Help”点了赞，Facebook知道创作它的是披头士乐队，它也知道你有哪些好友喜欢披头士。如果你去了某家餐馆，Facebook知道它的位置、用户群体、用户住处。帮助Facebook发掘出如此多的数据的正是人际图谱计划。

VC/PE借力数据挖掘潜力股谷歌成“量化风投”先驱者

DinK — Tue, 04 Jun 2013 06:12:23 +0000

2013年6月2日对于硅谷风投来说，YCombinator等创业孵化器的“展示日”(DemoDay)是发掘“潜力股”的必经途径，但是如今的科技创投领域正在悄然发生变化，如果只是坐等“展示日”就会错失良机，因为越来越多风投机构开始借助数据专家的力量进行前瞻性的量化分析，从而提早发现“潜力股”。科技博客网站TechCrunch日前在一篇文章中介绍了风投领域的这一新趋势，以下为文章主要内容：

形势变迁：创业者有了更多话语权

曾就职于风投机构GeneralCatalyst和BessemerVenturePartners的克里斯•法尔莫(ChrisFarmer)指出，风投行业曾经是个封闭的圈子，只有少数基金能接触到谷歌、Facebook这种企业。法尔莫正在筹建一家基于数据的新基金并计划于明年初开始融资，该基金能以智能化方式向投资人提供来自CrunchBase、社交媒体、网页计量和多个独家数据来源的大量信息，从而帮助投资人判断最佳投资机会。

法尔莫解释了如今的形势变化：在过去，风投机构可以凭借其投资经验(例如投资谷歌或雅虎)和投资人的人脉关系(例如“PayPal帮”)坐等交易送上门;但是如今的创业者不再眼巴巴指望风投开出的第一张支票了，因为他们能通过天使投资人、种子基金和创业加速器获得相当一部分融资，而且互联网及移动领域的创业资金门槛也大大降低，此外还有AngelList这样的网站来为创业者和投资人牵线搭桥——总之，如今的创业者有了更多话语权。

为保优势：风投日益重视数据挖掘

面对上述变化，很多想要保住竞争优势的风投机构把目光投向了数据——例如，如果能通过深度数据挖掘发现在AppStore表现出色但尚未出名、自力更生的应用，投资人就有可能及早联系其创始人并拉近关系，从而获得参与其A轮融资的机会。

那么风投机构都在研究哪些数据呢?有Compete和Alexa排名、AppStore和PlayStore数据及排名等基本信息，有职业社交网站LinkedIn上的人才数据，有美国证券交易委员会(SEC)公布的信息，有来自CBInsights、VentureSource等机构的财务数据，也包括TechCrunch旗下的行业数据库CrunchBase。

CrunchBase目前拥有关于公司、创业者、融资、倒闭等信息的160万个数据点，并且在近期推出了面向风投机构的CrunchBaseVentureNetwork服务，为风投机构提供API和数据团队，并且获取它们投资对象的融资、人员变化、产品发布和收购交易等信息作为交换。目前已有SVAngel、红杉资本、安德森-霍洛维茨基金、500Startups等知名风投机构签约该服务，而谷歌风投也将于近期加入。

谷歌风投：“量化风投”的先驱者

谷歌风投早在2008年成立之初就开始在投资中采用量化手段，是最早开始这样做的风投机构之一。谷歌风投董事总经理比尔•马里斯(BillMaris)解释道：“传统的风投行业并不注重量化分析，但谷歌是一家数据公司，谷歌风投的很多员工又曾经在谷歌工作，所以我们自然而然地想到了从量化角度进行投资和解决问题。”

谷歌风投从一开始就创建了自己的数据团队，由Excite联合创始人兼JotSpot(已被谷歌收购)联合创始人格雷厄姆•斯宾塞(GrahamSpencer)领导一支工程师和数据专家组成的团队，采集大量数据并进行深入分析。马里斯还表示，谷歌的一整套数据统计资源对谷歌风投的数据分析大有帮助。

斯宾塞表示，谷歌风投的数据团队试图为投资人提供一个“数据工具箱”，帮助他们深入挖掘创业者和初创企业的数据以及对投资金额和投资时机做出判断。他还给出了一个例子：他们创建了一张“风投机构网络图”，分析风投资金的“联合力量”对某些特定企业的影响，判断哪些风投机构更成功、哪些合作方式效果更好。

马里斯也承认搞风投不能只依赖数据，但是他认为对数据的重视能为谷歌风投带来更好的结果，还指出谷歌风投投资的大多数初创企业都与数据相关。

其他风投：八仙过海，各显神通

1.Greylock——数据必须结合市场嗅觉

Greylock也拥有自己的数据团队，并且已经开始着手打造内部数据分析工具。Greylock关注的信息包括AppStore各国排名、Twitter上被提及的次数、谷歌与苹果应用商店数据对比、用户投入程度，等等。

但是Greylock合伙人、Mozilla前CEO约翰•利利(JohnLilly)也指出，量化分析必须与对行业的深入洞察相结合，而有利的数据趋势未必意味着投资良机：例如一年前社交及移动视频分享应用出现了类似当初Instagram(利利曾投资Instagram)的增长曲线，但是直觉告诉他不要投资这一领域——果然，移动视频分享领域至今仍未出现类似Instagram这样成功“高价卖身”的案例，Viddy等几家初创企业还陷入了困境。

2.Floodgate——更加重视“成功模式”

Floodgate的长期投资人兼创始人麦克•梅普尔斯(MikeMaples)指出：每年都有1万到2万家公司获得天使投资，但是每一特定行业内的大多数投资回报都来自5到10家公司，而每年新增的估值超过5000万美元的公司约有80家。因此，梅普尔斯深入研究那些投资回报排名前十的公司的数据，试图发掘其“成功模式”。

Floodgate也雇佣了自己的数据专家，但是其重点关注的不是挖掘AppStore、LinkedIn、CrunchBase等来源的数据，而是根据已有杰出表现的公司的“成功模式”用算法寻觅下一个谷歌或Facebook。

3.KleinerPerkins——使用数据挖掘软件

作为一家成立于1972年的老牌风投机构，KleinerPerkins也在往定量化方向发展，其合伙人及工作人员使用独家数据挖掘软件Dragnet——它能找出哪些初创企业和科技被Twitter上有影响力的人物提到过，是非常有效的未来热点“预警器”，尤其是对于面向消费者的初创企业来说。

未来趋势：或将出现风投领域的“彭博”和“路透”

通过向大众投资者提供商业数据，彭博和汤森路透赚得盆满钵满。那么风投领域会不会也出现类似的机构呢?随着风投机构对数据的重视程度与日俱增，没准有朝一日真的会有一家初创企业这样做。

浅谈数据挖掘在CRM中的应用

DinK — Wed, 29 May 2013 05:27:59 +0000

一、CRM理论

CRM是Customer Relationship Management的缩写，即客户关系管理。CRM 是一种商业策略，目的是在企业和特定的客户之间，保持一个长期的、提高企业的赢利和销售收入的业务关系。

1.CRM定义

目前对CRM的定义，不同的研究机构有着不同的表述。Swift认为CRM是企业经营方法，通过企业和客户之间交流来了解并进一步影响客户行为，从而为企业赢得更多的新客户，留住老客户。Kincaid认为，CRM是一种综合使用了企业管理中的信息、企业运营机制、信息技术特别是互联网技术的商业战略。Parvatiyar and Sheth认为CRM是一种综合的策略和进程，包括赢得新客户，留住老客户，以及与特定的客户合作。这些CRM的定义强调的重点是，认为CRM是为了获得新客户和留住老客户而采取的商业流程，在商业智能的帮助下，使企业最大化的获得客户价值。

2.CRM分类

从体系结构的观点来看，CRM分为操作型CRM和分析型CRM。操作型CRM指的是业务流程(企业的市场、销售、服务等)的自动化，而分析型CRM指的是分析企业的客户关系管理系统中的各种数据，从而了解客户的消费特点和预测客户的行为，目的是为企业的经营和决策提供科学依据。

二、数据挖掘理论

数据挖掘的定义：Turban, Aronson, Liang, 和 Sharda认为数据挖掘是从巨大的数据库中通过使用统计、数学、人工智能和机器学习技术，识别和提取有用的信息并随后获得知识的过程。Lejeune,Ahmed, Berry 和Linoff, Berson et al也提供了类似的定义，认为数据挖掘是从巨大的数据库中提取或探知隐藏的模式、信息的过程。

三、CRM的维度和数据挖掘模型

Swift, Parvatiyar and Sheth, Kracklauer认为，CRM包含四个维度：客户识别、客户吸引、客户保留和客户开发。

这四个维度可以被看作是一个客户管理系统的封闭循环。数据挖掘能够根据数据建立模型。每种数据挖掘技术可以生成一个或更多个以下类型的数据模型：关联、分析、分类、聚类、预测、回归、序列的发现和可视化。

1.CRM维度

(1)客户识别。CRM开始于客户识别，有些文章中也称作客户获得。这个阶段的目的就是找到最有可能成为企业的新客户;对企业来说最有价值的是老客户;本阶段还要识别出那些即将流失的客户并且研究如何挽回。

(2)客户吸引。本阶段是客户识别完成后的下一阶段。发现了潜在客户群后，企业可以采取相应的营销策略来吸引这些潜在客户群。吸引客户的一个有效方法就是直接营销，直接营销是企业向客户直接进行推销，通过多种多样的渠道刺激客户直接下单。

(3)客户保留。CRM最关心的部分。企业为防止老客户流失而运用的一系列策略来提高客户的满意度。客户满意度指的是客户对企业的期望值与客户本身所感知之间的比较，是企业能留住老客户很重要的条件。企业保留老客户的方法包括一对一营销、客户忠诚度项目和投诉管理。一对一营销指通过分析、发现和预测特定客户的行为，对客户进行的有针对性的个性化营销活动;客户忠诚度项目的目的是企业和客户维持较长时间的业务联系。客户忠诚度项目包括客户流失的分析、信用评分、服务质量和对忠诚度项目的满意度。

(4)客户开发。包括交易强度，交易价值和个别客户盈利能力持续的发展。客户开发的要素包括客户生命周期价值的分析，升级销售/交叉销售和市场购物篮分析。客户生命周期价值指企业从客户身上所获得的总净收益。升级销售指在合适的时间，为合适的客户提供合适的服务。交叉销售指将各种资源(时间，金钱、构想、活动等)整合，从而降低成本，通过多渠道使企业接触到更多的潜在客户。市场购物篮分析的主要目的是通过分析客户购买行为的数据，挖掘出隐藏在客户购买行为后面的规则，最大化客户交易强度和价值。

2.数据挖掘模型

(1)关联。关联的目的就是找到所给记录之间存在的某种规律。市场购物篮分析和交叉销售都是关联模型典型的例子。关联模型的常用建模工具是统计和apriori算法。

(2)分类。分类是数据挖掘中最常见的学习模型之一。分类是将数据库中的记录按照预先定义好的标准进行分类，从而建立一个模型来预测客户的未来行为。常见的分类工具是神经网络、决策树和if-then-else规则。

(3)聚类。聚类的目的是将多样化的人群分组成若干相同性质的群里。聚类与分类是不同的，聚类在算法开始的时候是未知的，聚类的常用工具是神经网络和判别分析。

(4)预测。预测用来估计记录模式的将来价值。它涉及到建模和未来某一段时间内模型的逻辑关系。预测模型的一个典型例子就是需求预测。预测的常用工具是神经网络和生存分析。

(5)回归。回归是一种统计估计技术，目的是将每个数据对象映像到真正有意义的预测价值。回归包括曲线拟合、预测、建模的因果关系和测试的科学假设变量之间的关系。回归的常用工具包括线性回归和逻辑回归。

(6)序列发现。序列发现是关联识别或超时模式。目的是模拟序列产生过程的状态，提取和报告偏差和超时趋势。序列发现的常用工具是统计和集合理论。

(7)可视化。可视化指数据显示从而使用户能查看复杂的模式。

一般与其他的数据挖掘模型一起使用，可以更明白地了解已发现的模式或关系。可视化模型的典型例子是三维图形。

3.根据数据挖掘技术进行分类的文章分布统计

根据数据挖掘技术进行文章分类如表1。

　　表1 关于数据挖掘技术的文章分类

本文的研究有以下几个重要的意义：(1)数据挖掘技术在CRM中的应用研究，在将来会明显地增加。(2) 34种数据挖掘技术已经被应用到CRM里，神经网络是最常用的技术。87篇文章中30篇(占34.5%)是关于神经网络;其次是决策树21 篇(占24.1%);关联规则20篇(23.0%)。本研究还有一些局限性。首先，此次研究只调查发表在2000年到2006年之间的文章，而且这些文章都是基于关键词“客户关系管理”和“数据挖掘”的搜索而得到的。其次，本研究所用的文章是在7个在线数据库找到的，可能还有其他的学术期刊能够提供一个更全面的有关数据挖掘在CRM中的应用的文章。最后，非英语出版物被排除在这个研究。

徘徊的大数据门前：五个真实的数据挖掘故事

DinK — Tue, 09 Apr 2013 15:19:30 +0000

*利用大数据后，农夫山泉会发生管理变革吗？YES

*中国能制作出类《纸牌屋》的电视局吗？NO

*大数据可以给阿迪达斯带来利润吗？YES

*网易数据工程师可以当“媒婆”？YES

*中国政府未来会开放数据吗？YES

*正在到来的数据革命改变政府、商业和我们的生活……

《纸牌屋》

就在制作这期“大数据专题”时，编辑部发生热烈讨论：什么是大数据？编辑记者们旁征博引，试图将数据堆砌的商业案例剔除，真正的、实用性强的数据挖掘故事留下。

我们报道的是伪大数据公司？我们是否成为《驾驭大数据》一书的作者Bill Franks所称的“大数据骗局”中的一股力量？同样的质疑发生在阿里巴巴身上。有消息称，3月23日，阿里巴巴以7000万美元收购了一家移动开发者数据统计平台。这引发了专家们热烈讨论，它收购的真是一家大数据公司吗？

这些质疑并非没有道理。

中国确实没有大数据的土壤。“差不多先生”、“大概齐”的文化标签一直存在。很多时候，各级政府不太需要“大数据”，形成决策的关键性数据只有一个数字比率（GDP）而已；其二，对于行业主管机构来说，它们拥有大量原始数据，但它们还在试探、摸索数据开放的尺度，比如说，是开放原始数据，还是开放经过各种加工的数据？是转让给拥有更高级计算和储存能力的大型数据公司，还是将数据开源，与各种各样的企业共享？其三，数据挖掘的工具价值并没有完全被认同。在这个领域，硬件和软件的发展并不十分成熟。

即便如此，没有人否认数据革命的到来，尤其在互联网行业。阿里巴巴的马云将大数据作为战略方向，百度的李彦宏用“框计算”来谋划未来。即便是CBA（中国男子篮球职业联赛）也学起了NBA（美国男篮职业联赛）五花八门的数据统计、分析与挖掘。

在过去两年间，大量的资本投资一些新型数据工具公司，根据美国道琼斯风险资源（Dow Jones VentureSource）的数据，在过去的两年时间里，11.7亿美元流向了119家数据库软件公司。去年，SAP市值已经超过西门子，成为德国市值最高的上市公司，而这样的业绩部分得益于其数据库软件HANA的商业化，去年一年时间里HANA带给SAP3.92亿欧元的收入，增长了142%。

但是，大数据还没法分析、挖掘出自己的直接变现能力。在截稿日时，我们再重新读维克托·迈尔-舍恩伯格（Viktor Mayer-Sch鰊berger）的《大数据时代：生活、工作与思维的大变革》一书，作者相信，未来，数据会成为有价值的资产。假以时日，它会大摇大摆地进入资产负债表里。

案例1：农夫山泉用大数据卖矿泉水

文_本刊记者赵奕编辑_房煜

发挥你您的想象力，选择您认为可是的答案

这里是上海城乡结合部九亭镇新华都超市的一个角落，农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点，拍摄10张照片：水怎么摆放、位置有什么变化、高度如何……这样的点每个业务员一天要跑15个，按照规定，下班之前150张照片就被传回了杭州总部。每个业务员，每天会产生的数据量在10M，这似乎并不是个大数字。
但农夫山泉全国有10000个业务员，这样每天的数据就是100G，每月为3TB。当这些图片如雪片般进入农夫山泉在杭州的机房时，这家公司的CIO胡健就会有这么一种感觉：守着一座金山，却不知道从哪里挖下第一锹。

胡健想知道的问题包括：怎样摆放水堆更能促进销售？什么年龄的消费者在水堆前停留更久，他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答，但它们更多是基于经验，而不是基于数据。

从2008年开始，业务员拍摄的照片就这么被收集起来，如果按照数据的属性来分类，“图片”属于典型的非关系型数据，还包括视频、音频等。要系统地对非关系型数据进行分析是胡健设想的下一步计划，这是农夫山泉在“大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息，如果类似图像、视频和音频资料可以系统分析，如果人的位置有更多的方式可以被监测到，那么摊开在胡健面前的就是一幅基于人消费行为的画卷，而描绘画卷的是一组组复杂的“0、1、1、0”。

SAP全球执行副总裁、中国研究院院长孙小群接受《中国企业家》采访时表示，企业对于数据的挖掘使用分三个阶段，“一开始是把数据变得透明，让大家看到数据，能够看到数据越来越多；第二步是可以提问题，可以形成互动，很多支持的工具来帮我们做出实时分析；而3.0时代，信息流来指导物流和资金流，现在数据要告诉我们未来，告诉我们往什么地方走。”

SAP从2003年开始与农夫山泉在企业管理软件ERP方面进行合作。彼时，农夫山泉仅仅是一个软件采购和使用者，而SAP还是服务商的角色。

而等到2011年6月，SAP和农夫山泉开始共同开发基于“饮用水”这个产业形态中，运输环境的数据场景。

关于运输的数据场景到底有多重要呢？将自己定位成“大自然搬运工”的农夫山泉，在全国有十多个水源地。农夫山泉把水灌装、配送、上架，一瓶超市售价2元的550ml饮用水，其中3毛钱花在了运输上。在农夫山泉内部，有着“搬上搬下，银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本，成为问题的核心。

基于上述场景，SAP团队和农夫山泉团队开始了场景开发，他们将很多数据纳入了进来：高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求（比如某城市召开一次大型运动会）。

在没有数据实时支撑时，农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品（350ml饮用水），在某个城市的销量预测不到位时，公司以往通常的做法是通过大区间的调运，来弥补终端货源的不足。“华北往华南运，运到半道的时候，发现华东实际有富余，从华东调运更便宜。但很快发现对华南的预测有偏差，华北短缺更为严重，华东开始往华北运。此时如果太湖突发一次污染事件，很可能华东又出现短缺。”

这种没头苍蝇的状况让农夫山泉头疼不已。在采购、仓储、配送这条线上，农夫山泉特别希望大数据获取解决三个顽症：首先是解决生产和销售的不平衡，准确获知该产多少，送多少；其次，让400家办事处、30个配送中心能够纳入到体系中来，形成一个动态网状结构，而非简单的树状结构；最后，让退货、残次等问题与生产基地能够实时连接起来。

也就是说，销售的最前端成为一个个神经末梢，它的任何一个痛点，在大脑这里都能快速感知到。

“日常运营中，我们会产生销售、市场费用、物流、生产、财务等数据，这些数据都是通过工具定时抽取到SAP BW或Oracle DM，再通过Business Object展现。”胡健表示，这个“展现”的过程长达24小时，也就是说，在24小时后，物流、资金流和信息流才能汇聚到一起，彼此关联形成一份有价值的统计报告。当农夫山泉的每月数据积累达到3TB时，这样的速度导致农夫山泉每个月财务结算都要推迟一天。更重要的是，胡健等农夫山泉的决策者们只能依靠数据来验证以往的决策是否正确，或者对已出现的问题作出纠正，仍旧无法预测未来。

2011年，SAP推出了创新性的数据库平台SAP Hana，农夫山泉则成为全球第三个、亚洲第一个上线该系统的企业，并在当年9月宣布系统对接成功。

胡健选择SAP Hana的目的只有一个，快些，再快些。采用SAP Hana后，同等数据量的计算速度从过去的24小时缩短到了0.67秒，几乎可以做到实时计算结果，这让很多不可能的事情变为了可能。

这些基于饮用水行业实际情况反映到孙小群这里时，这位SAP全球研发的主要负责人非常兴奋。基于饮用水的场景，SAP并非没有案例，雀巢就是SAP在全球范围长期的合作伙伴。但是，欧美发达市场的整个数据采集、梳理、报告已经相当成熟，上百年的运营经验让这些企业已经能从容面对任何突发状况，他们对新数据解决方案的渴求甚至还不如中国本土公司强烈。

这对农夫山泉董事长钟目炎目炎而言，精准的管控物流成本将不再局限于已有的项目，也可以针对未来的项目。这位董事长将手指放在一台平板电脑显示的中国地图上，随着手指的移动，建立一个物流配送中心的成本随之显示出来。数据在不断飞快地变化，好像手指移动产生的数字涟漪。

以往，钟目炎目炎的执行团队也许要经过长期的考察、论证，再形成一份报告提交给董事长，给他几个备选方案，到底设在哪座城市，还要凭借经验来再做判断。但现在，起码从成本方面已经一览无遗。剩下的可能是当地政府与农夫山泉的友好程度，这些无法测量的因素。

有了强大的数据分析能力做支持后，农夫山泉近年以30%-40%的年增长率，在饮用水方面快速超越了原先的三甲：娃哈哈、乐百氏和可口可乐。根据国家统计局公布的数据，饮用水领域的市场份额，农夫山泉、康师傅、娃哈哈、可口可乐的冰露，分别为34.8%、16.1%、14.3%、4.7%，农夫山泉几乎是另外三家之和。对于胡健来说，下一步他希望那些业务员搜集来的图像、视频资料可以被利用起来。

获益的不仅仅是农夫山泉，在农夫山泉场景中积累的经验，SAP迅速将其复制到神州租车身上。“我们客户的车辆使用率在达到一定百分比之后出现瓶颈，这意味着还有相当比率的车辆处于空置状态，资源尚有优化空间。通过合作创新，我们用SAP Hana为他们特制了一个算法，优化租用流程，帮助他们打破瓶颈，将车辆使用率再次提高了15%。”

案例2：阿迪达斯的“黄金罗盘”

文_本刊记者昝慧昉编辑_房煜

发挥你您的想象力，选择您认为可是的答案

　　看着同行大多仍身陷库存泥潭，叶向阳庆幸自己选对了合作伙伴。

他的厦门育泰贸易有限公司与阿迪达斯合作已有13年，旗下拥有100多家阿迪达斯门店。他说，“2008年之后，库存问题确实很严重，但我们合作解决问题，生意再次回到了正轨。”

在最初降价、打折等清库存的“应急措施”结束后，基于外部环境、消费者调研和门店销售数据的收集、分析，成为了将阿迪达斯和叶向阳们引向正轨的“黄金罗盘”。

现在，叶向阳每天都会收集门店的销售数据，并将它们上传至阿迪达斯。收到数据后，阿迪达斯对数据做整合、分析，再用于指导经销商卖货。研究这些数据，让阿迪达斯和经销商们可以更准确了解当地消费者对商品颜色、款式、功能的偏好，同时知道什么价位的产品更容易被接受。

阿迪达斯产品线丰富，过去，面对展厅里各式各样的产品，经销商很容易按个人偏好下订单。现在，阿迪达斯会用数据说话，帮助经销商选择最适合的产品。首先，从宏观上看，一、二线城市的消费者对品牌和时尚更为敏感，可以重点投放采用前沿科技的产品、运动经典系列的服装以及设计师合作产品系列。在低线城市，消费者更关注产品的价值与功能，诸如纯棉制品这样高性价比的产品，在这些市场会更受欢迎。其次，阿迪达斯会参照经销商的终端数据，给予更具体的产品订购建议。比如，阿迪达斯可能会告诉某低线市场的经销商，在其辖区，普通跑步鞋比添加了减震设备的跑鞋更好卖；至于颜色，比起红色，当地消费者更偏爱蓝色。

推动这种订货方式，阿迪达斯得到了经销商们的认可。叶向阳说：“我们一起商定卖哪些产品、什么产品又会热卖。这样，我们将来就不会再遇到库存问题。”

挖掘大数据，让阿迪达斯有了许多有趣的发现。同在中国南部，那里部分城市受香港风尚影响非常大；而另一些地方，消费者更愿意追随韩国潮流。同为一线城市，北京和上海消费趋势不同，气候是主要的原因。还有，高线城市消费者的消费品位和习惯更为成熟，当地消费者需要不同的服装以应对不同场合的需要，上班、吃饭、喝咖啡、去夜店，需要不同风格的多套衣服，但在低线城市，一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。两相对比，高线城市，显然为阿迪达斯提供了更多细分市场的选择。

实际上，对大数据的运用，也顺应了阿迪达斯大中华区战略转型的需要。

库存危机后，阿迪达斯从“批发型”公司转为“零售驱动型”公司，它从过去只关注把产品卖给经销商，变成了将产品卖到终端消费者手中的有力推动者。而数据收集分析，恰恰能让其更好地帮助经销商提高售罄率。

“我们与经销商伙伴展开了更加紧密的合作，以统计到更为确切可靠的终端消费数据，有效帮助我们重新定义了产品供给组合，从而使我们在适当的时机，将符合消费者口味的产品投放到相应的区域市场。一方面降低了他们的库存，另一方面增加了单店销售率。卖得更多，售罄率更高，也意味着更高的利润。”阿迪达斯大中华区董事总经理高嘉礼对大数据的应用成果颇为满意。

案例3:数据权之争

文_本刊记者周恒星编辑_杨婧

发挥你您的想象力，选择您认为可是的答案

拥有了数据就等于夺取了行业制高点，飞友网络科技公司CEO郑洪峰深知个中道理。

最近几年，随着移动互联网的兴起，一类关于航班动态的应用程序开始出现。通过一套算法，数据工程师们将机场航班实时动态转换成直观的信息，再传递给用户，让后者能够及时了解到航班的起飞、到达、延误、取消、返航、备降等状态，从而帮助用户更高效地安排行程计划。
目前这个市场上主要有三款应用产品，分别是航班管家、飞常准和航旅纵横，飞常准正是飞友科技推出的一款应用。三款应用中，航班管家和飞常准都是民营企业，上线时间较早，用户数较多；航旅纵横虽然上线最晚，却是由央企中国民航信息集团（中航信）开发，大有后来居上的趋势。

随着这个细分市场呈现三足鼎立的局面，一个问题浮出水面。郑洪峰向《中国企业家》直言，数据是这个行业最重要的资源。但是目前中航信垄断了大部分行业信息，使得飞常准必须通过购买和交换才能获得自己所需要的数据。

“我们的数据成本是非常高的。”郑洪峰告诉本刊，“气象、航班信息、空域流量等信息有些是公开发布的，有些则需要公司向空管局、机场和航空公司购买或交换。”

对于郑来说，获取数据的过程就是一部血汗创业史。据其回忆，早年的各大机场、航空公司之间的数据是割裂的，为了获得准确的航班起降信息，郑洪峰和他的团队就去为这些政府机构、大公司提供技术支持，以此来交换所需要的数据。“我们必须放下身段，他们需要什么我们就做什么。”郑说道。因为飞常准是家小公司，决策链条短，效率高，通过多年的积累，郑洪峰打通了部分数据通道。

郑洪峰在民航系统工作近12年，其人脉和常识的积累成为飞常准的重要优势。1999年，他创建了民航资源网。现在，这家网站是中国最大的民航门户网站。2005年，他又创办了飞友，主要为飞行旅客提供机票搜索引擎等服务。从2008年开始，郑洪峰团队通过飞常准为用户提供航班动态服务。早期，飞常准的用户只是民航内部工作人员，很多机票代理商主动帮其推广，机场方面也常常用飞常准的应用来安抚因飞机延误而愤怒不已的乘客，而业内资深人士也常提供很多有价值的反馈信息。郑洪峰依靠民航内部的资源维持着自己的数据来源。但郑知道，这并不能长久。

郑洪峰的故事并不是孤例。中国一家大型电子商务公司的数据挖掘专家接受本刊专访时提到，现在，越来越多的电子商务公司需要预测非一线城市的物流状况。在这一过程中需要考虑当地交通拥堵程度和天气情况，如果当地政府可以提供这方面的相关数据，可以大大提高运作的效率。以交通数据为例，这位数据挖掘专家使用的是百度地图和高德地图，后来，他发现不能再用了：一方面，与这样的公司合作存在商业机密问题；另一方面，由于交通数据可能来自于这些公司的统计，失真度也是这位数据挖掘专家担心的。“我们非常希望政府能开放一些原始数据。”他继续说道，“我们也希望和领先者能平等地分享数据权，而不是数据成本增加了二三倍。”

郑洪峰和这位数据专家都担心数据垄断，希望政府公平公开地开放数据，这样的做法并非没有借鉴。美国有一个叫做flyontime.us的网站，用户可以从这个网站上获得航班信息和天气情况，其功能与国内的航班动态应用类似。但是值得一提的是，这个网站的数据来源是一个公开的美国政府网站data.gov。目前在上面大约有超过40万各种原始数据文件，涵盖了农业、气象、金融、就业、交通、能源等近五十个分类。此外，data.gov还有一个地理信息的子站点，专门提供地理信息相关的数据。美国官方表示，这个网站的目的是“方便公众更便捷地获得联邦政府数据，并通过鼓励创新来突破政府的围墙而创造性地使用这些数据。”

2006年经济学家唐·泰普斯科特（Don Tapscott）在《维基经济学》中指出，人类已经进入了共享时代：“失败者创建的是网页，而胜利者创建的是生机勃勃的社区；失败者创建的是有墙的花园，而胜利者创建的则是一个公共的场所；失败者精心守护他们的数据和软件界面，而胜利者则将资源与每个人共享。”这一理念后来被认为是网络2.0时代的核心理念。以用户为中心，注重用户交互，让用户参与共同建设的网络2.0同样适用于政府，最近几年各国政府的一系列举措标志着政府2.0时代的到来。

那么在大数据时代，中国政府做好准备了吗？

深藏的事实

飞常准的竞争对手也遇到了相同的困境。为了拿到第一手数据，航班管家非常卖力。它与各大机场合作，间接获得自己所需要的航班起降信息。2012年6月，航班管家与上海虹桥机场达成协议，航班管家可以直接从虹桥机场获得信息，包括航班的延误、取消以及登机口变更等一手信息，且提供的信息均与虹桥机场同步。可以预见，机场是其重要的数据来源。

面对竞争对手的步步紧逼，郑洪峰认为，正常的商业竞争并不是飞常准所焦虑的事。“开放与竞争对我们来说是好事。”

对于飞常准来说，央企中航信旗下的航旅纵横才是最大的威胁。“在一定程度上，它有垄断数据的嫌疑。”一位坚持匿名的专家说道。而面对记者的采访要求，航旅纵横以不便透露为由拒绝。目前，中航信拥有中国所有终端旅客详细的数据库，包括姓名、手机、消费习惯等，这是中航信最核心的资源。由于与航旅纵横母子公司的关系，非市场化的利益输送饱受诟病。

在有关民航信息的关键数据中，空域流量是影响中国航班正点率的主要原因，而这一数据掌握在空管局手里。“空管局也愿意将数据分享给航空公司、机场，甚至是一些小公司，它们这么多年也在努力，可中国有自己特殊的情况。”上述专家说道。

在中国，不到30%的空域对民航开放。和其它国家相比，中国是空域管制最为严格的国家之一。“民航系统也很头疼，七成多的空域属于国家机密，所以机场、空域关闭根本无法预知，何来公开的数据？”上述专家说道。

在航班信息中，准点率是非常重要的一条数据。郑洪峰以此对比中美两国差异。“在国外，像准点率这些关键数据都是由政府全部公开的，因为准点率会决定哪家航空公司可以获得哪些航线，是航线资源分配一个非常重要的参数。但是，在中国，这个数据却是各家公司自己搜集的。”换句话说，相关政府部门并没有掌握到第一手的数据来源，遑论数据开放了。

在石油、电信、铁路、民航等战略行业中，民航业的数据开放远远走在了其它行业的前头。上述电子商务公司的数据专家告诉本刊，设计物流工具时，他们更愿意与民航系统合作，不仅仅是快，还因为如果找相对封闭的铁路系统要一些关键性数据，“更难，更不靠谱。”数据专家说道。

“有时，政府也有担心，你要数据做什么？有时他们第一反应是，‘间谍’；第二反应是，你用来赚钱的，我会不会存在什么风险。”上述民航专家说。这位民航专家的一部分工作是为相关政府写内部报告，有时需要跟民航系统要一些关键性数据，即便如此，也免不了遭遇相关政府部门的怀疑。

中国传媒大学教授沈浩认为，现在的政府网站许多都是空架子，甚至大部分网站都很少更新，内容上也只是一些公告，而之前的决策过程并没有反映出来；与此同时，由于中国政府缺少推动力，尚无法建立像data.gov的数据平台。

另外，根据BNET商学院对中国政府部门的调查分析显示，政府部门以数据分析作为决策支撑并没有形成气候，将数据分析作为核心竞争力的只占5.6%，比起美国和英国等政府开源力度差距巨大。

此项调查的负责人，BNET商业英才网副总编周安利认为：政府部门依然缺乏对大数据的真正、全面的认识。在挖掘信息系统价值方面，数据分析也受制于管理体制和职能制约，及长期传统管理积累的习惯，业务驱动力不足，绩效考核不配套。所以中国政府部门对大数据可能产生的价值，以及如何利用数据分析实现政府的科学决策依然有相当长的距离要走。

数字生产力

如今，飞常准已经拥有300万月活跃用户，覆盖1万个国内航班，5万个国际航班。郑洪峰直言，飞常准的优势和主要收入来源就是利用大数据技术对数据进行收集、分析和加工。比如利用获得的收据，飞常准可以帮助保险公司制定航班延误保险，而这些都是政府和保险公司以前无法完成的。

以前，航班延误险存在一个问题，就是保险公司让用户去举证，用户必须有各种各样的纸质证明才能从保险公司拿到赔偿，而赔偿金额往往只有两三百块钱，因此用户都不愿意买这个险。“而现在，航班一落地，通过我们的数据和服务，保险公司就知道是否超过保险阀值，没超过的，用户可以直接从保险公司拿到钱，过程非常简单。”郑说道。与保险公司的合作，郑洪峰得到的回报是收取一小部分服务佣金。

数据开放不仅可以让小公司受益，而且可以让政府更加透明、负责任。美国政府前助理信息官、纽约大学法学院教授贝丝·诺维克（Beth Noveck)在她的《维基政府——运用互联网技术提高政府管理能力》一书中阐述了如何在数字化背景下，运用网络和大数据建立民主和高效的政府。“数据开放可以让体制内外的人一起参与进来，解决政府无法完成以及棘手的问题。”诺维克告诉《中国企业家》。

诺维克以感染率数据为例说明开放数据的作用。美国的医疗部门搜集了全美几乎所有医院的感染率，但是政府并没有足够的能力把这些数据转化为有价值的信息。可是，当这些数据被放在data.gov网站上以后，微软和谷歌却能够运用自己强大的技术能力制作了一幅数据地图。不管是研究机构或者是普通患者都能运用搜索引擎查找任何一家医院的感染率来决定是否住院。

而在中国互联网领域，此前受到虚假广告质疑的百度也开始与相关政府部门合作，利用后者的数据进行网络打假。百度相关负责人告诉《中国企业家》，以前百度需要从2000亿网页中筛查出有问题的假药网站，屏蔽虚假医疗信息非常困难，单纯依靠技术和管理手段的升级，难以达到打击假药的最佳效果。同时，百度作为一家企业，并不具备相关监管资质，这也是百度无法进行独立打击假药的问题所在。百度曾独立打击假药，但效果十分有限。

从2010年开始，百度联合卫生部、国家药监局等多个部委部门发起“阳光行动”，打击各类互联网不良及虚假信息，之后，百度与国家药监局正式达成战略合作，国家药监局的三大药品数据库，总计20余万个权威药品信息向百度开放，而且这些数据库将随着药监局的数据变化实时更新。用户可以通过通俗的商品名、专业的药品名、批准文号等多个途径，在百度搜索到药品的权威信息。

“作为5亿网民的互联网入口，百度一直以来都希望能利用搜索入口和平台优势，与各家具有数据资源优势的政府部门、权威机构联手，让权威信息全面入驻网络。”这位负责人说道，“重要的是，数据治国，相关政府部门也获得了很好的赞誉。”

中国传媒大学教授沈浩认为，虽然中国政府在2007年就发布了《政府信息公开条例》，但目前政府公布的数据大部分还是报告和报表，没有标准的格式，不能以数据的形式查到，因此也无法进行深入的分析、加工和挖掘。

“如果政府需要社会共享和分析这些数据，必须提供最原始的数据，这样的数据学术和商业上才能去应用它。”沈浩说，“你看data.gov的网站，在上面的联邦政府的数据库，都是以电脑可读取的格式发布的。”

郑洪峰也意识到这个难题。他有时候会给相关政府、大公司提供一些数据，他力求寻找一种标准格式。而在这样的方向上，中国的一些公司也在与政府一起努力。

高德软件有限公司三维应用事业部总经理赵珂告诉记者，以前的项目往往是政府立项再雇用公司去做，完成后政府拥有版权，这样导致数据市场不是市场经济而是投资拉动型的经济。而目前高德与地方测绘局采取的合作形式是授权模式，高德帮助政府采集数据。拥有了标准化的数据，相关政府就拥有了一个标准的基础数据库。“这是国家测绘局比较有远见的一个举措，相信我们未来和政府这类合作会越来越多。”赵珂说。

郑洪峰也相信，未来会更务实更市场化，歧视性的东西会越来越少。中国的数据会越来越开放，也会更加利用市场的机制去鼓励更多的商业用户用好航班的数据。

与此同时，郑洪峰也在以不同形式回馈于给他提供数据的政府相关部门和大公司，最近，他的团队正在撰写一份报告，名为《航班正点提高率计划》。

案例4：《纸牌屋》你学不会

发挥你您的想象力，选择您认为可是的答案

　　文_本刊记者伏昕编辑_杨婧

凭借一部片子咸鱼翻身，这样的桥段在当下热播美剧《纸牌屋》身上重演，反转剧主角是美国一家视频公司Netflix，它的武器则是大数据。

首次进军原创剧就走红，Netflix不仅成为娱乐圈里的谈资，亦成为数据革命的代表。无论是《纽约时报》、《洛杉矶时报》还是最近一期的《经济学人》，严肃媒体们都在重要版面研究《纸牌屋》成功之道。获得如此密集关注，并非没有道理。《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集，也在美国及40多个国家大热。Netflix产品创新副总裁托德·耶林（Todd Yelin）称，其表现甚至“比我们最大胆的梦想都要好”。

事实是，美国“白宫甄嬛传”、导演大卫·芬奇（David Fincher）和老戏骨凯文·史派西（Kevin Spacey），这些噱头只是用以吸引眼球的皮毛。最抓人的是，Netflix根据数据技术推导出《纸牌屋》的关键要素，喜欢BBC剧、大卫·芬奇和凯文·史派西的用户存在交集，这是多么酷的一件事。

中国的乐视网一直关注Netflix的发展路径。“值得研究的是Netflix如何从后端数据推导出前台生产。”乐视网副总裁何凤云说。这种做法与旧传统是背道而驰的，以美国著名的有线电视网络媒体公司HBO为例，它对导演强烈的个性抱以完全的信任，全权委任导演去制片、编剧、挑选演员。而在中国，几大视频网站在自制剧时都有自己的选片团队，由他们为观众选择与确定导演，挑选剧本。

多年前，依赖于种种技术，Netflix对数据的记忆能力已经炉火纯青。当一位用户通过浏览器登录Netflix账号，Netflix后台技术将用户位置数据、设备数据悄悄地记录下来。这些记忆代码还包括用户收看过程中所做的收藏、推荐到社交网络等动作。在Netflix看来，暂停、回放、快进、停止等动作都是一个行为，每天用户在Netflix上将产生高达3000多万个行为，此外Netflix的订阅用户每天还会给出400万个评分，300万次搜索请求，询问剧集播放时间和设备。没错，这些都被Netflix转化成代码，当作内容生产的元素记录下来。其首席内容官泰德表示，所有这些数据意味着，Netflix公司已经拥有“可寻址的观众”。

早年间，Netflix利用上述数据提供一项推荐引擎业务。比如说，数千万用户能在一个个性化网页上对影片做出1－5的评级，这些评级构成了一个巨大数据池，如今这个数据池容量已超过近百亿条。根据数据池，Netflix使用推荐算法来识别具有相似品味的观众，然后对这一群体做出相关内容的精准推荐。

Netflix要将巨大的数据池变为生产力并非易事。长年以来，为了提高算法精准，它持续地举办大型比赛，来提高自己的数据挖掘能力。2005年底，Netflix曾开放一数据集，并设立百万美元的奖金(netflix prize)，征集能够使其推荐系统性能上升10％的推荐算法和架构。这个数据集包含了超过48万个匿名用户对大约近2万部电影做的大约10亿次评分。

Netflix一直在寻找与自身匹配的数据挖掘工具。据一位前Netflix云数据库架构师的博客回忆，在2010年Netflix完成了两次迁移，其一是将Netflix的数据中心迁移到了Amazon AWS之中，其二是将Oracle数据库迁移至SimpleDB。而到了2011年又从SimpleDB迁移到Cassandra，利用Cassandra提供的路由配置，集群可以被部署在多个大洲。忘掉上述专业术语，一个小故事足以说明它们的意义。法国电影《不要告诉任何人》在美国的票房收入惨淡，只有600万美元。可Netflix的工程师并不相信这个数字，他们通过上述数据挖掘技术，找到了不易察觉的点击量，而这些才是被隐藏的事实。2011年时，Netflix决定播放《不要告诉任何人》。如Netflix预测的一样，这部电影在播放后立即在最受瞩目的节目中排到第四位。

然而，投资人并不看好Netflix的这些努力。投资人表面上相信Netflix的数据库是个大宝藏，但财务报表的数据呢？去年万圣节，Netflix董事长兼CEO里德·哈斯廷斯接到一位投资人电话，后者告知哈斯廷斯，他将从二级市场收购Netflix 10%的股份。投资人坚持认为Netflix气数已尽，这位投资人的计划是，进入Netflix董事会再建议哈斯廷斯卖掉Netflix。

早期，Netflix是北美家喻户晓的在线影片租赁提供商，它的主营业务是通过邮寄方式租赁DVD的模式赚取利润。然而，在互联网时代这个盈利模式逐渐式微。于是，Netflix将主营转向在线流媒体播放，其商业模式是付费用户通过PC、TV及iPad、iPhone收看电影、电视节目。但在逐步放弃高利润率的DVD业务，彻底转型低利润率的流媒体业务后，Netflix却遭遇营收增速放缓、成本费用激增的困境。2012年第三季度，尽管财报中营收和每股收益均超出分析师预期，股价却依然暴跌。美国知名专栏作家撰文称“Netflix被收购或许才是投资者最理想的选择”。

里德·哈斯廷斯别无选择。他决定反击投资人的短视，用事实告诉资本市场，数据不是花架子，而是地道的生产力。Netflix利用数据挖掘能力计算出可以赢的办法，1亿美元买下一部早在1990年就播出的BBC电视剧《纸牌屋》的版权，请来导演大卫·芬奇（David Fincher），并由老戏骨凯文·史派西（Kevin Spacey）担当男主角。

乐视网副总裁何凤云向本刊介绍，1亿美元买下的《纸牌屋》总共2季26集，计算下来单集成本约为400万美元，远远高于美国一般电视剧的单集制作成本——150万至200万美元，也只有《广告狂人》、《斯巴达克斯》这类热播美剧才能达到200万美元左右。算下来，对于Netflix而言，只有新增100万一年期合约付费用户才能收回上述成本。

Netflix并非没有计算过豪赌的回报，这样做不仅可以带来新增用户，更为重要的是它为Netflix开拓了上游市场，走上了自制剧之路。在《纸牌屋》之后，还将有四部自制剧在2013年登陆Netflix。这意味着，Netflix可以逐步降低对版权费用日趋高涨的好莱坞剧的依赖。

Netflix的故事，对于中国视频网站而言着实励志。他们与Netflix所面临的境遇相似：在美国国内，好莱坞的独家授权费用越来越高，版权成本上升导致资本开支加大。同时内容竞争越来越激烈，尽管在流媒体播放领域Netflix仍占据市场首位，但面临着HBO（美国家庭电视广播网）、Amazon（亚马逊）、Hulu、YouＴube的竞争，它们都在加大内容投入。

由于版权价格提升，国内知名的视频网站们，诸如优酷土豆、搜狐视频、乐视网、爱奇艺近两年也纷纷打造自制剧。

据乐视网高级副总裁高飞对本刊透露，虽然去年上半年版权价格曾达冰点，但是现在又很快回升，从一线卫视购买电视剧，平均购买价格每集几十万，意味着买下一整部剧不下千万。在此局面下，拿下《纸牌屋》中国地区的互联网独家播放权的搜狐视频，不得不上调版权采购预算，其2012年的版权采购成本为5000万美元，但2013年这一预算上调到8000万美元。“但我们拍一个自制剧，成本基本上也就三分之一，甚至不到这个数。”高飞说。

关键是如何制作自制剧？国内视频网站意识到数据的重要性，也积累了大量数据。比如乐视网通过分析用户收看时间，在今年推出午间自制剧场。“但真正细致到使用数据来决定导演、演员，中国还没有哪家公司敢说他们能做到这点。”何凤云说。

此外，即便是有了数据，中国的流媒体公司还不敢像Netflix那样将宝押在一部剧上，因为中国的付费市场尚未成熟，目前还主要依赖广告盈利，无法完全将用户需求作为中心。“Netflix选择了这个项目，投巨资去做，就是博一个必须赢。”乐视网高级副总裁高飞对《中国企业家》说，“期待中国市场也可以通过付费收视足以覆盖成本，但这要寄希望于未来大屏电视以及电视平台产品和服务的成熟，以及付费市场的快速成长。”

除此以外，一位视频行业的人士指出，在中国基于用户数据做出分析的同时，还要考虑广电审核的要素，一些领域与题材类型都要稍微收拢，“不是没法依赖数据，而是不能完全依赖数据，我们选择数据时也一定要结合中国国情。”

案例5：定制爱情

发挥你您的想象力，选择您认为可是的答案

　　文_本刊记者李春晖编辑_王琦

宅男们总幻想为自己定制一个女朋友，也许他们的愿望将不日达成。不是借助3D打印机，而是靠大数据时代的婚恋网站。

2012年底，网易旗下全新婚恋交友网站“花田”上线。花田以免费沟通为卖点，主打一二线城市中高端市场。摒弃了传统婚恋网站的“人工红娘”，花田不提供任何人工服务，从推荐到搜索全由系统自动完成。而业内的龙头老大世纪佳缘(Nasdaq:DATE)，也在换帅之后摩拳擦掌，试图用大数据的精准化运营，为在海量异性资料中疲于搜索的用户“指一条明路”。

一年前婚恋网站最爱喊“实名制”。通过对用户身份证或手机号码进行验证，网站可获得用户真实姓名、年龄、性别、地区等身份证数据，对防止诈骗有一定作用。但如今各家都有，这种传统打法就过气了。毕竟有身份证的人，不一定是有身份的人。婚恋网站已将条条框框的硬指标罗列齐全，使人几乎怀疑进入的是淘宝人肉市场。当身高、体重、年龄、学历等等都一一框定，一看还有2000个姑娘（小伙）符合要求，是时候让理性回归感性了。而这感性，又是建立在理性的数据分析之上。

花田界面清新简洁，采用类似微博的信息流展示形式。首页是异性用户最近更新的图片、内心独白和文字传情，展示其生活方式、个人品味等软性资料。系统会自动推荐那些相对活跃、最近有信息流更新的人，这就促使用户拿出更新微博的劲头来更新花田，为花田积累了大量可供分析的软性数据。

“我们可以通过‘内心独白’来挖掘用户的性格特征。”网易花田负责人夏天宇说。夏天宇在网易已工作11年，此前他的团队负责网易微博的研发，而他最早的工作是Oracle数据库管理。

现在，他和他的团队正试图通过自然语言处理技术和语义分析方法来解码用户性格，实现“软硬兼施”的精准推荐。首先，他们运用切分词方法，从用户的“内心独白”中提取出现频率较高的关键词；再将这些关键词分类，如感性词汇或理性词汇；最后，通过文本分析、语义分析，从中挖掘出用户的性格是内向、外向、理想化还是现实派等等。这一技术目前还在测试中，2013年下半年会逐步投入使用。

自2012年12月28日向全国开放注册以来，花田注册用户已近25万，每日活跃用户4万人。虽然发展迅速，但较之业界前辈，花田用户少得甚至吸引不来骗子。但网易的技术储备却不容小觑。“有道”搜索提供的自然语言处理技术，被用于通过文本挖掘用户性格。网易自研的原本用于网易邮箱的人脸识别技术，更是婚恋网站求之不得的利器。

花田团队只有30多个人，大多是85后。他们在对海量软硬数据进行分析的基础上，总结出一些人物特征，建立出一定数量的人物模型。再分析具体用户，将其分门别类套入各种模型。这样，用户心仪其中某一个人，便可向其推荐这一类人。

这种模型不仅是性格模型，还包括外貌模型。“我们马上要推出人脸识别。比如你想找个像范冰冰的女生，你输入范冰冰，就会推荐给你很多范冰冰脸型的女生。”夏天宇介绍，花田的后台已经提取出范冰冰脸型的数据，之后还会推出几十种流行的男女明星脸型供用户选择。

更令人感兴趣的是，如果花田能够跨产品平台，结合网易门户、邮箱、游戏等其它网易资源进行大数据分析，是否就能向用户推荐与自身阅读习惯、工作习惯、娱乐习惯都匹配的对象呢？真正的大数据必然是跨平台的，而这点别家很难做到。

但跨平台数据提取在一定程度上又涉及用户隐私。大数据的底线在哪里？夏天宇认为，涉及到银行的数据绝对不可碰触。这个范围就很广泛。不过可以确定的是，网易不会在花田影响力和用户量都不足的时候开启跨平台数据分析。

“我希望花田能盖一个五层楼，每层装不同类别的人。一个收入五万块的人进来，也不感觉这里有很多屌丝。”夏天宇这样描述自己对花田的愿景。虽然少了王子配灰姑娘的浪漫童话，倒也实实在在为用户省去不少筛选麻烦。

数据分析不只可用于精准推荐，还能识别婚恋网站最为人诟病的造假和诈骗。2012年底，创始人龚海燕辞任世纪佳缘联席CEO后，另一联席CEO吴琳光担任CEO。吴琳光曾在空中网担任副总裁兼手机游戏事业部总经理。加入世纪佳缘后，他首先做的就是引入大数据来提高用户体验。世纪佳缘的数据分析团队开发出一套网警系统，由以往的被动等待用户举报骗子，改为主动出击。

“对我们来说，花篮托儿和酒吧托儿的危害最大。”世纪佳缘CEO吴琳光介绍，这两种人的特点是希望长期运营，不会像真正的诈骗犯，令受害者报案。钱虽不多，却最让人恶心。

酒吧托儿的特点是照片极美，却只有一两张。花篮托儿则是相貌堂堂、言语温柔的中年大叔，但只打电话不见面。忽有一天声称自己公司要开业，向女方求送花篮，骗个一两千块。他们的共同特点就是一上来便要联系方式，尽快离开网络平台，用电话这种难以管控的方式来建立亲密关系。

通过对骗子这些行为模式的数据分析，世纪佳缘制作出一套骗子识别模型，已经投入使用。令人捧腹的是，吴琳光本人也曾因测试产品，被这套网警系统抓个正着，“我符合坏蛋的特征，上来就找女性直接要联系方式。”

吴琳光向我们分享了一连串数据。比如，“剩女”大部分是生于1978年至1983年。

“因为计划生育，这一段人口暴涨，她们对应的1973年－1978年的男性人口相对不够，和她们同龄的男性又被85后的年轻姑娘抢去了。”吴琳光说，2009年、2010年婚恋网站大爆发，正是因为这帮人到了必须结婚的岁数。

又如，世纪佳缘正在尝试联运页游，越是在世纪佳缘里收不到信的人，玩页游的越多。
数百年前的媒婆们绝想不到，若干年后，一群技术出身的工程师们用冷冰冰的数据为痴男怨女保媒拉纤。

然而技术男们纵然辨得出喜恶，抓得住流氓，却也有棘手的技术难题，比如人脸识别。对外貌的判断感性而且私人化，向来是婚恋网站的难点。世纪佳缘一直在努力寻找合适的面部识别软件，但难度很大。吴琳光表示，他们正引入一款能够识别相似脸的系统，从用户过往的选择数据中总结归纳用户喜欢何种脸型，给用户推荐类似脸型的人。

花田虽然背靠网易大树，即将推出人脸识别功能，但这一技术目前止步于脸型识别。花田试图将更高级的人脸识别，如五官识别、夫妻相匹配作为自己的增值服务收费点，尚有待进一步的技术突破。

对于人类这样复杂的动物，数据究竟能做到什么程度？吴琳光说自己的理想是让用户一注册世纪佳缘，看到的推荐异性就个个都喜欢。但从身边常听到的各种抱怨看，实现这个目标尚需时日。

效率高低有方法数据挖掘十大经典算法

iLoveI — Mon, 01 Apr 2013 12:54:00 +0000

不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。

　1. C4.5

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：

1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；

2) 在树构造过程中进行剪枝；

3) 能够完成对连续属性的离散化处理；

4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。

　2. The k-means algorithm 即K-Means算法

k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

　　3. Support vector machines

支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。

4. The Apriori algorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

　5. 最大期望(EM)算法

在统计计算中，最大期望（EM，Expectation-Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。

　　6. PageRank

PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”–衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度–即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

7. AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

8. kNN: k-nearest neighbor classification

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

9. Naive Bayes

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。

　　10. CART: 分类与回归树

CART, Classification and Regression Trees。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

Econsultancy：社交数据是网站个性化的王者

iLoveI — Wed, 20 Mar 2013 02:00:35 +0000

如果网站能实时感知用户所需并提供服务，网站体验将非常的完美。今天有很多技术可以让这一切逼近现实，个性化网站对于营销者而言不是什么难题。现在核心的问题是个性化的最好方式是什么？

回到数据源

2012年6月，Econsultancy 和Adobe发布了Personalisation, Trust and Return on Investment’, 这个报告，内容有：

超过52%的受访者同意提供个性化内容是对他们的网络策略很关键
41%的受访者决心提供个性化网络体验
只有很少一部分公司能够实时提供个性化内容

分析品牌所使用的个性化数据发现，只有6%的品牌使用了社交数据，但有认为社交数据带来了高ROI的比例高于其他数据类型

数据对互动程度的影响也是如此，使用社交数据的人中有88%表示带来了较好的用户互动，而购买记录数据和网站行为数据则分别为74%和72%

社交数据兴趣

社交数据有何不同？

首先，社交数据是我们真实生活的最好反映，也是更广泛和更精准的意图表达。社交网络满是用户创造内容，用户发表这些内容时并不图回报。

如果你发现了用户对折扣和特惠的Likes，你就大概了解了用户的意图，社交数据还包括关系，兴趣，角色和趋势

购买数据隐含的意思是我以前买了啥，而行为数据反映的无非是通过你的点击发现你的模式，这些数据只能告诉我们用户过去的特定购买行为，却很难获知用户是谁，他喜好什么，他下次想做什么这些信息

这只是一时一刻的数据，对于忠诚客户，你可以及时刻画这个用户，但你没法做到实时，也未必拥有很高的质量和准确性。将行为数据和购买数据相结合，会更了解用户。

但如果你真想了解用户的意图和真正的兴趣，你需要找到那些对他们真正重要的东西，而非短暂的行为。

个性化的一个重要元素是新颖性，重定向广告基于这个原则引导你回到你最近离开的网站。但如果做得不好，这会让人很烦；做好了，这会是一个非常有效的手段。使用社交数据是一个非常好的方法，通过提供跟用户时下相关的产品或服务，比如紧随在他们在Facebook或Twitter上面的分享之后。

营销者一直在寻找合适的定向用户的时机，这个单凭行为或购买数据无法解决，这需要有社交数据。

社交数据法则

社交数据也是有一些需要注意的，比如这跟场景有关，好友的场景（Facebook），工作圈子（Linkedin），家庭圈子（私密网络）

用户在这些社交网络中的重合度不会特别高，在用哪个社交网络进行个性化网络体验时，取决于什么对你的商业最有效

使用社交数据来个性化网络体验是新的法则，这是行为心理学和数据的交叉点。因为这是新生事物，但非常诱人，而且正如数据所显示，效果还非常诱人。

via：http://www.datatmt.com/archives/39374.html

数据挖掘如何改变风投运营 LinkedIn成最佳工具

DinK — Thu, 14 Mar 2013 13:47:47 +0000

据国外媒体报道，作为硅谷风投公司Greylock Partners的数据科学家，对于泛滥的数据如何改变风投公司的运营方式，DJ•帕蒂尔（DJ Patil）当然心知肚明。这位LinkedIn前首席科学家表示，风投仍然是关乎勇气和直觉的生意，但是数据挖掘技术可以帮助风投资本家变得更有效率。

就如何使用大数据捕捉下一个大趋势，帕蒂尔接受《华尔街日报》的采访，以下是采访概要：

问：数据可以帮助甄别脱颖而出的公司吗？

答：我们发现了很多有趣信号，人们可以用它们来理解更大的趋势变化。

其中一个例子就是分布式代码托管网站GitHub。这项服务允许人们进行协作编程。从这里我们可以看到GitHub社区关注和使用技术的情况。就拿新编程语言Scala举例。如果你观察GitHub上Scala集会和使用Scala语言的参与者总数，就发现它显然有了很大的发展潜力。一旦我们看出它的普及情况，就会直截了当的告知客户公司存在的问题：它们无法将这种技术规模化。最后我们帮助建立了TypeSafe公司，让使用Scala开发软件变得更简单。

问：使用数据挖掘，投资者面临的挑战是什么？

答：其中一个挑战就是风投真正关注的是团队。你不是投资那个领域（或技术），你是投资那个领域里面的人。

这种与人相关的东西无法在数据中捕捉到。你必须找到正确的环境。那里有很多经验丰富的人。

　问：对于投资者来说，哪些数据是非常有用的？

答：最有力的工具之一就是LinkedIn。你去参加一个会议之前，就可以对一个人的信息有所了解。别人还可以了解你的信息，这将帮助你与其他人在信息上达到更加平等的水平。

　问：迈克尔•刘易斯的那本《点球成金》，讲述奥克兰运动家棒球队使用数据来招募球员的书，对于风投资本家有没有借鉴意义？

答：我很认同《点球成金》中做的事。他们在整个过程中没有完全依赖于数据，我想我们在做的事也是这样。困难不在于某段时间内数据相关的所有问题。如果你想寻找下一个扎克伯格，这才是真正的难点。

　问：为什么这是难点？

答：没有前导信号。发现下一个主要创始人，我们通常没有数据信号。哪怕是要发现未来15-20年内的优秀四分卫，也是很难的事情。

　问：数据如何让投资快人一步，赢得时间？

答：最好的风投公司不会去抢先获得某个人。你要做的是认识到市场风向什么时候开始转变，或者是什么机遇人们还没有认识到它的价值。风投不像是对冲基金交易，后者只要说：“让我们开发个超级智能的算法。”对冲交易很讲究时效，但风投不是这样运作的。风投更加讲究协作，整个过程也更长。

　　问：分析公司过程中，哪些非现实数据来源是最为有用的？

答：衡量人们技巧和激情的稳定信号。它能找到让整个团队运行起来的人。另外找一个符合公司文化的专业人士，这是非常难的。（

自然语言数据挖掘初创企业AlchemyAPI获200万美元融资

DinK — Fri, 08 Feb 2013 09:44:36 +0000

利用自然语言处理技术进行内容分析的初创企业 AlchemyAPI 获得了 200 万美元的 A 轮融资，此轮融资由 Access Venture Partners 领投。

AlchemyAPI 成立于 2009 年，其深度学习的自然语言处理技术，可利用人工智能分析理解网页、文档、电子邮件、微博等形式的内容。AlchemyAPI 的数据挖掘平台可通过云服务和本地部署的方式与客户的应用、服务或数据处理管道集成。其主要的应用领域是垂直市场，比如金融服务市场。

AlchemyAPI 每月处理 20 亿次的 API 调用，用户遍布 36 个国家。如此规模的调用量令其与 Google、Facebook 及 LinkedIN 等少数公司一道，被 Programmable Web 评为 API Billionaire 俱乐部成员。

AlchemyAPI 的服务可以按照 API 调用数或交易收费，但后一种形式占据了 90% 的比例。

AlchemyAPI 技术跟击败了智力竞赛节目“Jeopardy!”冠军的IBM Watson的问答服务类似，但 IBM Watson 问答服务仅针对特定数据集。此外，它跟 Google 一样采用了神经网络分析（目前只有少数几家公司使用这一技术），但 Google 只是在大脑仿真中采用了这个技术，而 Alchemy 则可以在不同数据集之上的超集中处理查询。比方说，可以对法律发现进行细颗粒度的分析。因此，可以说 AlchemyAPI 的自然语言处理技术具有相当的优势。

AlchemyAPI 现有员工 50 人，此轮所获资金将用于增强市场销售与营销，招募新员工、发布新服务。
来源: [ techcrunch ]

互联网公司大围剿：物理世界的崩塌

ralf — Wed, 23 Jan 2013 10:22:38 +0000

这一年让网民感到震动的事多数集中在网络消费上。除了天猫的191亿之外，更有切肤之感的莫过于支付宝发布的年度对账单。过去一年通过支付宝花费的那个庞大数字一下子让人震惊，甚至让“剁手党”之说流行起来。

冷静来看，由于网购的物美价廉可以让网民花一样的钱买到更多的商品，所以网购越多反而越是持家有道。而另一方面，之所以这一金额让人震惊，是因为过往的支出均无明细混沌一片，现在忽然有人告诉你一份事无巨细的消费真相——这其实颠覆了你对世界的看法。

你买什么东西最多，你习惯在几点消费，加上一些相关的资料，还能够计算出你这一年是有儿有女了还是准备买房装修……诸如此类的统计结果足以让消费者莞尔一笑。但对那些研究互联网的人而言，这背后蕴含着某种急遽的历史变迁，更富含商业价值。

“（互联网）最革命的事情是所有的事情从离线到了在线……我们可以知道人的活动的数据，当有这个东西以后我们可以从另外一个角度看一看这个世界是怎么样的，让你有很多想象的空间。数据从此变成皇帝，是今天做互联网所无法绕开的。”阿里云总裁王坚在阐述云计算背后的逻辑时如是说。

传统的世界是不可统计的（或者统计成本过高），而网络世界却因为数字化而天然透明。由于数字化，人类留下了更多可供分析的数据，可以统计到更深层次的活动。

数据正在加速爆炸。最初的数据是人类在洞穴中留下的壁画，几万年仅有只字片语。然后是留下的书籍，现在的数据概念已经延伸到使用设备产生的交互信息，譬如手机传感器以及与其他设备通信的智能设备。

过去三年，能够存储下来的数据量超过以往总和。在接下来的8年中，我们所产生的数据量将超过40 ZB(泽字节)，这相当于地球上每个人产生5200GB的数据。

是时候抛弃“互联网只是现实物理世界的一个玩具”这类幼稚的想法了。互联网是一个自组织，一旦启动便再也没有回头路，而其疆域也将星星之火燎原，各个突破最终连为一体，而吞噬现实世界。

没错，就如《黑客帝国》、《盗梦空间》描绘的那样，未来的物理世界才是虚拟数字世界中的一部分。

而所有伟大的互联网公司的核心追求也是如此一致：将物理世界虚拟化，用数据去衡量现实。

他们做的事情毫无例外就是推动虚拟化进程。Google希望将全世界以数字化的方式组织起来，从而可以通过搜索等方式实现价值。从网页这种纯数字内容开始，他逐步涉足到虚拟化实体图书（古登堡计划）、全球的卫星数据、直至纯物理的现实世界街景……

人与人之间的社交会不会是有价值数据的最大矿区？Facebook认为是。当然，苹果公司认为未来人与移动设备之间交互产生的数据才是王者，于是有了iPhone，他知道你以及你与虚拟世界交流的所有内容。

如此对照着去看国内互联网，能够从容去追逐着这个大进程的公司并不算多，多数仍集中在应付资本市场的短期逐利上。

在国内BAT三巨头中，腾讯已经成为事实上的虚拟运营商，如果考虑通信量，腾讯甚至已经是全国最大的运营商，在全球也名列前茅。真实交友已经让位于线上交友，连微信都革新了“无组织小姐”的揽客模式。

而阿里巴巴的野心在于将线下的商业系统的数字化。支付宝的年度账单只是一个缩影，其背后是在线零售已经到了可以“反客为主”进逼线下市场的关口。淘宝已经完成小商贩从线下推向虚拟世界的进程，而天猫进一步推动商品生产企业及品牌商数字化。支付宝推O2O尽管是Online 2 Offline，但根本而言你会发现阿里系做的仍旧是线下世界虚拟化的过程——更多的线下商家会依赖于在线的营销，在线的支付，在线露出才有存在感，线下只承担商品交付。

由于过去几年醉心于收益，百度已经在这一进程中落后极多，百度搜索背后的数据阵容并无指数级增长便是明证。但呼唤“狼性”的表态意味着百度仍有机会追回一城：虽然在缺乏OS优势的前提下，通过地图切入到虚拟世界未免剑走偏锋……

在互联网公司的围剿下，物理世界的领地正在缩小。从某种意义上而言，物理世界毋庸说是在崩塌。（作者：仙客）

购物指南新模版：数据挖掘下的比价搜索Decide

DinK — Mon, 17 Dec 2012 14:54:56 +0000

“在互联网时代，固定价格已是过去式。”

Decide联合创始人奥伦•埃齐奥尼（Oren Etzioni）一语道破玄机，这家2011年6月上线的比价预测网站显然很早就意识到了这一点，如今，它已成为美国最为热门的购物风向标，每月用户访问量达数十万，页面浏览量则超过100万次，并且仍在高速增长。

上世纪90年代，航空公司会根据一架航班的空余座位数和竞争对手的票价而不停改变机票价格。酒店也很快跟进，推出了它们的“收益管理”系统，让它们可以随时改变客房价格。如今，这一动态定价模式正在逐渐深入到消费经济的每一个角落。为了争夺搜索结果的榜首位置，零售商们正以小时、有时甚至以分钟为单位改变着商品的价格——从卫生纸到自行车。这一战事在每年的假日购物季都会达到巅峰时刻，面对此情此景，消费者双眼放光之余，却也一筹莫展。

事实上，消费者的困扰远不止此。这款产品哪里卖得更便宜？好不好用？什么时候买合适？要出新款了吗？其他人怎么看？同类产品怎么样？对于消费者满脑的疑问，包括Google Shopping、Nextag、PriceGrabber和亚马逊产品搜索在内的比价网站都只解决了最基础的第一个问题。有需求的地方就有市场，Decide应运而生。

Decide首席执行官麦克•弗雷德根(Mike Fridgen)自称其为“大数据版的《消费者报告》（注：美国权威消费杂志）”，这的的确确是一个“神奇的网站”。

揭底：技术驱动

Decide第一个神奇之处就在于仅靠概念就获得850万美元的投资，这无疑是一个非常典型的美国创新和创业项目，而它的创始人和项目团队同样很传奇。

联合创始人奥伦•埃齐奥尼是一位阅历极其丰富的家伙，曾做过搜索引擎Metacrawler，从事过空军预报员工作，还是大名鼎鼎的旅游搜索网站Farecast的创始人，首席执行官麦克•弗雷德根则是Farecast的前市场营销和产品开发副总裁，与他们一同起家的还有Farecast的几名工程师。2008年，微软斥资1.15亿美元收购了Farecast，后者也是现在Bing Travel的前身。他们将先前用于机票价格跟踪的技术和算法用到了Decide网站的索引产品上来。

此外，Decide还吸纳了PriceYeti（跟踪网购商品价格变化，并在降价时使用邮件通知用户）、Eggsprout（编撰简历数据）的早期开发人员。在网站上线之前，他们潜心闭关了两年时间，虽然对自己将要开展的业务守口如瓶，但是凭借“让电子购物空前透明化”的口号，他们从Maveron、Madrona Venture Group、Google创始董事会成员拉姆•施拉姆（Ram Shriram）、Expedia前首席执行官埃里克•布拉克福特（Erik Blachford）及其他渠道募得了总计850万美元融资。

在Decide的网站上，他们这样描述自己，“Decide 完全利用数据和科技来帮助买家，不是市场推广的手段。”拥有如此豪华的技术人才阵容，Decide无疑是典型的技术驱动型创业公司，作为一家产品搜索类公司，这是至关重要的。

透视：数据的极致

Decide的目的是解决两个问题：电子产品更新速度过快，市场价格变化过快。通过解决这两个问题，他们希望给潜在购物者提供最好的购物时机建议，而这一切的背后是技术驱动下对数据的挖掘和极致利用。

首先，他们搭建了一种“线性分析模式”，将成千上万个电子产品加入到了自己构建的数据库，利用专有价格预测算法，通过综合考虑上亿条价格波动信息和超过40个不同的价格影响因素（包括新品发布周期、新闻报道、公司公告等），来对价格做出全面预测。

面对纷繁的数据处理，Decide以低门槛的操作体验和直观全面的结果展示让一切简单化、便捷化和决断化。用户使登入Decide.com，只需在搜索框中输入具体想购买的电子产品，Decide.com便会根据自己专有技术预测给你返回是应当购买还是应当等一等的建议。如果用户想要购买，则可继续点击进入他们选中的卖家进行购买。如果根据Decide.com给出的建议，用户暂时不想购买，那么他们则可以观看价格时间线，并给自己设定一个降价通知。

刚刚买了iPhone 4S，iPhone 5就上市了，这样的烦恼Decide也已经考虑到。在搜索结果中，Decide会展示出该款产品的全面更新时间线，以免你还在旧产品上瞎逛，新品传言在这里也都能找到。Decide在其“模型谱系”中记录了成百上千的电子产品，自动在技术博客和网站中搜寻新消息和传言，并应用“先进的机器学习和文本挖掘算法”来预测未来产品的发布。贴心的是，Decide还会给出“信心指数”，使得用户了解新品在未来一段时间内上市的可能性有多大。

即便这样还是不够，Decide致力于带给用户一次性作出正确决定的能力，即便摒弃所有这些图表，用户依然有最快捷的方式来做出决策，要不要买，看看分数就知道了。Decide Score产品打分系统会参考多个用户和专家对某款产品的评价、这些评价发布的时间以及该款产品前几代产品的打分，给出一个1到100之间的分数，并根据打分将产品分成“我们爱死它”，“我们喜欢它”，“你最好还是选别的”，“千万别买它”四个等级，一锤子买卖变得更容易。

所有这一切都在同一个页面以图表的形式呈现在用户面前。

盛名之下的Decide也在努力扩张自己的势力范围，一方面将产品覆盖范围从电子产品拓展至家用电器、体育用品、家居和园艺用品等数十个门类，另一方面也在拓展合作伙伴，《消费者报告》和在线比价服务Bizrate已经加入它的“朋友圈”。移动APP的上线更是让Decide的势力扩张到了线下。

生存：公正至上

作为一家以产品比价为基础的公司，收入模式无疑有两种，从商家赚钱，从用户赚钱。身为行业巨鳄的谷歌(微博)选择了前者，今年9月，Google Shopping正式对合作商户收费，谷歌承认产品搜索结果将受到零售商和广告主广告投放的影响。

与之相反的是，一直面向零售商收取佣金盈利的Decide今年10月开始尝试一种全新的商业模式，将之前免费的价格预测服务转为5美元包月、29.99美元包赔付费制，这也正是Decide的杀手锏功能。在预测失败包赔计划下，假如Decide给出最佳购买时机之后商品继续降价，Decide将会为消费者补偿差价。不过何时购买等服务仍免费开放。

Decide为何会做出这种转型？麦克•弗雷德根解释说，这是为了减少他们对广告收入的依赖，让网站上的商品预测服务更加公正客观。本质上来说，一家公司为谁服务，就看它的钱来自哪里。假如Decide的收入来自广告商，那么他们的商品预测服务多少受到广告商的牵制。但对用户来说，只有当网站的数据反映了真实的市场情况时，数据才是有价值的。

Decide转型向用户收钱虽有一定风险，但却可以保证为用户服务，保证推荐的公允，这符合网站的长期发展，也符合消费者的利益。自从2011年6月上线以来，Decide已经为超过1000万的用户提供了服务，为用户省下了1.27亿美元潜在开销，这样的成绩足以让消费者掏出钱包。

中国的Decide在哪里？

在另一半球的中国，同样有一大批比价搜索网站，相比Decide的技术驱动和用户导向，这些产品的存在仍然只是一个雏形，成为“中国版Decide”更是难上加难。

宏观来看，本土的比价网站可分为两类，电商企业主导型和第三方独立型。对于电商旗下的比价网站来说，既当裁判又当运动员的模式难以让人信服，何况屡屡纷争的电商价格大战更是让消费者见识了何为恶斗。独立成长的第三方比价网站生存混乱，中国电商市场目前已经进入高度集中化的寡头时代，淘宝、京东、苏宁易购等占据了90%以上的市场份额，此种强势地位让比价搜索网站很难通过提供相关服务向电商企业收费，而这些比价网站又难以拥有Decide的强大技术让消费者买单，生存压力之下恶意排名现象屡见不止，陷入恶性循环。

对于中国电商业来说，Decide仍是一个传说。

而在Decide所在的美国，新形态的购物指南网站仍层出不穷，譬如放言“为你比较一切”的Find the best，沃尔玛的社交语义购物搜索Polaris、热门移动购物创业公司LEAP Commerce的购物指导应用Spark，它们崭新的模式正在革新传统购物导向。

弗雷德根曾经说过：“大数据使得我们有了各种机会，着力打造下一代的消费宣传服务，也正是我们的目标。”

大数据不再是空洞的概念，它正在浸入我们的生活。

via：http://tech.qq.com/a/20121215/000007.htm

数据挖掘主要解决的四类问题

DinK — Thu, 27 Sep 2012 06:22:27 +0000

数据挖掘主要解决的四类问题

数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳，数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的：

1、分类问题

分类问题属于预测性的问题，但是它跟普通预测问题的区别在于其预测的结果是类别（如A、B、C三类）而不是一个具体的数值（如55、65、75……）。

举个例子，你和朋友在路上走着，迎面走来一个人，你对朋友说：我猜这个人是个上海人，那么这个问题就属于分类问题；如果你对朋友说：我猜这个人的年龄在30岁左右，那么这个问题就属于后面要说到的预测问题。

商业案例中，分类问题可谓是最多的：给你一个客户的相关信息，预测一下他未来一段时间是否会离网？信用度是好/一般/差？是否会使用你的某个产品？将来会成为你的高/中/低价值的客户？是否会响应你的某个促销活动？……。

有一种很特殊的分类问题，那就是“二分”问题，显而易见，“二分”问题意味着预测的分类结果只有两个类：如是/否；好/坏；高/低……。这类问题也称为0/1问题。之所以说它很特殊，主要是因为解决这类问题时，我们只需关注预测属于其中一类的概率即可，因为两个类的概率可以互相推导。如预测X=1的概率为P（X=1），那么X=0的概率P（X=0）=1-P（X=1）。这一点是非常重要的。

可能很多人已经在关心数据挖掘方法是怎么预测P（X=1）这个问题的了，其实并不难。解决这类问题的一个大前提就是通过历史数据的收集，已经明确知道了某些用户的分类结果，如已经收集到了10000个用户的分类结果，其中7000个是属于“1”这类；3000个属于“0”这类。伴随着收集到分类结果的同时，还收集了这10000个用户的若干特征（指标、变量）。这样的数据集一般在数据挖掘中被称为训练集，顾名思义，分类预测的规则就是通过这个数据集训练出来的。训练的大概思路是这样的：对所有已经收集到的特征/变量分别进行分析，寻找与目标0/1变量相关的特征/变量，然后归纳出P（X=1）与筛选出来的相关特征/变量之间的关系（不同方法归纳出来的关系的表达方式是各不相同的，如回归的方法是通过函数关系式，决策树方法是通过规则集）。

如需了解细节，请查阅：决策树、Logistic回归、判别分析、神经网络、Inpurity 、Entropy、Chi-square、Gini、Odds、Odds Ratio……等相关知识。

2、聚类问题

聚类问题不属于预测性的问题，它主要解决的是把一群对象划分成若干个组的问题。划分的依据是聚类问题的核心。所谓“物以类聚，人以群分”，故得名聚类。

聚类问题容易与分类问题混淆，主要是语言表达的原因，因为我们常说这样的话：“根据客户的消费行为，我们把客户分成三个类，第一个类的主要特征是……”，实际上这是一个聚类问题，但是在表达上容易让我们误解为这是个分类问题。分类问题与聚类问题是有本质区别的：分类问题是预测一个未知类别的用户属于哪个类别（相当于做单选题），而聚类问题是根据选定的指标，对一群用户进行划分（相当于做开放式的论述题），它不属于预测问题。

聚类问题在商业案例中也是一个非常常见的，例如需要选择若干个指标（如价值、成本、使用的产品等）对已有的用户群进行划分：特征相似的用户聚为一类，特征不同的用户分属于不同的类。

聚类的方法层出不穷，基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的：首先确定选择哪些指标对用户进行聚类；然后在选择的指标上计算用户彼此间的距离，距离的计算公式很多，最常用的就是直线距离（把选择的指标当作维度、用户在每个指标下都有相应的取值，可以看作多维空间中的一个点，用户彼此间的距离就可理解为两者之间的直线距离。）；最后聚类方法把彼此距离比较短的用户聚为一类，类与类之间的距离相对比较长。

如需了解细节，请查阅：聚类分析、系统聚类、K-means聚类、欧氏距离、闵氏距离、马氏距离等知识。

3、关联问题

说起关联问题，可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例，也有人说，是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何，“啤酒和尿布”给了我们一个启示：世界上的万事万物都有着千丝万缕的联系，我们要善于发现这种关联。

关联分析要解决的主要问题是：一群用户购买了很多产品之后，哪些产品同时购买的几率比较高？买了A产品的同时买哪个产品的几率比较高？可能是由于最初关联分析主要是在超市应用比较广泛，所以又叫“购物篮分析”，英文简称为MBA，当然此MBA非彼MBA,意为Market Basket Analysis。

如果在研究的问题中，一个用户购买的所有产品假定是同时一次性购买的，分析的重点就是所有用户购买的产品之间关联性；如果假定一个用户购买的产品的时间是不同的，而且分析时需要突出时间先后上的关联，如先买了什么，然后后买什么？那么这类问题称之为序列问题，它是关联问题的一种特殊情况。从某种意义上来说，序列问题也可以按照关联问题来操作。

关联分析有三个非常重要的概念，那就是“三度”：支持度、可信度、提升度。假设有10000个人购买了产品，其中购买A产品的人是1000个，购买B产品的人是2000个，AB同时购买的人是800个。支持度指的是关联的产品（假定A产品和B产品关联）同时购买的人数占总人数的比例，即800/10000=8%，有8%的用户同时购买了A和B两个产品；可信度指的是在购买了一个产品之后购买另外一个产品的可能性，例如购买了A产品之后购买B产品的可信度=800/1000=80%，即80%的用户在购买了A产品之后会购买B产品；提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比，没有任何条件下购买B产品可能性=2000/10000=20%，那么提升度=80%/20%=4。

如需了解细节，请查阅：关联规则、apriror算法中等相关知识。

4、预测问题

此处说的预测问题指的是狭义的预测，并不包含前面阐述的分类问题，因为分类问题也属于预测。一般来说我们谈预测问题主要指预测变量的取值为连续数值型的情况。

例如天气预报预测明天的气温、国家预测下一年度的GDP增长率、电信运营商预测下一年的收入、用户数等？

预测问题的解决更多的是采用统计学的技术，例如回归分析和时间序列分析。回归分析是一种非常古典而且影响深远的统计方法，最早是由达尔文的表弟高尔顿在研究生物统计中提出来的方法，它的主要目的是研究目标变量与影响它的若干相关变量之间的关系，通过拟和类似Y=aX1+bX2+……的关系式来揭示变量之间的关系。通过这个关系式，在给定一组X1、X2……的取值之后就可以预测未知的Y值。

相对来说，用于预测问题的回归分析在商业中的应用要远远少于在医学、心理学、自然科学中的应用。最主要的原因是后者是更偏向于自然科学的理论研究，需要有理论支持的实证分析，而在商业统计分析中，更多的使用描述性统计和报表去揭示过去发生了什么，或者是应用性更强的分类、聚类问题。

如需了解细节，请查阅：一元线性回归分析、多元线性回归分析、最小二乘法等相关知识。

数据挖掘的应用领域

数据挖掘一开始就是面向应用而诞生的，前面说到数据挖掘主要解决四大类的问题，如果把这些问题演绎到不同的行业，我们将看到数据挖掘的应用是非常广泛的。

以我们经常接触的移动通信行业来说，结合前面提到的四大类问题，我们看看数据挖掘在通信行业都有哪些应用。

分类问题：

离网预测：预测用户在未来一段时间内离网的风险。

信用申请评分：根据用户资料评估用户是否可以授信（如预付费用户可以透支、后付费用户可以延长帐期）。

信用行为评分：根据用户过去的消费行为特征评估信用得分高低，便于调整话费透支额度或者付费帐期。

定位产品（如彩铃、WAP、增值数据业务等）目标用户：构建模型筛选产品营销的目标用户群。

聚类问题：

用户细分：选择若干指标把用户群聚为若干个组，组内特征相似、组间特征差异明显。当然用户细分的方法很多，不一定都是采用聚类方法。聚类的优点是可以综合处理多维变量，缺点是随之带来的不易解释性。一种便于解释的细分方法是结合业务对用户群进行人为的划分，习惯上称为Pre-Define的方法。这种方法的优点是便于解释且应用性强，缺点是对业务要求比较高，划分边界比较难定，对多维变量处理有难度。

关联问题：

交叉销售：针对用户已经使用的产品和业务，向其推荐他没有使用的，但可能有兴趣的产品。交叉销售的问题从某种角度上来也可以理解为分类问题，与定位产品目标用户这个问题比较相似。

预测问题：

比较成型的应用不多，一般多为用户数预测、收入预测等。

原文来自：http://spss-market.r.blog.163.com/blog/static/731422682009103095222657/

社交网站知道你上网都干了些什么？–数据信息图

DinK — Wed, 05 Sep 2012 14:38:51 +0000

随着互联网的不断发展，社交网站如Facebook、Google+、Twitter、Linkedin、Pinterest、Pandora都对用户数据的价值愈发重视。
而事实上，除了Google+本身以DoubleClick及AdSense的优势在广告用户方面占有优势，使其社交用户方面的价值显得并不那么突出，用户数据对其它网站的重要性是显而易见的。

在众多网站中的收入数据中，显示Pinterest并没有广告收入，而其它社交网站的广告收入之和也仅仅是Google的零头。姑且不论Google有着经营多年的优势，在社交网络模式中，用户到底为各个社交网站提供了什么价值，而这中间的价值又是如何产生的？

事实上，用户的价值体现恰恰就在用户本身在社交活动中所产生的个人信息数据。社交网站可以通过对各种数据的挖掘，并针对不同类型的数据进行分析，从而知道你上网都干了些什么。

via：visual

KDnuggets：数据挖掘软件排名

DinK — Mon, 20 Aug 2012 07:47:48 +0000

浅谈数据挖掘与数据仓库

DinK — Mon, 06 Aug 2012 05:55:58 +0000

1 数据挖掘
1.1 数据挖掘与传统数据分析的区别
数据挖掘与传统的数据分析，如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。
1.2 数据挖掘的应用价值
（1）分类：首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。（2）估计：与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类是确定数目的，估计是不确定的。（3）聚类：是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统，对用户wap上网的行为进行聚类分析，通过客户分群，进行精确营销。（4）关联规则和序列模式的发现：关联是某种事物发生时其他事物会发生的这样一种联系。例如：每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。与关联不同，序列是一种纵向的联系。例如：今天银行调整利率，明天股市的变化。（5）预测：通过分类或估值得出模型，该模型用于对未知变量的预言。（6）偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。除此之外，在客户分析，运筹和企业资源的优化，异常检测，企业分析模型的管理的方面都有广泛使用价值。
2 数据仓库
2.1 数据仓库的特征
（1）面向主题（Subject Oriented）的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析，而不是组织机构的日常操作和事务处理。（2）集成（Integrated）的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。（3）时变（Time Variant）的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。（4）非易失（Nonvolatile）的数据集合。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，修改和删除操作很少，通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作：初始化载入和数据访问，因此其数据相对稳定，极少或根本不更新。

2.2 数据仓库的类型
数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围，一般可将数据仓库分为下列3种类型：企业数据仓库（EDW）、操作型数据库（ODS）和数据集市（Data Marts）。①企业数据仓库为通用数据仓库，它既含有大量详细的数据，也含有大量累赘的或聚集的数据，这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。②操作型数据库既可以被用来针对工作数据做决策支持，又可用做将数据加载到数据仓库时的过渡区域。与EDW相比，ODS是面向主题和面向综合的，易变的，仅含有目前的、详细的数据，不含有累计的、历史性的数据。③数据集市是为了特定的应用目的或应用范围，而从数据仓库中独立出来的一部分数据，也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。
2.3 数据仓库与传统数据库的比较
二者的联系既有联系又有区别。数据仓库的出现，并不是要取代数据库。目前，大部分数据仓库还是用关系数据库管理系统来管理的。可以说，数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较：
（1）出发点不同：数据库是面向事务的设计；数据仓库是面向主题设计的。（2）存储的数据不同：数据库一般存储在线交易数据；数据仓库存储的一般是历史数据。（3）设计规则不同：数据库设计是尽量避免冗余，一般采用符合范式的规则来设计；数据仓库在设计是有意引入冗余，采用反范式的方式来设计。（4）提供的功能不同：数据库是为捕获数据而设计，数据仓库是为分析数据而设计。（5）基本元素不同：数据库的基本元素是事实表，数据仓库的基本元素是维度表。（6）容量不同：数据库在基本容量上要比数据仓库小的多。（7）服务对象不同：数据库是为了高效的事务处理而设计的，服务对象为企业业务处理方面的工作人员；数据仓库是为了分析数据进行决策而设计的，服务对象为企业高层决策人员。
3 数据仓库与数据挖掘的关系
当然为了数据挖掘你也不必非得建立一个数据仓库，数据仓库不是必需的。建立一个巨大的数据仓库，把各个不同源的数据统一在一起，解决所有的数据冲突问题，然后把所有的数据导到一个数据仓库内，是一项巨大的工程，可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘，你可以把一个或几个事务数据库导到一个只读的数据库中，就把它当作数据集市，然后在他上面进行数据挖掘。

数据挖掘价值变现，靠谱嘛？

DinK — Mon, 06 Aug 2012 03:36:31 +0000

互联网行业一直都有热点，从SNS到微博到移动互联，再到数据挖掘，就像脚下的这片土地，永远不缺神奇。作为一名数据从业者，行业受到重视理应高兴才对，但过多热捧让我感到不安，这里不谈数据挖掘技术，只谈数据挖掘价值变现的一些困境。

一、数据挖掘的存在形式

数据挖掘是门技术，本身并不产生价值，实施数据挖掘后产生的结果才有商业价值，因此，在市场上目前以两种形式存在。一种是甲方公司的内部数据挖掘部门，比如凡客的数据中心，对业务部门产生的数据进行分析和挖掘，从而进行评估、优化、调节的谋略支持；一种是第三方的数据挖掘公司，比如缔元信、百分点，以适当的合理形式进行客户数据的回收，加以专业的数据挖掘技术，提供给客户独立公正的运营方面的咨询建议。不论以何种形式存在，一门技术的长久存在前提必须是提供商业价值，否则必遭市场的无情淘汰。

二、数据挖掘的价值变现难点

数据挖掘是数据库中的知识发现，从知识发现到知识应用再到价值评估是一条数据挖掘价值变现的过程，虽然我认可数据挖掘重要性，但事实上，这条变现之路，困难重重。

1，知识发现

知识发现是这条路的始端，也是这条路的基石，直接决定了最终价值的高度。挖掘的方法是通用的，难度不在挖掘技术，而在于实施人员对数据/业务的理解，在于数据的质量。实施人员必须清楚的知道数据回收的场景和原理，稍有沟通缺失，都会影响知识的质量度，因此这里的实施人员不能是学计算机的，不能是学统计的，更不能是学营销的，更像一个打杂的，可以独立于公司的管理、运营模式，可以独立于公司的绩效评价标准，游走在各部门之间，充分了解整个运营环节，因此这样的知识发现才是高效的。

2，知识应用

发现了知识，是骡子是马拉出来溜溜，因此需要将相关的知识发现交给业务部门进行运营使用。不管是以甲方公司还是乙方公司的形式存在，难点在于语言的翻译转发。数据挖掘的语言形式是概率形式，类如“连续三天内在站内搜索超过10次，浏览搜索结果相关页面20次以上的用户最终购买概率为42%”，因此需要实施人员深谙运营知识，将挖掘结果语言转化成运营结果语言，最终成为友好的商业运营智慧。应用的过程还需要及时跟踪、分析、调整，毕竟市场是多变的，分析与执行就像左脑和右脑，两者距离的远近，影响结果的优劣。更郁闷的是有了知识发现，无处知识应用，这在社交网络里更能体现。微博的热火热荼，催生了社交网络的数据挖掘，因为数据公开化，只要有技术就可以洞察到哪类用户是哪些品牌的潜在消费者这样的知识发现，但最终无法形成营销闭环（除了微博平台以外），至于原因不言而喻。

3，价值评估

数据挖掘的效果评估决定最终的话语和地位，从结果来看，如果结果有效，如何界定是知识有效还是执行有效；如果结果无效，如何界定是知识无效还是执行无效；如果知识有效，如何界定是通过挖掘发现还是已知发现。如果不能很清晰的界定，数据挖掘的存在价值都会大打折扣。业内曾经有个笑话，“通过我们海量数据发现，中国的15-20岁的男性网民最喜欢使用QQ即时通讯工具”，这样的知识发现虽然是个笑话，但在现实行业里是个不争的事实。数据挖掘的价值应当是显现的、直观的、令人信服的，不在于挖掘的技术多么高深，而在于整个体系的搭建和成果的展现，做的再好，看不到效果，等于无效。

以上三点就像三座大山，压在了数据挖掘的变现之路，让这条道路崎岖难行。

三、数据挖掘的展望

从人类发展来看，数据挖掘一直存在于现实生活中。二十四节气就是古代劳动人民通过日常记录而得到的知识发现，所以不存在趋势不趋势一说，只是信息化发展让数据的记录、处理、计算、应用和反馈更加快捷。因此数据挖掘的价值变现，一定是伴随着社会结构稳定、商业逻辑成熟的发展之路，且行且珍惜。

本文链接：http://www.itongji.cn/DataAnalysis/0I19522012.html

KDNuggets：数据挖掘/分析工具”的调查：R以30.7%的得票率荣登榜首

DinK — Sun, 17 Jun 2012 06:59:40 +0000

自从60年代主机进入学术界和企业界，统计分析就是人们熟知的应用之一。而统计领域广泛使用的R语言是诞生于 1980年左右的 S 语言的一个分支。 R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。

最初S语言的实现版本主要是S-PLUS。但S-PLUS是一个商业软件，相比之下开源的R语言更受欢迎，被人们誉为“统计界的Red Hat”。

今天，随着信息系统正面临大数据的爆炸式增长，大数据分析需求随之水涨船高，在这股大数据热潮中，开源软件取代商业软件成为舞台的明星，受到人们追捧。2012年，R语言在数据挖掘/分析和可视化应用领域的快速崛起标志着R已经为大数据做好准备。

在KDNuggets2012年做的“过去与十二个月你在实际项目中使用的数据挖掘/分析工具”的调查中，R以30.7%的得票率荣登榜首，超过微软Excel（29.8%）和Rapidminer（2010和2011年排名第一）。值得注意的是，今年排名前五名的数据挖掘工具中有四个是开源软件。此外R还在击败SQL和Java，在最受欢迎的数据挖掘应用编程语言排行榜中排名第一。

今天每个人都喜欢R，尤其是那些销售数据仓库和Hadoop大数据产品的厂商。无疑，开源是R语言大获成功的一个重要原因，R语言的开发得到了来自统计师和量化分析师社区的大力支持。

字母家谱

R与诞生于主机时代的SAS和SPSS的专有工具不同，类似Linux被称为Unix的开源版本，R语言大量借用了S语言的方法。

1976年John Chambers在贝尔实验室开发的S语言是为了替代昂贵的SPSS和SAS工具。如果说S是VAX和Unix小型机时代的产物，那么R则是PC和Linux时代的产物。

1996年新西兰奥克兰大学的两位统计学教授——Ross Ihaka和Robert Gentleman发明了R语言，这两位教授也是R开发团队的核心成员，值得注意的是S语言的发明者John Cambers也是R开发团队的成员，因为不难理解R语言的一些数据处理路径与S语言相同。

R可以看做是S的一种实现，Insightful公司开发的S-PLUS也是S的实现版本，2004年Insightful把S-PLUS授权给了朗讯科技，后来又被Tibco软件于2008年收购。

革命来临

与S和S-PLUS不同的是，R并不是象牙塔里炮制出的代码，而是一个由分析师和程序员构成的社区的产物，这个社区为处理各种数据集创建了超过2500个插件。

今天，根据Revolution Analytics的统计，R被全球超过200万个量化分析师采用。Revolution Analytics成立于2007年，并开发出了R的并行实现，该公司采用了开放内核的方式开发R，为开源软件包退工商业支持，同时扩展R环境，提升其在计算机集群上的表现，并将其与Hadoop集群对接。

迄今还没有公司将SPSS（2009年被IBM收购）的开源替代品PSPP商业化，但等PSPP进一步成熟，商业化是迟早的事。

2008年，在拿到英特尔资本的种子投资后，Revolution Analytics开始在R企业版中加入闭源扩展，该做法遭到了R社区的反对。从那以后，Revolution Analytics并行开发了R统计引擎，使之能更好地支持多核多线程处理器和服务器集群；增加了一个类NoSQL的格式——XDF，并增加了对原生SAS文件格式（以及向XDF格式的转换）的支持。

最近，Revolution Analytics进一步改良R的实现，使每个Hadoop集群的节点都能在本地运行R分析功能处理HDFS系统中的数据，并将计算结果汇总，这有些类似MapReduce对非结构化数据的操作。

平行宇宙

为了在与数据仓库领域竞争对手的角逐中占据上风，Netezza于2010年2月开源了Netezza软件栈。

Netezza是数据仓库一体机的制造商，基于高度定制化和并行化的PostgreSQL数据库。使用FPGA来提升其在x86集群上的性能表现。

Netezza开放了其软件开发环境，通过一组API允许SAS和R算法并行运行于其数据仓库一体机上。同时还为Java、C++、Fortan和Python等程序提供访问其数据仓库的接口。此外，Netezza通过FPGA，而不是SQL数据查询语言来提取数据仓库中的数据。

在Netezza开源7个月后，随着大数据商机的逐渐显现，IBM以17亿美元的高价收购了Netezza。

2010年10月，数据仓库厂商Teradata在其数据仓库产品中增加了数据库内分析组件——TeradataR。这相当于把Teradata的数据仓库挖掘工具变成了R控制台的一个插件，这意味着通过R程序能够调用Teradata数据库里的44种不同的分析功能。

Teradata拥抱R的方式是保留R控制台，在数据库中并行运行分析，而不是将数据提取到一个工作站然后在本地运行R。

Oracle加入

在R化的热潮中，连Oracle都不能免俗。今年二月，Oracle发布了高级分析（Advanced Analytics），为Oracle数据库和R分析引擎之间架起了桥梁。

Advanced Analytics是Oracle 11g R2 数据库的数据挖掘附件。当R程序员准备运行一个统计路径，他们可以在数据挖掘工具箱中调用与SQL等同的功能命令，来使用Oracle数据库。

如果没有对应的SQL功能，植入在各数据库节点的R引擎将运行R路径，汇总分析数据并作为答案返回到R控制台。

Oracle还为其大数据一体机发布了R Connector for Hadoop，是Cloudera CDH3 Hadoop环境的一个版本，运行在Oracle的Exa系列的x86集群中。该连接器允许R控制台与Oracle大数据一体机上的Hadoop的HDFS文件系统和NoSQL数据库对话。

文章来自IT经理网

分析以数据挖掘技术预测用户流失情况的方法

DinK — Fri, 25 May 2012 10:10:45 +0000

所有网络服务及在线游戏的硬伤是什么？也就是游戏开始头几分钟或几小时内出现的大量用户流失情况。已经有不少人通过多种方式探索这个问题的解决之道，其中多由界面的易用性和简洁性，免费试玩模式的有效性，难度曲线，以及新手教程质量等方面入手。这些都是公认的重要考虑因素。

而我们的目标是研究新用户为何早早退出游戏，并尝试预测哪些用户会提前离开。在此，我们以MMOPRG游戏《永恒之塔》为研究案例，但其研究结果也适用于多种服务和游戏类型。虽然这款游戏在调查期间是一款纯订阅游戏，并采用7天免费试玩至20级的模式，多数流失用户还不到付费阶段就已经离开游戏。我们主要研究的是促使用户离开的游戏内部因素。

AION(from aiongamers.com)

行为研究表明，休闲玩家的注意力很有限。他们可能今天离开游戏，明天甚至就想不起来自己曾安装并玩过这款游戏。如果玩家离开游戏，我们就得立即采取措施让他们返回游戏。

但究竟该如何区分那些只是有事暂时无法登录游戏的玩家和真正的休闲玩家？最理想的方式恐怕就是在玩家仍在玩游戏时，就提前预测他们离开游戏的可能性——这种预测甚至要早于他们产生离开游戏的念头。

我们的目标很现实——在新玩家登录游戏当天就预测他们离开的概率。我们将7天处于非活跃状态的玩家定义为流失用户，目的并不是等待7天结束，确认玩家不会重返游戏，而是在他们最后一天玩游戏时预测其流失可能性。

技术支持

我们已经掌握大量数据。所幸《永恒之塔》这款韩国网游拥有理想的记录系统，它几乎可以追踪玩家每一步操作，支持查询玩家前10级，或者10小时内的玩游戏数据，可以锁定50%以上的早期流失用户。

我们使用的是两个Dual Xeon E5630 blades，它们都运行MS SQL 2008R2，其中一者作为数据仓库使用，另一个作为MS Analysis Services。我们只使用标准的微软BI软件栈。

第1阶段：误认为自己无所不知

身为富有经验，并且经历100多次测试的游戏设计师，我确信自己的能力足以解答所有关于用户流失的问题。玩家若不知如何在游戏世界中进行超时空传送，他可能就会退出游戏。首个敌人带来的致命一击，也可能让他退出。《永恒之塔》拥有绝妙的视觉效果，技术也很过硬，但却并不是一款适合新玩家的游戏。

所以我就先扮演“普通玩家”，在游戏试玩期中体验了两个种族的不同职业，详细记录了游戏玩法中的问题，并初步假设以下因素可能导致用户流失：

*种族和职业。我认为这是最主要的因素，因为发挥辅助作用的祭司的游戏玩法与强大的法师截然不同，这会影响玩家的游戏乐趣。

*玩家是否尝试过俄罗斯运营商Innova代理的其他游戏？（Innova游戏使用的是同一个帐号）

*玩家在不同程度和职业中尝试过多少个角色？

*玩家在试玩期间每个等级以及总体游戏过程中的死亡情况。

*与其他玩家的组队情况（包括高级和低级玩家）。

*玩家接收到的邮件及加入公会情况（以此检测是否存在铁杆玩家所掌握的“小号”）。

*每个等级及整个过程中完成的任务。

*在战斗中使用的技能种类。

这个列表描述了许多可能导致玩家离开游戏的因素。

我们的第一个数据挖掘模型的理念很简单，就是将布尔型变量视为一个离开用户，它可以指出用户今天会离开游戏，还是继续在游戏中逗留一段时间：

Data Mining Lift Chart(from gamasutra)

以上图表底部直线是一个简单的随机猜测。上方飙升的线段命名为The Transcendent One，它代表未来情况。这两者间有一个波动线段，代表我们的数据挖掘模型。我们的线段越接近The One，就说明预测结果越准确。这个图表主要针对第7级用户，但对第2至9级的玩家来说并无差别。

不幸的是，从中可以看出，我们的首个模型就像是抛硬币看正反面来预测未来情况。所以我们需要抽取其他假设进行分析：

Data Mining Lift Chart (from gamasutra)

现在情况略有好转，但预测的准确性仅超过50％，误报率仍然达到了惊人的28％。

注：准确率越高，这个模型检测到的真实流失用户也就越多。误报率是指将某些玩家预测为流失用户，而实际上并非如此。

第1阶段结果：我所有的初步想法都错了。

第2阶段：发现自己完全是新手

第一个也是最简单的数据挖掘算法就是Naive Bayes（朴素贝叶斯分类器），它极具人性化并且通俗易懂。但它表明原先的假设参数无法与真实的流失用户对应。第二种方法是Decision Trees（决策树），它指出我的一些想法确实很管用，但并不足以最大化提升预测准确率。

数据挖掘算法知识：Naive Bayes在初步数据集分析以及指出参数之间关联性这方面作用很大，Decision Trees则擅长将数据集归纳为不同的子集，有利于区分流失用户及满意用户。这些方法都易于理解，但它们内部的数学原理及实用价值却极为不同。Neural Network（神经网络）本质上是一个能够计算复杂变量关系的黑盒，它可以产生更准确的预测结果，但却不易为开发者所理解。

我和《永恒之塔》团队在头脑风暴过程中讨论了新手玩家的类型，游戏行为以及其他特征。我们都知道自己的亲友初次进入游戏的过程，以及他们的感受。

这番讨论结果使我重新修订了影响新手玩家的一些游戏内部因素列表（游戏邦注：例如，玩家是否扩展了仓库大小，跳过了复活点，使用了加速移动卷轴？），以及衡量玩家在游戏中一般活动的想法。

我们使用了如下参数：

*每个等级的杀敌数

*每个等级所完成的任务

*每个等级的游戏时间（以分钟为单位）

此时我们也完全修正了ETL部分（包括数据提取、转换以及加载）的内容，我们的SQL工程师也制作了一个高级的SSIS游戏记录处理器，提升了可扩展性，有利于添加新游戏事件。记录系统的容量已达千兆字节，所以我们可以轻松添加新的假设命题。

我们载入和处理新数据，审核了数据挖掘模型，并分析了结果。为了让结果更为简洁明了，在此我只发布修正后的结果：

precision & recall per level(from gamasutra)

注：第9级的准确率异常高，这与调查时期的游戏活动有关，所以可以忽略这个数据。

在此阶段，我们的模型准确率大为提高——尤其是第2级至第4级，不过6到8级的准确率仍然很不乐观。这种不准确的数据几乎没有用处。

Decision Tree表明一般活动参数正是关键的预测考虑因素。在这种情况下，每级的游戏时间、每级杀敌数和每级完成任务等参数组成了我们预测模型的核心。其他参数对整体准确率的贡献率不足5%。另外，Decision Tree很简短，只有两三个分枝，这意味着它缺乏相关参数。我仍然无法理解为何这三个算法在不同等级的准确/召回率会如此不同。

第2阶段结果：我们通过一般活动参数取得了相当进展，虽然准确率仍然有待改进，但我们找到了正确的分析方法，即先使用Naive Bayes，之后再使用Decision Tree。

第3阶段：步入正轨

看到数据挖掘结果的准确率明显提升，我设置了三个发展向量，更多一般活动参数，更多游戏特定参数，以及更深入掌握微软BI工具。

经过对一般活动的试验之后，我们最终确定了以下关键因素：

*当前等级、之前等级及整体游戏时间

*每分钟杀敌数（包括当前/之前/整体等级情况）

*每分钟完任任务（同上）

*平均每天游戏时长

*玩游戏天数

*缺勤率（游戏邦注：这里指玩家在七天免费试玩期间缺席的天数）

这些参数极大提升了召回率（因此降低了误报率），Decision Tree最终开始尽情扩散出分枝。我们也看到不同数据挖掘算法针对所有等级的一致性，这表明预测过程已经趋于稳定，降低了随机性。Navie Byes在准确性上比Tree和Neural算法相差了足足10%。

新加入的个体参数实际上非常难以管理，手动分离自动攻击使用情况要涉及一些数学知识，SQL查询的第75百分位计算也是如此。但我们标准化了数据，因此可以对比不同的游戏职业，数据挖掘模型接受的是分类索引数据而非原始数据。标准化和索引化新个体参数使整体预测精确度又提升了3-4%。

注：在网络游戏中，角色要使用技能及能力进行攻击。自动攻击是最基本和自由的招式。资深玩家使用所有技能时他们的自动攻击比率就会较低，不过游戏及职业机制也会深刻影响这一参数。在《永恒之塔》中，法师这一比率的中间值是5%，而战士则是70%，即使是在同个职业中，标准偏差也会很高。

下一步就是参考《Data Mining with Microsoft SQL Server 2008》这本书，从中查找使用分析服务的决窍。这本书很有助于解释Decision Tree微调的复杂原理，它还让我认识到了正确数据离散化的重要性。

在以上例子中，我们通过手动操作实现了自动攻击参数的离散化。我刚开始处理这些数据时，就发现SQL Server的自动离散化是可以并且应该进行微调。手动调整数据会极大影响Tree的形状和精确度（对其他模型也同样会有影响，但是对Tree的影响更明显）。

我花了一整周时间挨个调整9个挖掘结构的30多个维度（每个游戏等级有一个结构，一共有9个等级）。从这一试验中可以发现一些有趣的模式，并且可轻松将7级和8级之间的精确度提升2%。例如，杀敌数是20，整体游戏时长是12，而每级游戏时长是7。

微调之后的结果极大减少了误报率，将Tree的数据提升至与Neural Network相当的水平：

precision & recall per level (from gamasutra)

第3阶段结果：我们终于得到了一些合适的数字，也搜集了大量关于玩家的有趣数据。

第4阶段：获得成功

坦白说，我认为我们已经到达到准确预测的极限。新参数和假设并没有再度提升精确度，这些模型已经稳定。78%的精确度 VS 16%的误报率已经足以展开预测流失用户的工作。

以免费订阅或高价值道具刺激他们重返游戏并不一定奏效（因为在俄罗斯这些赠品也支带来一些增值税），但向他们发个邮件总不会有什么问题吧？

当我们的数据挖掘项目进入第三个月时，我们发现数据有点过时了，因为那时的游戏已经更新了数次补丁。

重新载入这三个月所有更新、更大的数据集时，我发现了梯度图表发生了一些变化。虽然精确度/召回率仍然保持原状，但数据表现略有差别。

需要再次重新编写ETL程序，此时每个等级处理时间不足1分钟，所以增加一个数据集的等待时间是我们尚可接受的5分钟。但不幸的是，所以手动微调工作都要重做，不过从以下图表可以看出，增加数据集后，我们极大提升了模型的有效性！

precision & recall per level(from gamasutra)

但针对第1级的情况，我们确实无能为力。正如网络分析大师Avinash Kaushik所言，“我来，我吐，我闪”（I came, I puked, I left）。这些玩家创建了自己的角色之后就退出了游戏，我们针对他们的行动记录也非常之少。

以上所有数字均出自历史数据以及我们挖掘模型的一个学习数据集。但我是一个非常多疑的人，我还想要战斗测试结果。所以我们采用了新玩家（今天才注册的用户）数据，将其引进预测模型，并保存结果。7天之后，我们对比了一周前的预测流失用户以及他们真实的行为，获得了如下结果：

prediciton results(from gamasutra)

结果

我们终于成功实现了预测玩家是否将退出游戏的这一最初目标。看到如此之高的精确度/召回率，我们确信自己的积极和专注获得了回报。

但我们是否实现了第二个目标，判断玩家为何离开？没有。对我来说，这也是最有趣的结果——我们已经知道玩家可能离开的概率，却仍然不晓得他们为何离去。我在本文开篇列出了可能导致玩家早早离场的假设因素：

*种族和职业

*玩家是否尝试过其他的Innova游戏（我们用同一个帐号）

*玩家尝试过的种族和职业角色数量

*在免费试玩期间每级和整体死亡情况

*以及其他多种因素

我们测试了60多种个体及游戏特定参数。发现没有一者是导致用户离开的主因！也就是说，我们没有发现阻碍用户享受游戏乐趣的主要因素。

这个调查中的关键参数比较适用于试玩游戏首天的所获等级的情况，但低于考查7级游戏情况的需求，这相当于3个小时的游戏时间，意味着此时的用户流失率极高。另一批预测流失率的参数主要与整体活动有关：

*每级杀敌数

*每级完成任务

*每级游戏时长（分钟）

*每天游戏时长

总结

我们历时三个月，研究了两本书，并投入大量精力和热情从头创建了这个数据挖掘项目。团队中没有人曾有这方面经验。我们为Innova被动的分析系统中制造了一个富有前瞻性的预测工具。我们可以及时接收潜在的流失用户信息，并给予他们一些极富个性化和关联性的决窍以提升游戏体验。

这个项目是针对《永恒之塔》这款MMOPRG而创建，但它也适用于其他游戏类型，甚至是一般的网络服务。

这是我们的首个数据挖掘项目，结束时间是2011年9月，并已根据我们现有的预测经验，聚类及分散分析，以及对用户群体的深入了解进行了重新编写，所以这个数据挖掘历程仍远未结束。

via：gamerboom

DataSift：Twitter情感趋势反映Facebook IPO走势

iLoveI — Mon, 21 May 2012 09:51:19 +0000

股价的走势历来都让人琢磨不透。但是Facebook IPO当天，Twitter却神奇般的预测到了其股价变动的每一个趋势。

社交媒体监测平台DataSift监测了Facebook IPO当天Twitter上的情感倾向。即人们在Twitter上发布的大量谈论facebook IPO的Tweet中会包含一些情感倾向，比如正面的或者负面的。结论显示，Twitter上每一次情感倾向的转向都会影响Facebook股价的波动，延迟情况只有几分钟到二十多分钟。

DataSift根据58665位用户产生的95019条Tweet互动绘制了一幅图，很清晰的反映了两者的对应关系——基本上是呈正相关。

比如，Facebook 开盘前Twitter上的情感逐渐转向负面，25分钟之后,Facebook的股价便开始下跌。而当Twitter上的情感转向正面时，Facebook股价在8分钟之后也开始了回弹。最后，当股市接近收盘时，Twitter上的情感转向负面，10分钟后facebook的股价又开始下跌。

当然，就凭DataSift的这幅图还远不能揭示Twitter和股价的关系，也不能证明Twitter会对股价产生影响。不过国外和国内确实已经开始了对社交媒体进行情感语义分析，并试图由此发现另外一条预测股价趋势的方法。对于社交媒体和股票感兴趣的创业者可以研究一下。

via:36氪

从5W2H数据分析方法论谈用户购买行为分析

iLoveI — Tue, 15 May 2012 14:33:42 +0000

看了小蚊子的书，里面有一个例子让我印象很深刻：

数据分析员对公司的某个业务进行了专项研究。每当完成专题分析向老板汇报分析结果是，老板首先问：“你的分析方法论是什么？将给我听听，我看分析报告就首先看你的分析方法论，如果分析方法论不正确或者不合理，那后面的分析结果也就没有必要看了，在一个不正确或者不合理的方法论的指导下，得到的分析结果是不可能正确的”。

数据分析方法论主要用于指导数据分析师进行一个完整的数据分析，更多的是指数据分析的思路。从宏观角度指导如何进行数据分析，也就是说它是一个数据分析的前期规划，指导后期数据分析工作的开展。数据分析法则是具体的分析方法，比如对比分析，交叉分析，相关分析，回归分析，聚类分析则是具体的数据分析法。数据分析法主要是从微观的角度指导如何进行数据分析。

今天说一个5W2H分析法

5W2H分析法是以五个W开头的英语单词和两个H开头的英语单词进行提问，从回答中发现解决问题的线索，即Why，What，Who，When，Where，How，How much，这就是5W2H的分析法构架。

其实这个方法在我们做任何事时都是可以使用的。他可以弥补我们考虑问题时的疏漏。

比如使用5W2H分析法来分析网游用户的购买行为。

在确定使用5W2H分析法后，根据分析框架中的这些问题形成可量化的指标进行衡量和评价，例如月均购买次数、人均购买量，再次购买平均间隔时长等。

在我们确定了上述的方向和方法后，下一步才是使用具体的数据分析法，并且我们要结合数据进行分析。

事实上，每个方面都需要进行细化和分析，甚至要细化到每一条具体的购买记录或者充值记录，所谓的宏观的数据指标我们只能大概清楚了解问题，然而解决问题就必须细化到每个具体的数据点。真正的数据价值也就在于此，永远停留在表层的宏观数据是不能创造更多的知识和价值，数据挖掘为什么说是挖掘，挖掘的含义就在于，数据分析人员穿过了表层的宏观数据，挖掘每条记录背后的秘密。

所有的宏观数据，基本上每一个DBA都能给的出来，但是同样利用数据，分析人员通过挖掘技术和分析方法论的指导渗透到每条数据，依据需求给出数据的另一面。这就是在微观层面上数据的价值，而这也是数据挖掘应用在数据上的价值，尤其是当我们以后面临big data ，这种方式不仅较少了我们读取文件，分析文件的时间，有效分析方法论，有效分析手段，依据需求，模块化的得出某些需求下的具体结论。

Via:http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/12/02/2272053.html

SPSS Clementines 预测分析模型—-啤酒+尿片故事的实现机理

iLoveI — Tue, 15 May 2012 06:22:22 +0000

SPSS Clenmentines提供众多的预测模型，这使得它们可以应用在多种商业领域中：

如超市商品如何摆放可以提高销量；

分析商场营销的打折方案，以制定新的更为有效的方案；

保险公司分析以往的理赔案例，以推出新的保险品种等等，具有很强的商业价值。

超市典型案例

如何摆放超市的商品引导消费者购物从而提高销量，这对大型连锁超市来说是一个现实的营销问题。关联规则模型自它诞生之时为此类问题提供了一种科学的解决方法。该模型利用数据挖掘的技术，在海量数据中依据该模型的独特算法发现数据内在的规律性联系，进而提供具有洞察力的分析解决方案。通过一则超市销售商品的案例，利用“关联规则模型”，来分析商品交易流水数据，以其发现合理的商品摆放规则，来帮助提高销量。

关联规则简介

关联规则的定义

关联规则表示不同数据项目在同一事件中出现的相关性，就是从大量数据中挖掘出关联规则。有关数据挖掘关联规则的具体理论依据这里不做详细讲解，大家可以参看韩家炜的数据挖掘概论。为了更直观的理解关联规则，我们首先来看下面的场景。

一个市场分析人员经常要考虑这样一个问题：哪些商品是频繁被顾客同时购买的？

顾客1：牛奶+面包+谷类

顾客2：牛奶+面包+糖+鸡蛋

顾客3：牛奶+面包+黄油

顾客4：糖+鸡蛋

以上的情景类似于当年沃尔玛做的市场调查：啤酒+尿片摆放在同一个货架上，销售业绩激增的著名关联规则应用。

市场分析员分析顾客购买商品的场景，顾客购买面包同时也会购买牛奶的购物模式就可用以下的关联规则来描述：

面包 => 牛奶 [ 支持度 =2%, 置信度 =60%] （式 1）

式 1中面包是规则前项（Antecedent），牛奶是规则后项 (Consequent)。实例数（Instances）表示所有购买记录中包含面包的记录的数量。

支持度（Support）表示购买面包的记录数占所有的购买记录数的百分比。

规则支持度（Rule Support）表示同时购买面包和牛奶的记录数占所有的购买记录数的百分比。

置信度（confidence）表示同时购买面包和牛奶的记录数占购买面包记录数的百分比。

提升（Lift）表示置信度与已知购买牛奶的百分比的比值，提升大于 1 的规则才是有意义的。

关联规则 式 1的支持度 2% 意味着，所分析的记录中的 2% 购买了面包。置信度 60% 表明，购买面包的顾客中的 60% 也购买了牛奶。如果关联满足最小支持度阈值和最小置信度阈值，就说关联规则是有意义的。这些阈值可以由用户或领域专家设定。就顾客购物而言，根据以往的购买记录，找出满足最小支持度阈值和最小置信度阈值的关联规则，就找到顾客经常同时购买的商品。

此处进行关联规则应用可以使用两种数据格式：1，交易数据格式，2，表格格式。

1.交易格式

CustomerID ITEM

1 bread

2 jam

3 juice

3 jam

4 milk

2.表格格式

CustomerID bread jam juice milk

1 T F F F

2 F T F F

3 F T T F

4 F F F T

关联规则挖掘算法

Aprior、Carma 和序列节点是常用的关联规则挖掘算法，它们都可以使用交易格式和表格格式数据进行挖掘处理。其中 Aprior 算法，处理速度快，对包含的规则数没有限制，是一种最有影响的挖掘关联规则的方法。

本次试验将使用SPSS Clementine11 自带的安装目录下的 Demos 文件夹下的 BASKETS1n 数据。希望分析出哪些商品会和啤酒一起购买，以此来合理安排商品的摆放，进而提高啤酒的销量。

此数据属于表格格式数据，每条记录表示顾客的一次购物。记录的字段包括卡号、顾客基本信息、付款方式和商品名称（每个商品一个字段 , 该商品字段值为 T, 表示购买该商品 , 值为 F 表示未购买，具体可参考表 2, 表格格式数据）。商品名称都有 fruitveg（水果蔬菜），freshmeat（生鲜肉），dairy（奶制品），cannedveg（罐装蔬菜），cannedmeat（罐装肉），fozenmeal（冻肉），beer（啤酒）, wine（酒类），softdrink（软饮），fish（鱼）, confectionery（甜食）。

首先打开Clementine ，会出现一张空白的流界面，这时用户可以在里面创建自己的流。

第一步，为流添加一个数据节点，这里选择 Clementine自带的 Demo 数据。将界面下方选项卡的“数据源”选项中的“可变文件”拖放到空白界面中，双击打开，在文件选项卡中选择 Clementine 自带的 Demo 数据BASKETS1n，如图所示。

点击确定按钮，这时就成功的创建了数据节点。

第二步，为流添加类型节点，类型节点是显示和设置数据每个字段的类型、格式和角色。从界面下方的“字段选项”卡中，将“类型”节点拖放到界面中，接着将数据节点和类型节点连接起来，或者直接在“字段选项”卡中双击“类型”节点，将两者连接起来。这时双击打开“类型”节点，此时“类型”节点中显示了数据的字段和其类型，点击“类型”节点界面上的“读取值”按钮，这时会将数据节点中的数据读取过来。如下图所示。

接着可以为参与建模的数据字段设置角色，角色分“输入”，“目标”，“两者”和“无”。输入表示该字段可供建模使用，目标表示该字段为建模的预测目标，两者表示该字段为布尔型的输入字段，无表示该字段不参与建模。Apriori 节点需要一个或多个输入字段和一个或多个目标字段，输入字段和输出字段必须是符号型字段。在此可以选择一个或多个字段为目标字段，表明该模型的预测目标字段；对于 Apriori 建模节点，也可以不设置目标字段，则需要在建模节点中设置“后项”。

第三步，为流添加 过滤节点，将不参与的字段排除在外。该步骤为可选步骤。从“字段选项”卡中选择“过滤”节点，并将其拖入到界面中，将“过滤”节点加入到流中。双击打开“过滤”节点，在不参与建模字段的箭头上点击，会出现一个红叉，表示该字段被过滤掉了，不参与建模，如图所示。

对于一些与建模关系不大的节点可以将其过滤掉，比如卡号、性别、家乡和年龄字段。

第四步，有了这些前期的准备过程，接下来就可以开始创建关联规则模型节点了，在此之前，让我们先添加一个图形节点—— 网络节点，建立此节点的目的是为了让用户首先可以直观的看到商品之间的关联程度，有一个感性认识。选择“图形”选项卡中的“网络”节点，将此拖入界面，将“网络”节点加入流中，与“过滤”节点连接起来。双击打开网络节点，在“字段”列表中选择添加字段，可以将所有的商品字段添加进来；也可以点击“仅显示真值标志”，将只显示那些“两者”的字段，如图所示。

点击“选项”卡，进入选项设置，用户可以在此设置链接数量的显示范围，不显示一些链接数量低的链接，如图所示。

点击“运行”按钮，这时会生成一个商品之间关联程度（链接数量）的网络图，用户可以在下方的调节杆上调节链接数量的显示范围。

上图中，线的粗细和深浅代表联系的强弱，可以直观的看到 beer 和 frozenmeat，cannedeg 联系程度比较强。

第五步，添加“建模”节点到流中，开始关联规则模型设置和使用的篇章。首先点击界面下方“建模”选项卡，再点击 Apriori，节点拖放到界面中，连接该节点到过滤节点上，或者双击 Apriori 节点。接着设置 Apriori 节点的参数，建立关联规则模型。双击打开 Apriori 节点，如下图所示。

该“字段”选项卡，是设置参与建模的字段和目标字段的，可以看到其中包括两个选项，“使用类型节点设置”和“使用定制设置”，这里将为用户分别呈现两种选项的使用方法。这里无论选择哪个选项，都需要将市场分析员重点关注的商品包括在其中，其他商品可以不包括。

如果用户选择“使用定制设置”选项，则需要将啤酒设置在“后项”列表中，将其他重点关注的商品设置在“前项”列表中，如下图所示。

这里，分区允许您使用指定字段将数据分割为几个不同的样本，分别用于模型构建过程中的训练、测试和验证阶段。如果设置了“分区”，除了在此选择分区字段外，还需要在“模型”选项卡中，勾上“使用分区数据”的选择框。关于“分区”的概念、作用和使用方法，本文不做详细介绍。

除此，“使用事务处理格式”选择框，是针对于事务性数据的，如果数据为交易格式，需要勾上此选择框，但本示例的数据为表格格式，故无需选择。

设置好了字段后，点击“模型”选项卡，进入模型设置。如下图所示。

用户可以在“模型名称”处为本模型设置一个名字，如果想使用分区功能，则需要勾上“使用分区数据”选项。

用户为规则模型设置一个 最低条件支持度，那么模型将从所有规则中选择那些为真，并且其对应的记录的百分比大于此值的规则。如果您获得的规则适用于非常小的数据子集，请尝试增加此设置。

接着，用户需要为模型设置一个 最小规则置信度，表明正确预测的百分比。置信度低于指定标准的规则将被放弃。如果您获得的规则太多，请尝试增加此设置。如果您获得的规则太少（甚至根本无法获得规则），请尝试降低此设置。

用户还可以为任何规则指定“最大前项数”。这是一种用来限制规则复杂性的方式。如果规则太复杂或者太具体，请尝试降低此设置。

对于“仅包含标志变量的真值”选项，如果对于表格格式的数据选择了此选项，则在生成的规则中只会出现真值。这样使得规则更容易理解。该选项不适用于事务格式的数据。

为了提高建模性能，设置了“优化”选项供用户选择。选择“速度”可指示算法从不使用磁盘溢出，以便提高性能。选择“内存”可指示算法在合适的时候，以牺牲某些速度为代价使用磁盘溢出。

接下来，进入“专家”选项卡，对于一般用户，则选择“简单”选项；而对于高级用户，则可以通过此页面进行微调，如下图所示。

此时，我们已经创建好了关联规则模型的整个流，点击工具栏的绿色箭头，运行该流，会生成一个“模型”节点，该节点里包含了模型运行结果。整个运行后的流图，如下图所示。

第六步，在得到了运行结果后，我们双击打开生成的“模型”节点，点击“显示 / 隐藏标准菜单”下拉框，选择“显示所有”，结果如下图所示。

从结果可以看出，通过关联规则模型挖掘出了三个规则，分别是规则一，购买了冻肉（frozenmeal）和罐装蔬菜（cannedveg）的顾客都会购买啤酒（beer）；其中，第一列代表结果，而下一列代表条件，后面的列包含规则信息，如置信度、支持度和提升等。

购买了冻肉和罐装蔬菜的顾客会购买啤酒，此规则中购买了冻肉和罐装蔬菜的记录有 173 条，占 17.3%。而在购买了冻肉和罐装蔬菜的顾客中会有 84.393% 的顾客会购买啤酒，并且提升为 2.88，表明此规则的相关性很强，部署能力和置信度类似，可以不考虑。通过对规则信息的分析和了解，建议将置信度和提升作为选择规则的标准，因为置信度能反映出规则预测的准确程度，提升值越大，规则的相关性越强。据此，可以将规则一作为分析结果。

结论

因此可以将啤酒和冻肉、罐装蔬菜放在一起销售，这也正好和前面的网络节点图的显示相一致。

有了以上的方法和算法，我们可以解决诸如游戏商城内的道具礼包销售策略制定，橱窗道具位置摆放的问题，原本粗放的分析方式单一的通过销量和排行来制定IB策略和商城策略是不能真实反应用户的需求和心理。

Via:http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/08/25/2153795.html

零售业如何通过数据挖掘VIP顾客的价值(一)

DinK — Mon, 14 May 2012 17:02:33 +0000

会员顾客重要吗？当然重要，看看你身边的零售业或零售品牌们，基本是无一不会员制。你再仔细看看你会发现有的企业只是在模仿，而有的却是在经营会员制。因为大家都把会员制当成稳定销售来源的一种重要渠道了。大家都在攫取顾客的销售价值，而很少有企业通过数据分析去挖掘顾客的附加价值！

我把会员顾客的价值分为销售价值和附加价值。销售价值顾名思义就是会员可以带来的相对稳定的顾客群和稳定的销售额的价值，附加价值就是通过对会员的购买记录进行分析从而创造差异化的管理以及根据分析结果指导决策的价值。本文不谈策略，只谈零售行业如何通过数据分析挖掘会员顾客的价值。

在做会员数据分析之前，有一项非常重要的工作要做，那就是数据清洗。因为会员销售记录中有不少是有问题的数据记录。目前所有的POS和CRM系统都不提供数据清洗的功能。一般来讲有问题的数据体现在两个方面：连续消费的卡（几乎每天都有消费记录，这种卡很可能是网络卡或者是卡在店员手中），单次消费金额异常的卡（每次消费金额都很大，超出普通消费者的购买习惯。这种卡很可能是团购卡或网购卡）。这两种消费应该都不是正常会员的消费数据，并且有时它会左右分析结论，所以要在正式的数据分析之前剔除掉。

一、会员群体的数据分析

会员群体的数据分析，包括两个方面：会员群体基本信息的分析和会员消费价值的分析。

会员基本信息的分析包括会员的性别、年龄段、地域、职业、收入、开卡地属性等。这部分分析主要是看顾客群是否和公司的整体策略相吻合，有无变化的趋势，是否需要调整公司策略等。需要注意的是公司策略变化会影响数据规律的变化，比如调整商品结构或者提高开新卡的条件等。

下面是对某化妆品品牌VIP顾客的部分分析报告：

针对会员顾客消费价值的分析我把它分为三个方面：财富值、消费力和附加值。会员顾客就像我们的个人财富一样，需要我们倍加珍视和呵护。我们不但要分析他们的消费力，还需要挖掘他们的附加值，以便更好的服务于他们。请见下图：

有关财富值中的开卡率等于新会员卡数除以成交顾客数，这项指标和公司的开卡策略有莫大的关系。开卡率太高和太低都有问题，开卡率太高日后维护成本会增加，开卡率太低不利于财富值的增加。不同的企业会有不同的开卡率，这个值需要企业不断地分析和调整策略，来达到一个平衡。一个企业的会员总数会不断地累积变大，其中必然会产生很多没有价值的会员卡，如果不加以区分会浪费企业的管理资源，所以很多企业提出了有效VIP卡的概念。零售品牌一般定义为滚动12个月内有消费或达到指定的消费金额的顾客为有效顾客，对于零售百货和超市的时间点可以相应修改为6个月和3个月。

和有效VIP卡相对应的是附加值中的流失率，如果一个零售品牌2010年6月底的有效VIP卡为6万张，而截止到2011年6月底有4万个顾客回来消费过，那12个月内的流失率就是33%。这个流失率是一个滚动概念，每个月都可以进行滚动分析，需要注意的是滚动的时间段务必统一。

回购频率是指在一段时间内顾客平均回来购买的次数，而平均回头购买天数是指顾客平均多少天会来购买一次（注意这是回来购买而不是只是回来，因为回来而没有购买的数据没办法被统计，未来的科技也许会支持这个指标的分析）。这两个指标是相辅相成的，每个零售企业都希望自己的会员顾客经常回来，最好是天天回头，实际上这些要求都是不现实。所以你会见到很多企业的促销员天天去骚扰顾客，最后顾客不堪骚扰而离去。对于一个企业来说天天回头是不现实的，但是我们完全可以一步一步的提高。下图是一个零售企业的这两个指标图（虚拟数据），希望对大家有所启示：

如何利用这张图？企业需要制定对应的策略来逐步提高这两项指标，比如加强沟通，注意沟通技巧，改变促销活动频率等。沟通频率需要和平均购买天数一致，绝对不能随性。大家还可以留意一下大型超市的促销期的长度，有的是10天，有的是12天，还有的是15天，这个值是和上面两个指标相关联的；

二、会员个体的数据分析

会员个体数据的分析指标和群体分析指标大部分是一致的，也包括消费力和附加值的分析。只是我们更多把分析体现在个体差异和群体分类上。找到个体和群体的差异，制定对应的销售策略。下图是某零售百货部分VIP会员的四象限分级管理图（X轴代表顾客的年回购频率即每年回头购买的次数，越往右代表频率越高。Y轴是表示顾客每次回头购买的平均消费金额，越往上单次消费金额就越高。红色十字线是平均值线）。

如何解读这个图？

1. 一象限是黄金顾客，回购频率和平均购买金额都是高于平均值的，二和四象限是潜力顾客；

2. 一象限一般不需要特别的沟通和维护，他们基本上是公司最忠实的顾客，二象限的顾客需要特别加强沟通频率，四象限的顾客也不需要特别沟通他们回店消费，者是，但是需要店铺内工作做足，提高客单价；

3. 在资源紧张的情况下三象限不需要特别维护，保持不流失的原则沟通即可。

未来的针对会员个体的数据分析方向应该是通过对个体的数据研究来指导企业人性化服务上面，需要我们能够比会员更了解他们自己。那时当顾客走进你的店铺的时候，店员的手上就已经拿到该顾客的购买习惯和偏好了，并且根据顾客的喜好也已经设计了好几套推荐方案。当你脱口而出顾客对服装款式和颜色的喜好时，顾客一定会被你折服的！

备注：本文发表于《客户世界》2011年第八期！

转自：数据化管理博客地址： http://chemyhuang.blog.163.com/

CIO：驯服大数据的七种武器

iLoveI — Wed, 25 Apr 2012 09:18:51 +0000

本文将介绍七种能帮你驯服Hadoop的顶级汇报、分析、可视化、集成和开发工具

随着泰国洪水抬高的硬盘价格逐渐回落到正常水平，数据存储容量的增长速度有望重新开始飙升。这将让风头盖过商业智能的“大数据”应用更加火爆，上至白宫下至沃尔玛都在使用Hadoop、NoSQL数据库和廉价通用服务器的组合进行低成本的大数据分析，不过虽然大数据分析的软硬件成本在降低，但是为数十台大数据服务器编写应用依然比传统SQL数据库来得复杂。而且Hadoop任务是用Java编写的，这进一步增加了复杂性。目前已经有很多大数据工具能够帮助人们驾驭大数据的分布式计算马力，这些工具大多也能与NoSQL数据库一起工作，这与传统数据库相比，NoSQL数据库要灵活得多。

面对大数据，最大的挑战也许来自对数据的理解和提出正确的分析命题/问题，这远比让你的Hadoop任务运行得更快有意义。所以以下列举的这些工具也只是大数据的”器“，而非”道“。

一、Jaspersoft BI Suite

Jaspersoft是从列数据库生成PDF报告的最好的开源软件。JasperReport正跳上大数据的班车，在大数据和其报告生成软件之间增加了一个软件层。JasperReports服务器目前提供软件用于从许多主流存储平台读取数据，包括MongoDB，Cassandra、Redis、Riak、CouchDB和Neo4j。Hadoop自然也不会缺席，JasperReports向HBase提供了一个Hive Connector。但是Jaspersoft的大数据整合工作开始不久，还没有实现完全的集成，例如可视化查询设计工具还不能跟Cassandra的CQL对接，你需要手动输入。

二、Pentaho Business Analytics

Pentaho也是以报告生成引擎起步的软件平台，与Jaspersoft的策略类似，也是通过增加新的数据源来进入大数据市场。你可以讲Pentaho的工具与大多数流行的NoSQL数据库如MongoDB和Cassandra挂接起来。当连接上数据库后，你就能拖放数据库列到窗口和报告界面，就像是用来自SQL数据库的信息一样。

Pentaho还提供软件用于从Hadoop集群中抽取HDFS文件数据和HBase数据。其中最新吸引人的工具要数图形编程界面Kettle，也称Pentaho Data Integration。

三、Karmasphere Studio and Analyst

并非所有大数据工具都从报告工具开始。Karmasphere Studio就是基于Eclipse开发的一组插件。它是一个专业化的IDE集成开发环境，可以让Hadoop任务的创建和运行更加容易。

四、Talend Open Studio

Talend也提供了一个基于Eclipse的IDE，用于串联Hadoop的数据处理任务。Talend的工具可用于数据集成、数据质量和数据管理工作，同时为这些工作准备了相应的子程序。

Talend Studio允许你通过向模板拖拽建立任务，例如获取RSS的feeds。Talend的TalendForge是一些列的开源扩展，可以与该公司的其他软件搭配工作。大多数工具看上去都是库过滤器，用于将Talend的软件与其他主流厂商如Salesforce.com和SugarCRM的产品进行连接。你可以从这些系统读取数据到到你自己的项目中，这简化了集成工作。

五、Skytree Server

并非所有的工具都被设计用来简化代码与虚拟机制的串联。Skytree提供了一个功能群组，提供了更加复杂的机器学习（Machine-learning）算法。你只需要将正确的命令输入正确的命令行。

六、Tableau 桌面和服务器版

Tableau桌面版是一个可视化工具，能让你更直观地审视数据，你还能抽离数据从不同角度观察，你还能降其他数据混合进来获得新的结果。Tableau在几个版本前就开始拥抱Hadoop，现在你能想处理其他数据一样处理Hadoop的数据。Tableau通过Hive来结构化查询，然后将尽可能多的数据缓存在内存里以实现交互。其他的报告工具都是离线生成报告，而Tableau洗完功能提供一种交互机制，这样你就能不断分割数据。缓存能够部分解决Hadoop集群的延迟问题。

七、Splunk

Splunk与上述工具有所不同，它并不是一个纯粹的报告生成工具或AI路径的集合，虽然它在很大程度上也能实现这些功能。Splunk为你的海量数据创建一个索引，将其整理成可以搜索的链接，其方式就好像这些数据是一本书或者文本块。虽然数据库也内建有指标，但是Splunk的索引方式更像是文本搜索处理。

Splunk的索引功能非常灵活，可以兼容很多数据源，包括日志、配置文件、消息等，基本上所有应用产生的文本数据它都能”吃“下去。Splunk还有很多解决方案套装出售，其中包括监控微软Exchange服务器以及政策web攻击。

Splunk围绕索引抽取文本串和搜索、提供报警和报告功能。你可以敲入重要文章的URL或者IP地址。Splunk会根据数据中的时间戳将结果以时间轴的方式展示出来。这只是一个简单的应用，但如果你在数据Feed中找到的正确的指针，Splunk将非常强大。Splunk非常适合处理日志文件。

Splunk的一个新工具Shep，目前正在Beta内测，提供Hadoop和Splunk之间的双向集成，可以在两个系统间交换数据，你还可以从Hadoop中查询Splunk的数据。

Via CIO 文章：IT经理网

Forbes：大数据的大谎言

iLoveI — Mon, 23 Apr 2012 01:30:32 +0000

【编者按：私有云、大数据、NoSQL是目前IT业最火爆但争议也最多的“大生词的代表，这些名词以因过于通俗、简洁、模糊而让很多业内顶级技术专家心生无名怒火，”我这辈子见过的最愚蠢的说法“、”营销人员的垃圾词汇“等等经常见诸报端。近日美国福布斯杂志发表了一篇Irfan Khan的署名文章，“The Big Lie About Big Data”，将业界对”大生词“的批判推向一个高潮。Khan的文章的标题很吓人，但其实并不是为了否定大数据的概念，而是针对日前甚嚣尘上的”大数据危机论”进行了批判，认为企业通过改进计算架构，已经完全能够驾驭大数据并从中获益。】

作者：Irfan Khan SAP Sybase公司全球CTO，负责SAP公司全球的数据库战略方向

天又一次塌下来了。这一次是“大数据”让IT部门如临大敌。但是就像“世界末日”和“外星人”一样，“大数据”是虚构的，是一个“大谎言”。

正如街谈巷议的传闻一样，不管你走到哪里，关于“大数据”的讨论无处不在。在Google搜索这个词组，搜索结果超过13亿条。它甚至在维基百科拥有专门的条目。数据泛滥导致很多人得出结论：企业将不堪重负。这并不是说企业内部的信息量不会增长。相反地，企业内部信息量也难逃增长的命运。因为，大数据一直是个难题。

尽管不断有人声称，数据洪流将导致厄运来临，但IT行业却始终能够通过改进计算基础架构，使它们速度更快、容量更大、价格更便宜、体积更小巧，从而让挥之不去的信息“大决战”预言不攻自破。

今天，通过使用列式数据库分析架构，组织机构可以不必过度对“大数据”带来的焦虑，相反，还能够让“大数据”更好为企业运营服务。在列式数据库中，用户可以随时调用和分析大数据集，即使对诸如非结构化数据等各种数据类型的大数据集亦是如此。它们不仅随时可用，而且执行速度更快，还能根据工作要求，更方便地扩展，从而为尽可能多的用户服务，涵盖尽可能多的数据。

这种做法其实就是挖掘组织机构内外部的“大数据”，并提取有价值的部分供企业使用。它的目的是让组织机构更灵活、更具竞争力，提高组织机构的盈利能力。

对于部署一个分析数据仓库而言，最重要的步骤之一就是找到质量合格的数据。从数据净化到采用数据管理总策略——用于确保数据质量的技术已经成熟。获取最优质数据时还要对其进行内部审核。

●数据延迟：需考虑组织内部数据延迟的三个方面：数据发生时机、事件延续时间、决策所需时间。

●数据关联：与商业用户合作确定数据的前后关系，并就使用中的多个数据集建立相互联系，同时还需要考虑数据增长率以及重复的来源。

●自服务：确定高级用户如何在不影响IT或其他资源的情况下，对用于查询的数据实施控制。

●首席数据官(Chief Data Officer)：指定一名高级职员担任首席数据官的职务，使其能够在维持组织治理的同时保证数据的可操作性。

数据质量的重要性再怎么强调也不为过。以comScore为例，作为一家为电子商务市场提供分析服务和解决方案的云计算公司，该公司从创立伊始就意识到，网络营销的重点正从访客数量转变为盈利性。comScore的“客户知识平台”（Customer Knowledge Platform）针对顾客浏览互联网的行为与偏好提供了全方位的观察视角。该服务追踪所有愿意提供互联网行为以供分析的用户，记录他们在各个网站的冲浪以及购买行为。

随着数以百万计的网络用户注册该服务接受监测，comScore收集到了海量数据。事实上，comScore所分析的压缩数据达到40 TB以上，每周都会新增接近150 GB。令人印象深刻的是，尽管数据量如此庞大，您却无需耗费时间焦急等待查询结果。据comScore工程事业部副总裁Ric Elert称，由于上述原因，“我们得以更加迅速地挖掘数据，并为客户提供结果。这有助于他们提高营销效率，开发出更多业务。”

此外，该公司使用列存储技术，实现了40%的压缩率。comScore表示，若使用传统方法，存储成本会比现在高很多。数据仓库副总裁Scott Smith说道：“由于我们面对的是海量的数据，压缩对我们而言至关重要。我们拥有的数据储量如此庞大，是大多数人从未见过的。”

西班牙Airtel Vodafone公司的列存储数据仓库可根据公司的业务地图进行信息组织。尽管很多不同的部门都使用同样的数据，但Airtel Vodafone仍然能够有效保证信息的一致性和完整性。数据仓库将数据转换成知识，通过一个接口，将现实世界中的事实转化为有价值的商业情报。准确分析和预测客户行为的能力是Airtel Vodafone公司整体业务战略的关键所在。

有了列式数据仓库，用户可根据工作流（而不是按照企业的层级结构）需要获取信息，这提高了员工的工作效率和有效性。换言之，从事市场营销的用户与从事财务工作的用户（举例而言）使用的是相同的信息，只是他们接触数据的角度有所不同，分析目的也各不相同。数据仓库环境包含了市场营销数据库、呼叫系统、客户服务、全球移动通信系统统计数据、开票系统、收账与检索，以及所有的后勤管理信息。

如今，Airtel Vodafone拥有一个理想的运行环境，能够满足各种需求，从而让存储在各种运行环境中的数据实现快速、低成本的集成。因此，它可以直接从数据仓库平台中调用有关公司活动的详细信息或汇总信息。基于列存储的数据仓库使Airtel Vodafone公司赢得了市场份额，成为欧洲电信业中的一方诸侯。

当今，分析行业也没有任何借口不使用“大数据”。无论是扩大分析数据仓库、涵盖数以千计的用户，还是分析来自各种奇特来源的各类数据（如来自社交媒体网站的海量非结构化信息），它们都没有逃脱的借口。不要再躲避了，分析行业再也不能躲在“大数据”这个吓人的怪物身后，因为我们知道，通过使用列式分析基础架构，就能够让“大数据”更好为企业运营服务。

Via Forbes 编译：丁盈幸来源：IT经理网

Decide：利用数据挖掘和分析的魅力价格预测体系

iLoveI — Sat, 21 Apr 2012 02:50:20 +0000

我想如果有一个网站能够预测消费品的价格并且对这些预测提供包赔，那么这一定会对电子商务产生革命性的影响。一家名叫Decide.com的创业公司则在这个方面进行了初步的探索，通过数据挖掘和分析的魅力，他们初步建立起了价格预测体系，并且还在今天推出了包赔计划。

我们首先来看看其是如何预测价格的。

Decide.com的目的是解决两个问题：电子产品更新速度过快，市场价格变化过快。通过解决这两个问题，他们希望给潜在购物者提供最好的购物时机建议。

首先他们搭建了一种“线性分析模式”，将成千上万个电子产品加入到了自己构建的数据库。并且去爬许许多多的技术博客和网站以获取产品发布消息和传闻，最终运用“先进的机器学习以及语意挖掘算法”来预测未来的产品发布时间。

另外除了对产品发布时间进行预测，他们还会利用专有价格预测算法通过综合考虑上亿条价格波动信息和超过４０个不同的价格影响因素来对价格做出全面的价格预测。

用户使用该网站则非常简单，登入Decide.com，在搜索框中输入具体想购买的电子产品，然后Decide.com便会根据自己专有技术预测给你返回是应当购买还是应当等一等的建议。

如果用户想要购买，则可继续点击进入他们选中的卖家进行购买。如果根据Decide.com给出的建议，用户暂时不想购买，那么他们则可以观看价格时间线，并给自己设定一个价格下降的通知以不错过自己理想的购买价格。

我们可以看到其整个产品发布和价格预测体系都搭建在对海量数据的挖掘和分析处理上。而为了证明自己的预测是有效的（至少是局部有效的），从今天开始他们每天会筛选10项产品进行保价赔付，也就是说用户购买这10项产品两周之类出现跌价，他们会进行差额赔付。

不过，我们无法得知这10项产品到底是人工操作的还是真的是机器推荐的。如果真的源于Decide.com对数据的分析作出的推荐，那么其价格预测体系应该算是初有成效了。

另外值得指出的是Decide.com的盈利模式是收取零售商的佣金，比如其收取Amazon的佣金比例就高达4％。那么这其中是否会有人工操作呢？

文章来自36氪

数据挖掘 – 庄闲棋牌官网官方版 -199IT

当数据挖掘遇上战略决策

更多阅读：

Gartner L2：只有13%的企业能提供具有高度针对性的消息

更多阅读：

腾讯QQ大数据：一种海量社交短文本的热点话题发现方法

更多阅读：

腾讯QQ大数据：手Q游戏中心的个性化推荐实战

更多阅读：

旅游批发商如何利用数据挖掘实现差异化？

更多阅读：

做好数据挖掘模型的9条经验总结

更多阅读：

做数据挖掘工作需要具备哪些思维原理？

更多阅读：

数据挖掘的知识类型

更多阅读：

LinkedIn：2014年最吃香工作技能-统计分析和数据挖掘位列第一

更多阅读：

营销应用数据挖掘哪里强！

更多阅读：

一个数据挖掘大牛，用程序算法做人生选择

更多阅读：

数据挖掘：连锁药店待开发的金矿

更多阅读：

数据挖掘的三大要素

更多阅读：

数据挖掘之七种常用的方法

更多阅读：

信息图：企业数据问题和对策

更多阅读：

电子商务数据挖掘之关联算法（二）：牛奶可以搭配哪些商品

更多阅读：

电商数据挖掘之关联算法（一）：“啤酒＋尿布”的关联规则是怎么来的

更多阅读：

电商数据挖掘之关联算法

更多阅读：

电商数据挖掘之关联算法（一）：“啤酒＋尿布”的关联规则是怎么来的

更多阅读：

Immersion：麻省理工的邮件元数据挖掘分析工具

更多阅读：

揭密Facebook数据挖掘功臣:人际图谱

更多阅读：

VC/PE借力数据挖掘潜力股 谷歌成“量化风投”先驱者

更多阅读：

浅谈数据挖掘在CRM中的应用

更多阅读：

徘徊的大数据门前：五个真实的数据挖掘故事

更多阅读：

效率高低有方法 数据挖掘十大经典算法

更多阅读：

Econsultancy：社交数据是网站个性化的王者

回到数据源

社交数据兴趣

社交数据法则

更多阅读：

数据挖掘如何改变风投运营 LinkedIn成最佳工具

更多阅读：

自然语言数据挖掘初创企业AlchemyAPI获200万美元融资

更多阅读：

互联网公司大围剿：物理世界的崩塌

更多阅读：

购物指南新模版：数据挖掘下的比价搜索Decide

更多阅读：

数据挖掘主要解决的四类问题

更多阅读：

社交网站知道你上网都干了些什么？–数据信息图

更多阅读：

KDnuggets：数据挖掘软件排名

更多阅读：

浅谈数据挖掘与数据仓库

更多阅读：

数据挖掘价值变现，靠谱嘛？

更多阅读：

KDNuggets：数据挖掘/分析工具”的调查：R以30.7%的得票率荣登榜首

更多阅读：

分析以数据挖掘技术预测用户流失情况的方法

更多阅读：

DataSift：Twitter情感趋势反映Facebook IPO走势

更多阅读：

VC/PE借力数据挖掘潜力股谷歌成“量化风投”先驱者

效率高低有方法数据挖掘十大经典算法