行为数据 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Wed, 27 Jun 2018 07:34:45 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 腾讯QQ大数据:逻辑回归如何用于新用户识别与触达 //www.otias-ub.com/archives/741423.html Wed, 27 Jun 2018 07:34:45 +0000 //www.otias-ub.com/?p=741423 背景

目前,某产品营收运营正处在从过去依赖产品经理的经验到通过数据来驱动增长(Growth Hacking)的过渡期。在这里梳理一下通过数据模型帮助该产品营收的一些经验。

正文

本文主要包括7部分:定义目标:转化为数据问题、样本选择、特征搭建、特征清洗、特征构造、特征选择、模型训练与评估。如图1下:

图1

一、定义目标:转化为数据问题

营收活动就是要从大盘中找出那些响应活动的高潜用户,这实际上是一个有监督的分类问题。通过训练集找出典型的响应用户特征,得到模型。再将模型用于实际数据得到响应用户的分类结果。这里选择逻辑回归(Logistic Regression)。为什么是逻辑回归?因为逻辑回归鲁棒性好,不容易过拟合,结果便于解释,近些年有很多新的算法可能分类效果会更好,但很多前辈的经验表明,精心做好特征准备工作,逻辑回归可以达到同样好的效果。

二、数据获取

特征主要包括画像和行为数据,画像数据最稳定且易获取,行为数据预测能力最强。基础特征包括画像数据(取自达芬奇)、特权操作、平台操作、历史付费行为、QQ和空间活跃等共计236个特征。

三、样本选择

选择最具代表性的样本,如果样本倾斜严重,则进行抽样,保证正样本比率不低于10%。

训练样本的选择决定模型的成败,选择最能代表待分类群体的样本。最佳选择是用先前该活动的数据做训练集,如果是新的活动,用先前相似的活动数据。

有时遇到这样的情况,先前活动的号码包是通过模型精选出来的,通常,这些号码包不是整体的有效代表,不能直接用来做为新的模型的训练样本,当然如果这些号码包占整体用户的80%以上基本就没问题。一种解决办法是随机选取样本投放活动等待响应结果来构建模型,这种方法比较耗时耗力,通常不用;另一种方法是抽取部分未投放的号码标记为非响应群体,这样构建的模型虽然不是效果最优的,但却能提升模型的泛化能力。

样本多大合适?没有标准答案,一般来说特征越多,需要的样本越大。我们建模一般有上百的特征,训练样本会选择几十万数据级。

当前计算机的计算能力已经提高了很多,抽样并不是必须的,但抽样可以加快模型训练速度,而且用单机来做模型的话,抽样还是很有必要的。通常目标用户的占比都很低,比如该产品某次活动的目标用户占比只有1‰,这样数据是严重倾斜的,通常做法是保留所有目标用户并随机抽取部分非目标用户,保证目标用户占比大于10%,在该产品营收模型训练中,一般用目标用户:非目标用户=1:4。

四、数据清洗

了解数据特性是保证优质模型的第一步。数据清洗是最无聊最耗时但非常重要的步骤。包括脏数据、离群数据和缺失数据,这里了解数据的先验知识会有很大帮助。用箱线图来发现离群点,这里关于数据的先验知识会有很大帮助。如果变量太多,不想花太多时间在这个上面,可以直接把脏数据和离群数据处理成缺失值。对于缺失值,先给缺失值建一个新变量来保留这种缺失信息,连续变量一般用均值、中位数,最小值、最大值填充。均值填充是基于统计学中最小均方误差估计。如果数据是高度倾斜的话,均值填充是较好的选择。或用局部均值填充,如年龄分段后所属年龄段的均值。还可以用回归分析来填充,实际中用的比较少。分类变量一般用频数填充。

五、特征构造

已经有原始特征,为什么要进行特征构造?特征构造的必要性主要体现在发现最适合模型的特征表现形式。

清洗工作之后,就可以进行特征构造了,主要有3种特征构造方法:汇总、比率、日期函数。

  • 汇总:如按天、周、月、年汇总支付金额,近三天、近7天、近14天、近21天、近31天听歌/下载次数,统计用户近一年累计在网月份等。
  • 比率:曝光点击转化率、曝光支付转化率、点击支付转化率、人均支付金额、次均支付金额。
  • 日期衍生:首次开通服务距现在时长、最近一次到期时间距现在时长,到期时间距现在时长。
  • 转换特征:对原始连续特征做平方、三次方、平方根、立方根、log、指数、tan、sin、cos、求逆处理。然后从所有转换中选择2个预测性最好的特征。实际中,使用最多log处理。

逻辑回归本质上是线性分类器,将预测变量尽量线性化,虽然我们的特征有连续变量和分类变量,模型训练时会把所有变量当做连续变量。

连续变量可以直接用来训练模型,但分段会使得变量更具有线性特征,而且可以起到平滑作用,经验表明分段后的特征会提升模型效果。分段一般依据经验划分或先分为均等10段然后观察各段中目标变量占比来确定最终分段。如年龄分段主要基于常规理解,分为幼儿园、小学、初中、高中、大学、硕士、博士、中年、壮年、老年。

六、特征选择

特征选择的目的是要找出有预测能力的特征,得到紧凑的特征集。

特征成百上千,对每一个变量进行深入分析并不是有效的做法,通过相关系数和卡方检验可以对特征进行初步筛选。相关性强的特征去掉其一,对每个特征进行单变量与目的变量间的回归模型,如果卡方检验小于0.5,说明预测能力太弱,去掉该变量。

做过初步变量筛选后,用剩余变量训练模型,根据得到的回归系数和p值检验,剔除回归系数接近0和p值大于0.1的特征,得到最终用于建模的特征集。

特征多少个合适?这个没有标准答案,主要原则是保证模型效果的同时鲁棒性好,并不是特征越少,鲁棒性越好。主要取决于市场,如果市场比较稳定,变量多一些会更好,这样受单个变量变动的影响会较小;当然如果想用用户行为来预测未来趋势,变量少一些比较好。对我们做营收增长来说,模型特征尽量简化,这样便于从业务角度进行解读,便于跟老板和产品同事解释。

七、模型训练和评估

前面花了大量时间来确定目标、准备特征、清洗特征。使用一些简单的技术来过滤一些预测性弱的特征。接下来,用候选特征来训练和验证模型。

模型实现步骤:

1、 通过挖掘算法获取不同群体的差异特征,生成模型用于分类。

2、 待分类用户群通过分类器筛选出目标人群,形成标识和号码包。

3、 用户号码包通过渠道进行投放,营销活动正式在外网启动。

4、 收集曝光、点击、成交数据用于评估模型效果,明细数据用于修正模型的参数。

5、 重复1——4

图2

另外,活动投放参见组选择很有必要,一般是依据产品经验或随机选取,参照组的效果一般不如模型选择的,这会导致收入有所减少,有时很难说服产品,但对于对比、监控和检验模型效果来说很有必要。

该产品营收依据模型精细化运营以来,收效显著,支付转化率提升30%~150%。

最后致上一句名言:Your model is only as good as your data!

参考文献

[1]. OP Rud. Data mining cookbook: modeling data for marketing, risk, and customer relationship management. 2001

[2]. https://zh.wikipedia.org/wiki/逻辑回归

 

来源:腾讯QQ大数据

]]>
行为数据如何帮助出借人评估用户信用? //www.otias-ub.com/archives/369932.html Sun, 26 Jul 2015 16:04:46 +0000 //www.otias-ub.com/?p=369932

QQ20150727-1@2x

以往,出借人凭借信用报告来评估用户的信用度。良好的信用记录往往意味着借款人值得信赖;而糟糕的信用记录或者较低的信用值往往表示借款人风险较高。但是,单凭信用记录很难做出全面的评估。

一个一直比较值得信赖的人,可能忽然身患重病。然后,为了偿还庞大的医疗债务而不得不拖欠贷款。他也可能因离婚遭受巨大的财政压力而无法按期还款。传统的信用报告没有充分考虑这些外部因素。还有数以百万计的”信用隐形人”: 他们没有足够的信用记录来设置信用额度。这就像”第二十二条军规”:如果你没有信用记录,你就没法建立信用额度。

这就是问题的根源:信用记录可以提供关于借款人的有用的信息,但是单凭这一点,不能准确地评估借款人的信用度。

金融技术革命

为了打破这一循环,越来越多的金融科技公司开始使用行为数据,对信用报告作补充,提供关于借款人的更全面的信息。行为数据通过借款人的其他支付和交易数据中获取信息,来分析其金融理财习惯,以对其偿还或拖欠贷款做出更有力的预测。这些数据包括公共记录,社交媒体账户或银行理财组合等,甚至可以预测外部冲击何时可能发生等。

传统过度依赖信用报告的借贷方法,让信用值较低的人(信用活动很少以至于信用值很低的借款人)选择空间变少。我们的公司对使用信贷的人积极开放,但是我们的申请用户中有15%没有信用评分。

这不是一个哲学问题,而是一个实实在在、亟待解决的问题。信用卡消费拉动了美国的消费经济:在2014年,单单Visa信用卡购买额就达到1.2万亿美元。如果仅凭信用评分来决定借贷行为,那就等于在购房购车方面将信用评分少的人排挤在外。并且,这使得金融公司对有借贷记录的人做出精确地评估。

这就是金融科技公司试图让更多的消费者享受到借贷的原因,以多个元素,而不是单一的指标来对贷款和信贷进行评估。例如,Upstart公司将个人教育背景和工作记录纳入信用评估体系。从银行账户记录到”信用学校”,这些组织正在创造一个更具活力,更加多元化的借贷行业。

新的机会

不适用替代数据或者行为数据的公司,正在将生意拒之门外。我们对将行为数据和替代数据纳入承销算法做了追溯分析,结果令人震惊:我们把数以千计的客户拒之门外,他们也许并不像他们的信用评分显示的那样欠款风险高。每拒绝一个客户,就是错失一个机会。

通过将行为数据和替代数据纳入我们的批准和定价算法中,大大降低了我们的预期损失率。我们可以更好地识别那些比他们的信用评分显示的风险更高的用户,以及值得信赖的用户-即使我们增加了批准数量。传统公司的高管一时间仍不愿意使用这些数据进行评估,因此,他们将对部分用户提供过多数量的借贷,而不向他们收取与他们的借贷风险相匹配的利息。他们的竞争者最终将利用这一点,获取更大的利益。

改变核保体系是一个巨大的工程。首先要对当前的体系进行评估,然后为公司选择合适的新体系。一旦决定进行更改,以下步骤将帮助您使用新数据:

一、 重新配置基础设施。一个最简单的使用行为数据的方法就是采用心得评分产品,例如环联的L2C,或者益百利公司的扩展视图等。像Mint和Yodlee等公司,直接从用户的银行账户中获取信息,为评估借款人的理财习惯和可信赖成都提供了更深入的信息。然而,对于传统的公司来说,新的数据和分析系统意味着增添心得基础设施,这对它们来说是个挑战。美国富国银行和花旗银行不愿意彻底整改它们的传统算法,因为这是一个巨大的工程,也不符合它们的传统经验。当硅谷中的金融科技公司开始采取更加多元化的方法进行用户信用度评估时,创新的大幕已经拉开。

二 、对信用评分较少的客户进行评估。除了信用报告之外,还可以使用银行转账,公司支付,零售活动和社交媒体对借款人进行评估。例如,信用评分很高的人,也可能用风险较高的行为模式。信用评分较低的人可能会定期偿还账单和定期存款,因此即使他们的信用评分较低,但反而更值得信赖。 在采取新的借贷标准之前,要对当前的理财组合中各个数据点之间的关系进行评估。明确用户之前理财行为的原因,写入新的算法中,建立一个更加全面的评估方法。

三、 进行后续监测。一旦决定进行新的信用评价方法,行为数据就变得非常重要,因此要选择坚实的技术支撑。分析每个用户的付款频率和方式。使用K均值算法来分析普遍特点,来分析信贷的模式和特点。 使用这样的方法,可以在用户要求增加信贷额度或新的贷款时,做出更加全面的评估和决定。可以将现有的数据点与原有的影响信贷评估的因素结合起来,对未来的信贷行为进行评估。

科技使得借款人可以对用户做出更加明智的信贷决定,使用更加全面的数据分析。通过一定时间的行为数据分析,可以分析出用户的行为趋势,根据这样的行为模式进行信贷条款和额度的调整。只使用信贷评分不能做到这一点,而替代数据可以。

来源:末央网
]]>