大数据预测世界杯 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Fri, 27 Jun 2014 16:37:55 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 大数据预测世界杯 八种方法谁靠谱 //www.otias-ub.com/archives/249012.html Fri, 27 Jun 2014 16:37:55 +0000 //www.otias-ub.com/?p=249012 西班牙、英格兰连续两场失利,小组赛即遭淘汰,不仅让一些球迷伤心欲绝,让彩民损失不小,还顺便连累了众多预测世界杯的高人欲哭无泪。

这届世界杯在大数据火爆之后,不管是民间还是官方,都把大数据的概念运用到了世界杯预测上,但这些预测真的准吗?下面选取国内外主要的八种世界杯预测,对他们的预测方法进行简要的分析,看看谁的更准一些。

世界杯

百度分析最传统

据验证,今年全国高考作文题目18卷中12卷的作文方向被百度大数据预测命中,被戏称“神预测”。因此,这次百度收集网上的综合数据,然后进行整理、分析,最终通过大规模机器学习等人工智能技术,开始预测世界杯。

百度大数据研究院利用百度大数据全面搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中,构建了本次“世界杯预测”产品的足球赛事预测模型。该模型共涉及到19972名球员和1.12亿条相关数据,所参考的数据包括百度搜索数据、球队基础数据、球员基础数据、赔率市场数据等,所分析的球队不仅包括207支国家队,还囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。

评:百度用的是传统的统计分析,注重近期球队和球员表现,这种预测是至今为止在技术上最稳定的方法,但受意外因素(如天气、伤病、裁判等)影响较大。到现在为止,百度成功预测对了智利的黑马本色,却遗漏了哥斯达黎加。

德银推算最胡闹

德银根据各个球队的FIFA排名、历史战绩、球员构成和赌场赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格,从夺冠概率表格中挑选出了前10强,依据“轮流转周期”,由此排除了2014年巴西、意大利和西班牙夺冠的可能性,然后根据另一个假设:强队会回来,即夺取过世界杯的强队,未来必然还会夺取世界杯或至少打入一次决赛。最后,本届英格兰队有6名队员来自利物浦,而正是在利物浦的球员最多的1966年,英格兰获得了历史上唯一一次世界杯冠军。同时,德银报告的主笔人承认自己是利物浦队的铁杆球迷,因此,最后确定英格兰将获得世界杯的冠军。

评:还好,德银报告主笔不是中国队的球迷!

高盛模型最神秘

高盛对世界杯决赛周32支国家队的胜算,有它自己的一套评估方法(命名Elo),在所有因素中分量最重。Elo是高盛自设的动态系统,不断根据球队近绩更新评分和排名。

为此,分析师要收集来多项数据,包括:世界各个国家足球队历史成绩数据库给出的各队排名得分;比赛中双方球队过去10场和5场比赛的进球数;比赛双方是不是巴西主场;比赛球队是不是美洲球队;还有以往各队在世界杯的进球数优于平时多少个。最后,他们把这几项数据按照一定的权重相加到一起,可以得出每一个球队在对阵另外某一个球队时平均会进多少个球。按照这样的方式,从小组赛一路到最后决赛,每一场比赛双方的进球数都可以期望一番,最后获得一个“最平均”的世界杯全程模拟结果。

评:投行一贯的神秘模型来忽悠投资者,Elo模型就是高深黑洞,关键环节恕不奉告,至于准确与否,只有神知道。

严格的讲,以上几家的世界杯预测都不能算“大数据分析”,只是传统的统计分析,虽然数据“大”,但并未融合多种因素综合考虑,可见在专业领域还是相信经典理论。

霍金想法最娱乐

霍金

霍金收集了大量的数据,包括历史记录、温度、球场的海拔高度等,把所有数据都集中起来,分析你事先不知道的事情,或许能发现一些规律。它的原理不是传统的分析,更多的是基于关系的一种预测。霍金19页的分析结果是关于如何提高英格兰队的夺冠几率,但最后却抛出一个让英格兰球迷伤心的终极结论:个人更看好巴西队夺冠。霍金认为英格兰队首先需要在海拔500米以下的球场比赛,气温的提升会降低赢球可能,在巴西当地时间15时是最好的比赛时间。从球队自身来说,433阵型无疑是夺冠的节奏,而且必须穿上红色战袍。提到点球大战,霍金认为助跑必须不少于三步,如果速度上不去,进球几率只有58%。瞄准上角的点球有84%的命中率,金发和秃头的球员射中的概率达到更高的84%,前锋的进球概率超过80%,中场与后卫递减。

评:霍金老爷爷最近几年很喜欢预测,还预测过世界将在两百年之后灭亡,这次娱乐世界杯一下,也算是比黑洞要沾地气。如果预测对了,建议用这个理由把早就该属于霍金的诺贝尔奖发了吧。

科隆体育最繁琐

德国科隆体育学院根据复杂的计算机模拟测算得出的本届世界杯预测结果:科隆体育学院的格罗尔教授领导研究小组以自己设计的计算机模拟算式一共进行了10万次测算,综合考虑各队的世界排名、足彩赔率、市值、预选赛表现,还包括可能的伤病、战术、气候条件、主场优势因素。他们预测,巴西队与阿根廷队将争冠,卫冕冠军西班牙有可能止步小组赛,从西荷大战那个惊悚的5比1赛果,看来德国人的模拟测算还有靠谱的。

评:德国人的严谨是出了名的,而且竟然没有预测德国夺冠,对于西班牙却一语中的,估计他们现在都在祈祷决赛的预测是错误的,否则作为物理学家的默克尔总理不会答应。

熊猫预测夭折了

世界杯开幕前,据媒体报道,中国保护大熊猫研究中心称将派出一到两岁的熊猫宝宝来预测世界杯。小组赛阶段,主办方会拿出三个竹筐代表主队的胜平负,熊猫宝宝则通过选择哪个筐里的食物来预测比赛结果。等到了淘汰赛,熊猫宝宝们还会通过爬树和赛跑来预测结果。前者是让熊猫爬上挂有一方球队国旗的树木来预测,后者则是两个熊猫宝宝分别穿上两队球衣,通过谁先跑到目的地来预测比赛结果。就在世界杯开赛之后,“熊猫预测世界杯”活动已经被取消。评:本来要顶替章鱼保罗的国宝没了用武之地,国人还是缺乏点娱乐精神,借此机会宣传下大熊猫,有何不可,万一要是预测对了,那大熊猫基地岂不成了大师圣地,还愁旅游不火?

微软相信EXCEL

微软必应大数据之前曾多次成功预测奥斯卡奖项、投票大选。微软的预测考虑过往比赛历史、主场客场、地理位置、草坪状况、天气以及“群众智慧”等等多种因素,还使用大量的公开数据——博彩市场、民意调查、社交媒体以及其它在线数据,利用大数据分析来判断每场比赛的结果。据说这一切都是用EXCEL来完成的,我们权当其是软件推广策划吧。

微软:相信EXCEL是万能的,但预测足球估计是万万不能的,不过,人家说奥斯卡、大选都预测对了,还是看结果吧。

雅虎相信网络流言

雅虎用轻博客网站Tumblr的数据来估计每支国家队的优势,最终计算出最可能获胜的是巴西。雅虎研究小组分析的前提是,Tumblr上所有有关世界杯的讨论都具有一定价值。为了查明哪些国家将相互较量,小组会根据之前比赛的结果为每支队伍赋予优势值。针对每一次比赛,雅虎会利用名为泊松分布不同参数的概率论来估计每一支队伍可能的进球数量。

评:雅虎相信的是目前最火的社交网络数据,据说可以预测传染病和犯罪现场,不知道对足球是否有效?

(据说美女主持穿什么球衣,什么球队就输球,而美女的球衣选择是靠网民投票出来的,所以,也证明了冷门太多)

美女球衣

当然,虽然很多人相信大数据能够帮助我们预测世界杯,也有不可预测派。美国的洛斯·阿拉莫斯国家实验室的三位统计物理学家曾经对大型体育比赛的赛况进行数据化分析,发现在棒球、曲棍球、篮球、橄榄球以及足球五大项目中,足球比赛是其中最具悬念,赛果最具不确定性的,弱旅战胜强队的概率居高不下,即使使用科学方法也未能得到准确的预测。

说实话,作为统计专业人士,对足球预测不敢太相信,体育比赛确实可以预测,足球也不例外,但足球项目影响因素太多,特别是世界杯足球比赛相对场次不多、间隔周期太长,致使数据量很小,比赛中又有太多的主观因素(比如裁判),有时候这种比赛的预测和算命没什么差别。

如果要问为何总有人预测正确?正如一家报纸所说,每届世界杯都会有无数的“保罗”,大部分都在前几次猜测失败后从媒体视线中消失。贝利也不是真正的乌鸦嘴,只不过他预测成功的时候没有后续报道。预测大师都是这样练成的!

]]>
大数据预测世界杯:一个有趣的噱头 //www.otias-ub.com/archives/243035.html Sun, 22 Jun 2014 15:16:51 +0000 //www.otias-ub.com/?p=243035

大数据分析都是基于既成事实的,它更擅长于告诉我们,世界是怎样,而不是世界应是怎样和将会怎样。在不确定性面前,大数据是无力的。

  人类一思考,上帝就发笑;世界杯一来到,上帝笑得血压也升高。倒不是足球踢得多欢乐,而是世界杯预测太恶搞。

  我略微总结了下,剔除掉贝利这种声名卓著的反向指标,煞有其事的世界杯预测大致可以分为五类:一是实力决定论,以高盛和德银等投行为代表,将FIFA排名、过往战绩、近期表现、球员身价、赌球赔率、国家经济等一系列数据综合反映出的球队实力作为预测依据,用计量模型计算出看上去精确至极的概率,只不过,计算结果有较大差异,比如,高盛预测巴西夺冠,德银则更看好英格兰。

二是条件决定论,以霍金教授为代表,将各种客观条件对某一球队的表现影响揉到一个获胜公式里,这些条件包括球场选择、裁判国籍、球衣选择、阵型选择和交通工具选择等,只不过,这种公式的预测有效时段很短,所以在决赛还离得远的现在,公式还预测不出最后的冠军归属。

三是流言决定论,以雅虎和微软Bing为代表,将以亿为单位的网络噪音转化为清晰的结果信号。虽然这种互联网魔术看上去既科学又玄妙,甚至可以从经济学的“预期自我实现”理论得以解释,但总让人联想到古时候无论中国还是西方,帝王对童谣和吟游诗人作品的格外关注。

四是宿命归属论,以一则关于1966和2014年的时空重叠热帖为代表,1966年,欧冠冠军是皇家马德里,西甲冠军是马德里竞技,西乙冠军是拉科鲁尼亚,意甲冠军是尤文图斯,皇家贝蒂斯降级西乙,2014年无一例外都是如此。“yesterday once more”就剩世界杯了,1966年是英格兰夺冠,按照宿命归属,2014年英格兰也将问鼎。

五是动物先知论,以章鱼保罗为代表,2008年保罗预测欧洲杯6场5胜,2010年保罗预测南非世界杯8场全胜,只不过,保罗没能活到2014年巴西世界杯揭幕,于是,乌龟、大象、熊猫等动物先知又登上了预测舞台,只不过,保罗的辉煌再难复制。

当然,所有这些世界杯预测或多或少都有恶搞的成分,当不得真。但稍微严肃一下,细致分析这五种方法论,除了最后一种,剩下四种都用到了大数据,这恰是时下大数据热的一种表现。从世界杯预测看大数据热,三个误区值得警醒。

首先,大数据并不能解决所有问题。大数据是很有用的,几乎每一个环节,包括产品设计、市场定位、目标选择、销售策略和模式修正,都能靠大数据来解决问题,甚至连各种和商业无关的问题,也都能从大数据这里得到帮助。但大数据并不是万能的,大数据能解决的都是客观问题,而不是主观问题。就拿世界杯预测来说,谁能夺冠取决于多种因素,各种预测方法论本质上并无区别,只不过它们对不同决定要素赋予的权重不尽相同。也就是说,决定夺冠的要素是什么,这是一个主观问题,大数据只能说明客观的状态,无法对夹杂重要主观判断的问题直接给出解答。

其次,数据并不是越大越好。数据分析早就存在,大数据火爆却是最近的事情,其中的区别就在一个“大”字。从道理上讲,数据种类越多、序列越长,包含的信息就越丰富。但值得强调的是,信息越丰富未必就越好,当下是一个信息大爆炸的时代,信息越多有的时候越不利于获知。而且更重要的是,像世界杯预测,明显是一个核心信息不突出的事情,所以信息之间反而容易形成无逻辑的冲突,这恰是预测方法论众多,谁都不靠谱的原因。此外,数据越大,数据处理过程中的选择就越多,而选择总是难以回避道德风险问题,每一个大数据分析者,都得面对为特定目标而选择的诱惑,“有选择的选择”往往是大数据反而模糊了真相的潜在原因。

最后,大数据搞不定薛定谔的猫。在盒子打开前,薛定谔的猫既是活的,又是死的,只有打开盒子这一行为,才能导致状态叠加的坍塌,不确定性才会消失。也就是说,在世界杯真正开始前,32支球队都是冠军,又都不是冠军,只有踢起来才能见真章。大数据分析都是基于既成事实的,它更擅长于告诉我们,世界是怎样,而不是世界应是怎样和将会怎样。在不确定性面前,大数据是无力的,所以究其根本,大数据不是用来预测的。大数据能带给我们的,是知识,是获知,而不是判断,更不是武断,而尊重不确定性,才是正确使用知识的一部分。

网上有个段子:“互联网思维就是:化缘的改叫众筹了,算命的改叫分析师了,八卦小报改叫自媒体了,放高利贷改叫资本运作了,借钱给朋友改叫天使投资了,统计改叫大数据分析了”。从世界杯预测看大数据,误区是存在的,而这些误区的形成,和概念热炒不无关联。数据分析一直都是非常有用的,但滥用大数据作为噱头,就没意思了。所以,看世界杯远比预测世界杯要更有趣,不是吗?

作者:程实,复旦大学国际金融系经济学博士

]]>