最近很多朋友非常关注庄家建模的问题,我们在通过腾讯微博和qq上了也交流了许多想法。
在建模的过程中,我发现存在以下一些误区:
1、有的朋友建模几年了,模型好像六脉神剑,时灵时不灵,无论庄家还是个人建模,都是永无止境的,过程很有意义,准确率不是检验模型标准的唯一手段。
2 、庄家建模后,也是不断调整。很多模型需要1年以上的验证。
庄家建模的方向:
a、足球预测模型,庄家不会知道比赛结果,只会通过模型和数据来预测结果的概率。
b、玩家投注分布模型,这个模型是玩家建模中无法超越的。我的建议是,不是开盘越早的庄家代表他的投注分布越合理。投注分布,首先要考虑庄家接受投注的地域范围。很简单,亚洲联赛一定是亚洲庄家的盘口最合理,欧洲联赛一定是欧洲盘口更合理。庄家开盘用模型,操盘是根据投注量和上游庄家的变化。看一下“酒吧理论”。
c、建模后需要决策理论模型的应用,组建“职业赌客,模型专家,系统调试专家的验证团队。
模型的验证和调试工作远远大于建模的成本。
三年前,我曾经参与了几个建模的项目。下面是篇国外的建模文献,我也是略懂。现在把它翻译出来供大家分享。
足球预测中的贝叶斯分级模型
足球比赛数据的建模问题今年来变得越发流行。为了估计一个球队是赢是输的特性,或者预言某一场特定比赛的比分,提出了许多模型。我们提出一种贝叶斯分级模型,实现以上目标以及检测其关于1991-1992年意甲(微博 专题) 冠军联赛的预言准确性。为了克服此模型的过度收缩问题,我们提出一种更精确的混合模型,以更好的匹配观察数据。并用2007-2008年意甲联赛作为其性能的测试对象。
关键词: 贝叶斯分级模型;过度收缩;足球数据;两变量泊松分布。
引言
体育的统计数据建模是一个热门话题,有很多研究已经完成此任务,包括有以足球作为参考。从统计的观点来看,此任务因提出了许多有趣的问题因此很刺激。其中之一与分布形式相关,分布形式需要结合两个对手的单场进球数。
虽然二项分布或负二项分布在20世纪70年代提出,但是作为此类问题的恰当模型,泊松分布已经被更广泛地接受;特别是在使用主队和客队进球数相互独立这种简化假设的情况下。例如,马尔(1982)使用过一个含两相互独立泊松变量的模型。此处,进攻方的优势和防守方的弱点作为结果构建相关参数。
虽然相对较低,但一些作者给出了两个分量间相互关系的经验上的等级(Lee 1997, Karlis & Ntzoufras 2000)。因此,需要建立更加精确的模型。 例如Dixon & Coles (1997) 对独立的泊松模型使用了一个修正因子,以提高预言子项的准确性。最近, Karlis & Ntzoufras (2000, 2003)主张使用两变量泊松分布,其具有更复杂形式的似然函数(概率函数),并包括一个额外参数以清晰地阐述竞赛双方进球数的协方差。他们在频率框架中详述了此模型(虽然,Tsionas在 2001年已经描述了贝叶斯扩展使用方法),他们的主要目的是估计结果并解释进球数。
在此文中,根据两队每场比赛的进球数,我们提出了预测比赛分数的贝叶斯分级模型。分级模型广泛的应用于许多不同领域来分析重要的结果,因为它是考虑变量间关系的一种自然方法,通过对相关参数集合假设一种常见的分布。
贝叶斯结构中天然地含有分级模型(Bernardo & Smith 1999),不需要两变量的泊松建模。我们指出在假定两相对于进球数条件独立的泊松变量情况下,需要考虑相互关系,因为观察变量在更高层次上被混合。 此外,当建立在贝叶斯的背景下,通过事后预测分类天然地含有此模型下的一场新比赛的预测。
|