伯乐论坛网

搜索
查看: 146|回复: 2

十年大乐透数据分析「1」大数规律

[复制链接]

2

主题

6

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2022-9-22 07:30:06 | 显示全部楼层 |阅读模式
上一篇,和大家分享了爬取十年大乐透数据的方法,并做了简单的分析,很多朋友觉得看的不过瘾,这一篇文章就专门分享一些大乐透历史数据的分析思路和结果。
这篇文章主要想解决2个问题:

  • 每个号码出现的次数是一样的吗?
  • 往期数据能预测下一期的号码吗?
<hr/>每个号码出现的次数是一样的吗?

为了方便,我用"红球"表示"35选5",用"蓝球"表示"12选2"。首先,我统计了红球和蓝球十年来每一个号码的出现次数,结果如下图:每根柱子的高度代表了对应号码出现的次数;虚线代表平均值,也即,在完全随机的情况下,每个号码出现的次数。


不难发现,在红球中,数字29-35的出现次数是明显高于平均次数的,而出现次数最少的数字包括16、4等。蓝球中十二个数字的出现次数均匀了很多,最容易出现的数字是10.
那么,是什么原因造成红球的大数字更容易出现呢?有2种可能的原因:一是,某些年份大数字出现的偏多;二是,大数字在每一年的出现次数都偏多。于是,我查看了每一年的数字次数分布:


可见,2007-2013这7年都更倾向于出现大数字的红球,而这一规律在2014年之后似乎不起作用了。
<hr/>往期数据能预测下一期的号码吗?

这个问题可以简化为——上一期的数字在下一期里出现的几率是不是高于随机(瞎蒙)的情况呢?首先,我统计了连续2期的数字里,有1个数字重复、2个数字重复、3个数字重复......这些情况发生的次数:每个柱子上面的数字表示其所占的比例。


可以发现,红球里,相邻2期产出的数字中,至少出现一个重复数字的比例是57%,而蓝球为31%。那么,红球和蓝球的组合起来看又是什么样的呢?


图中,"1_2"就表示红球中相邻2期有1个重复数字,蓝球中相邻2期有2个重复数字的情况,其他组合以此类推。可见,最容易出现的组合情况是"0_0"和"1_0"。接下来,小编想看看,在随机情况下,也就是瞎蒙的时候,上下期重复数字的个数跟我们观察到的实际结果是不是一致呢?简化模型如下:
以红球为例,从1-35这35个数字中随机抽取5个数字,抽取1万次,并标注先后序号。然后分析,在随机状态下,相邻2次抽取中,重复数字出现的次数。代码如下:
# model
D <- data.frame()
for (i in 1:10000) { ## 随机抽样1万次
D <- rbind(D, sample(1:35, 5))
}
E <- c()
for (j in 1:(1e5-1)) { ## 统计临近抽样的重复数字
E <- c(E, sum(c(t(D[j,]))%in%c(t(D[(j+1),]))))
}
print (table(E))之后,把观察到的实际结果与随机的抽样结果放在一起比较,如下图:蓝色的柱子代表实际观察的比例,橙色的柱子代表随机抽样1万次得到的比例。


显而易见,上一期的数字在下一期里出现与否是完全随机的。当然,这里只考虑了最简单的情况。至少说明,根据前一期的结果选择数字,跟瞎蒙是一样的。
总结一下,(1)大乐透里,红球的每个号码出现次数偏差较大,并与年份有关;蓝球的每个号码出现次数偏差较小。(2)前一期的号码不能预测后一期的号码。这一篇就先到这里,看官们如果觉得满意,就顺手点个赞呗。后续还有更精彩的分析,让我们互相学习,请多多关注我。
<hr/>文 | 索罗斯的书屋,全流程数据分析师,财经数据爱好者,原创不易,转载请注明版权。
回复

使用道具 举报

2

主题

5

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2022-9-22 07:30:41 | 显示全部楼层
厉害了
回复

使用道具 举报

1

主题

5

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2022-9-22 07:30:58 | 显示全部楼层
其实你不用统计的,算算概率就可以了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2013 Comsenz Inc.Powered by Discuz!X3.4
快速回复 返回顶部 返回列表