热搜:

最近在广告数据分析中,小伙伴们频频遇到一个问题:广告投放的预期转化率为a,需要多大的样本量,样本统计的转化率才符合预期?也有小伙伴反映在面试中遇到类似的问题。今天就来介绍下,如何科学的计算「到底需要多少样本量?」

01明确问题

其实上面提到的问题缺少两个重要的要求,置信度和可接受的误差范围。不同的置信度和误差范围下,需要的样本量是不一样的。

1、置信度:总体参数的真实值在测量值的区间所具有的可信程度,也称为置信水平。

2、误差范围:接受样本计算的的测试值和真实值之间相差范围。

对于问题:「广告投放的预期转化率为a,需要多大的样本量,才能使样本统计的转化率符合预期?」的准确问法是:

在广告投放转化率为p,1-a的置信度下,误差范围不超过b,需要多大的样本量n,才能使样本统计的转化率符合预期?

02统计学基本概念

为了解决上面提到的问题,首先需要了解几个基本的统计学概念。

1、二项分布

如果记X为n次伯努利试验中成功(记为事件A)的次数,则X的取值可能为0,1,2.....,n。记p为每次试验中A发生的概率,即P(A)=p。这个分布就是二项分布,记为X~b(n,p)。期望为:np,方差为np(1-p)。

示例:广告场景下,曝光10000次,点击率为3%,则点击量的分布就是二项分布X~b(10000,3%),平均点击量为300次。

2、中心极限定律

如果X1、X2、.......、Xn是独立同分布,在n足够大的情况下,Y=X1+X2+.......+Xn服从正态分布。

示例:上面提到的二项分布X~b(10000,3%),可以看作10000次伯努利试验的和,通常在np>5和n(1-p)>5时,就可以用正态分布近似,所以X近似服从均值为300,方差为291的正态分布;样本转化率X/n服从正态分布N(p,p(1-p)/n)。

3、区间估计

如果x是总体的一个参数,所谓区间估计就是,对给定的一个a(0<a<1),要找两个统计量:

则称:

为x的置信水平为1-a的置信区间。

对于正态分布N(u,sigma^2),u的置信水平1-a的置信区间是:

示例:广告场景下,曝光n次,点击率p的置信度为1-a的置信区间就是:

03最小样本量计算

在明确以上的基本概念后,就可以计算所需的最小样本量了。

广告投放转化率为p,在置信度为1-a下,样本转化率p1和真实转化率p的误差范围不超过b,则所需的样本量n至少要多大?

广告投放事件X服从二项分布b(n,p);根据中心极限定律,p其近似服从正态分布N(p,sqrt(p(1-p/n))。

则在1-a的置信度下,p的置信区间是:

因为|p1-p|≤b,所以:

如果是95%的置信度,则:

示例:在广告投放转化率为3%,95%的置信度,误差范围不超过1.5%,则可以计算到需要最小样本497个。

以上就是我要分享的:广告投放中怎么计算所需的最小样本量?希望这篇分享,能帮你科学的计算所需样本量,而不是单纯的拍脑袋。

-END-