所以,越想要得到准确的统计结果,需要的统计数据量就越大。</p>
在上面的例子中,统计的样本总数是1678人。</p>
但是如果我们一定要说‘41岁及以上的观众就是29.2%’,或者‘15岁及以下观众一定超过20%’。</p>
这样非常肯定的的话,大家就可能会挑战这个结论。</p>
<div class="contentadv"> 因为,统计是有随机性的,也是有误差的。</p>
仅仅上千人的数据得不到这样准确的结论。</p>
统计除了要求数据量必须充分之外,还要求采样的数据必须有代表性。</p>
有些时候不是数据量足够大,同阶级过就一定准确。</p>
一个很简单的例子,一个爱情影片和一个战争影片,它的受众并不相同。</p>
所以如果我们只采集爱情影片上映当月的观影人群,就不具有普遍的代表性。</p>
那么怎么避免这种情况,获得准确的结论呢?</p>
19世纪的俄国数学家切比雪夫对这个问题给出了他的结论,即切比雪夫不等式。</p>
P(|X - E(X)|≥ε)≤ Var(X)/ε^2。</p>
这个公式的含义是,当样本数足够多时,一个随机变量和他的数学期望值之间的误差,可以任意小。</p>
把切比雪夫不等式应用到我们了解电影院观众年龄分布的问题中。</p>
随机变量就是:观察到的各个年龄段观众的比例。</p>
数学期望值就是:真实情况下所有看电影观众中不同年龄段的比例。</p>
当我们把样本数据带入后,大致可以得出以下结论。</p>
15岁以下观众占20%,16~25岁占27%,26~40岁占24%,40岁以上占29%,误差小于5%。</p>
但如果我们要将四个年龄段观众的准确率,提高到小数点后一位数,那么我们大致需要10倍的数据,即两万个左右的样本。</p>
如果我们把这个问题放大。</p>
我们想知道一部电影在全世界的观影人群年龄分布,而且必须具体到更细致的年龄段人数。</p>
比如18~20岁,21~24岁等等。</p>
又或者更具体的地域。</p>
华夏、东瀛、南韩等等。</p>
在一个更大,更详细的范围内,为了获得更准确的结果,我们需要的数据量,将千百倍的提升。</p>
当我们获得了超级数据。</p>
普通的计算机已经很难完成计算。</p>
而且就算能完成,也需要大量的时间。</p>
时间就是金钱,在商业上,这显然是不可接受的。</p>
因此。</p>
为了尽可能在短时间内得到结果,我们要一台或几台超级计算机来计算。</p>
但动用超级计算机的费用非常昂贵。</p>
想要了解电影院观众年龄的企业,显然不愿意在这个问题上花费这么大的代价。</p>
那么怎么办呢?”</p>
徐良操作了一下电脑。</p>
背后的投影屏上显示出三个硕大的楷体。</p>
云计算。</p>
“云计算,‘云’就是互联网,‘计算’则是字面意思。</p>
目前的云计算是一种分布式计算,指的是通过网络“云”,将巨大的数据计算处理程序,分解成无数个小程序。</p>
然后,通过多部服务器组成的系统,进行处理和分析这些小程序,得到结果后返回给用户。</p>
整个计算过程只需要几秒钟。</p>
也就是说,云计算把一个原本需要动用超级计算机,需要几天,甚至十几天时间才能计算出来的问题。</p>
变成了只需要几秒钟,花费几万块,最多十几万块便能得出的准确数据。</p>
大大减少了支出,提高了效率,得到了更准确的结果。</p>
也许有人觉得统计电影观众年龄分布,没什么太大的价值。</p>
但如果变成一家餐饮企业统计饮料产品的受众年龄分布呢?</p>
只要有了准确的数据,餐饮企业就可以针对不同年龄段人群,开发更有针对性的广告和服务,从而提升自己的销量。</p>
这一点已经被康师傅公司运用到了实际的经营中。</p>
根据盘古公司大数据调查,康师傅公司发现旗下‘健力宝’运动饮料产品最大的受众是15岁~25岁之间的青少年人群。</p>
其中男性占比41%,女性占比59%。</p>
然后又通过线下抽样调查,网上问卷调查等多个渠道得出数据,并用数据驱动的方法,计算出这部分人群感兴趣的明星,喜欢的电视剧类型等等数据。</p>
综合这些相互交叉的大数据,制定了详细的广告宣传方案和宣发渠道。</p>
短短一个季度的时间,康师傅的销售额便增加了22%,净利润增加了14.8%。</p>
同样的方法,我们可以运用到汽车、餐饮、娱乐等所有消费品领域。</p>
毫无疑问,这将形成巨大的商业变革。</p>
原本粗放的广告投放和宣发方式,将变得更细致,更有针对性。</p>
原本口味统一的产品,将根据全国各个省份消费群体的口味和消费习惯,开发出更符合本地特色的产品。</p>
消费者将成为真正的主体。</p>
可以肯定的说,以后所有拒绝大数据的消费品公司,基本都不会存活太久。”</p>