统计学博文导读:内贾德大选作弊?流星撞飞机的概率?买双色球?

“统计之都”站的“网站导读”栏目的设立是为了以简短的形式向大家介绍一些有意思而且有水平的统计学文章,不求理论之复杂,但求统计学之生活化,让大家看到一些统计学的“另类”面目。若这个目的达不到,那么我希望大家读完这些导读文章之后能说一句“哇,原来统计不是会计啊/不是做报表的啊/不是数学啊”也足够了。另外,现在网上很多文章都是抄来抄去(更恶劣的是不加出处的抄袭),我们觉得这种做法极其无聊,是对原始作者的极大不尊重,也容易造成以讹传讹误导不明真相的围观群众,本站这个栏目的建立,也是基于这一点考虑之上提供一种“引用他人文章”的示例,很傻很天真地希望互联网的抄袭现象能够有所收敛。言归正传:

阅读全文

漫谈相关与回归

老师不断提醒我要对统计学的基本概念、定义及背景反复思考,这样才不会本末倒置,迷失方向。但是这个做起来很难,因为那些概念定义等看起来实在“太简单”、“没什么东西”,可能还是不能够平心静气吧!

最近静下来看了David Freedman等著的《统计学》的“相关与回归”部分,以及一篇关于直方图的文章,不免有些感慨!其实统计学中的很多概念、工具、方法等的实际意义或作用可能要比我们认为的要大很多,同时,当我们从一些概念定义等中发现出一些新东西时我们总会欣喜若狂。世界上的很多事物又何尝不是如此,人们对事物的了解总易受到传统或他人的影响仅仅停留在表面,很少达到全面而深刻,而一旦我们获得了那种深刻的洞察力,才发现真实世界是何等的精彩!一直以为直方图很简单,无非是一些代表频数的柱状图的组合而已,感觉没什么作用,但是看了一篇关于直方图制作方面的论文时,才认识到直方图的威力。直方图其实是非参数统计中估计总体分布特征的一项重要工具,选择好适当的组距和边界点(组距和最小边界点是关键),随着样本量的增大,它可以非常接近地反映数据的真实分布情况。其实,在统计中使用一种工具方法的目的也应该是使现有的数据尽可能多地反映出真实的信息,而这项工作往往是一个无底洞(这时又要考虑到效率问题了)。

阅读全文

比率估计为什么精确

一、比率的方差估计式

比率估计量是抽样技术理论里一大重要估计量,其定义为两个总体总量或总体均值之比。借助适当的辅助变量,比率估计也可以得到主要变量的参数估计

由于通过辅助变量实质上引入了更多的信息,因此有理由猜测比率估计量可能更加精确。但是比率估计的方差和简单估计相比所谓的改进是否确切的存在,即使存在,改进的程度又有多大呢?

阅读全文

如何设计一个试验

R·A·费歇尔爵士说在试验设计中经历的不是一个试验而是一种经验。

阅读全文

从调查报告中的比例数字说统计人如何甄别统计假象

新华网刚发布了一个关于学生冬季长跑的调查结果(于2009年4月27日13:52访问),一共调查了100人,结果中却出现了92.79%这样的比例数字,有常识的读者都知道,世上不存在0.79个人,因此这里面必然有某个地方是错的(姑且不妄言造假)。这则消息让我马上想起《统计陷阱》这本书,我们生活中有多少陷阱呢?

阅读全文

统计之都《本周导读》第十一辑

一、主站

这周本站共发布了2篇日志:

Hilbert空间视角下的时间序列模型

Hilbert空间说起来和我国古代数学有着一定的渊源。《九章算术》里记载:“勾股术曰:勾股各自乘,并,而开方除之,即弦”。这条著名的勾股定理实质上蕴含了Hilbert空间中对于距离和正交的核心性质。

阅读全文

中国人民大学统计学院研究生课程“统计模型”

Statistical Models

Spring 2009

Instructor: 田茂再  (Email: mztian(at)ruc.edu.cn)

Office Hours: by appointment

Lectures: Friday, 2:00-5:00 p.m.,   0308 Mingde Main Building

Teaching  Assistant: 程晓月  (Email: chengxy(at)ruc.edu.cn)

阅读全文

统计之都《本周导读》第十辑

一、主站

这周本站共发布了5篇日志:

在Batch Mode下完成无人值守的R项目测试

今天我来谈一点用R编程的经验吧。好像R的很多方面许多牛人都谈过了,比如R的打包啊,R的图形啊,下面我来谈谈R的测试。如果希望真正学到什么的话,还是要自己花时间实践的。

在很多情况下,你自己或和你的团队在一起开发一个R的项目,而伴随着开发的深入,测试就成了家常便饭。但是往往很多统计算法涉及到比较大的计算,比方说missing data的模型,比方说具有多层次结构的模型。测试这些R程序需要花费大量的时间。当然了如果你的程序规模很小,计算量也不大的情况下,大可不必杀鸡用牛刀,但是一般情况下,再小的一段统计算法,如果需要做一系列的simulation或是case study的话,测试都会花很多的时间。比如,如果你有几个实现了推广的ROC模型的R函数,或者是一个包含这些函数的R包,没有人能说这个程序真正管用,你要测试,那你就需要做simulation和case study。simulation简单的就是模拟出一系列预先设定模型参数的数据,让目标模型去fit,然后比较结果。case study则可以做各式各样的比较研究,特定数据的实例分析等等。好了,废话不多说,总之这篇文章就是告诉你怎么样方便地测试,随时随地想测就测。

阅读全文