统计之都《本周导读》第六辑

一、主站

本周一共发布了1篇日志。

本周COS主站又有一位作者加入:

  • 陈堰平:人大统计学院学生

二、维基

本周维基上面内容变化不大。

阅读全文

分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC

上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看): Sensitivity(覆盖率,True Positive Rate);1-Specificity (Specificity, 负例的覆盖率,True Negative Rate)

阅读全文

统计之都《本周导读》第五辑

大家忙着准备期末复习,本周一共发布了1篇日志。 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵。 期待胡江堂下期对传说中的ROC曲线的分解。

阅读全文

分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样的机械解释中,不敢多说一句,就怕哪里说错。本文就试图用一个统一的例子(SAS Logistic回归),从实际应用而不是理论研究的角度,对以上提到的各个评估指标逐一点评,并力图表明:

  1. 这些评估指标,都是可以用白话(plain English, 普通话)解释清楚的;
  2. 它们是可以手算出来的,看到各种软件包输出结果,并不是一个无法探究的“黑箱”;
  3. 它们是相关的。你了解一个,就很容易了解另外一个。

本文从混淆矩阵(Confusion Matrix,或分类矩阵,Classification Matrix)开始,它最简单,而且是大多数指标的基础。

阅读全文

统计之都《本周导读》第四辑

本周一共发布了2篇日志;《第一届中国R语言会议纪要》和《WinBUGS在统计分析中的应用(第二部分)》。第一届中国R语言会议纪要: 介绍了第一届中国R语言会议的相关情况,可以下载会议相关资料; WinBUGS在统计分析中的应用(第二部分): 齐韬为我们讲述WinBUGS数据分析案例并结合SAS做比较分析。

阅读全文

WinBUGS在统计分析中的应用(第二部分)

本文为WinBUGS在统计分析中的应用的第二部分,包括了数据分析案例;结合SAS做比较分析两个部分的内容。

阅读全文

第一届中国R语言会议纪要

2008年12月13日~14日,由教育部重点研究基地中国人民大学应用统计科学研究中心与中国人民大学统计学院主办的“第一届中国R语言会议”在中国人民大学明德商学楼0402教室成功召开。国内R语言的各位先锋如中国人民大学统计学院吴喜之教授、中国科学院上海生命科学研究院丁国徽博士等以及国外R语言专业人士如澳大利亚国立大学John Maindonald教授也通过网络连线会场参加了本次会议;会议围绕R语言的众多应用领域展开了广泛的交流和讨论,为R语言在中国的应用和推广开辟了一条崭新的道路。

阅读全文

统计之都《本周导读》第三辑

主站 过去的一周内,“统计之都”主站共发布两篇文章: P值究竟是个什么东西?继不得不提的P值一文之后,胡江堂继续讨论了P值的含义,参见P-val

阅读全文

WinBUGS在统计分析中的应用(第一部分)

开篇词

首先非常感谢COS论坛提供了这样一个良好的平台,敝人心存感激之余,也打算把一些学习心得拿出来供大家分享,文中纰漏之处还请各位老师指正。下面我将以WinBUGS的统计应用为题,分几次来谈一谈WinBUGS这个软件。其中会涉及到空间数据的分析、GeoBUGS的使用、面向R及SPLUS的接口包R2WinBUGS的使用、GIS与统计分析等等衍生出的话题。如有问题,请大家留下评论,我会调整内容,择机给予回答。

第一节 什么是WinBUGS?

WinBUGS对于研究Bayesian统计分析的人来说,应该不会陌生。至少对于MCMC方法是不陌生的。WinBUGS (Bayesian inference Using Gibbs Sampling)就是一款通过MCMC方法来分析复杂统计模型的软件。其基本原理就是通过Gibbs sampling和Metropolis算法,从完全条件概率分布中抽样,从而生成马尔科夫链,通过迭代,最终估计出模型参数。引入Gibbs抽样与MCMC的好处是不言而喻的,就是想避免计算一个具有高维积分形式的完全联合后验概率公布,而代之以计算每个估计参数的单变量条件概率分布。具体的算法思想,在讲到具体问题的时候再加以叙述,在此不过多论述。就不拿公式出来吓人了(毕竟打公式也挺费劲啊)。

阅读全文

P-value:一个注脚

郑冰刚提到P值,说P值的定义(着重号是笔者加的):P值就是当原假设为真时,所得到的样本观察结果更极端的结果出现的概率。以下延续白话系列,解释一下,“什么是P值,什么是极端”,算是郑文的一个长长的注脚。

阅读全文