使用ggtree实现进化树的可视化和注释

本文作者:余光创,目前就读于香港大学公共卫生系,开发过多个R/Bioconductor包,包括 ChIPseeker, clusterProfiler, DOSE, ggtree, GOSemSimReactomePA

进化树看起来和层次聚类很像。有必要解释一下两者的一些区别。

层次聚类的侧重点在于分类,把距离近的聚在一起。而进化树的构建可以说也是一个聚类过程,但侧重点在于推测进化关系和进化距离(evolutionary distance)。

阅读全文

第八届中国R语言会议(南昌会场)暨江西财经大学第一届金融大数据论坛纪要

2015年10月24-25日,英雄城南昌迎来了中国R语言会议在华中地区的首秀。会议由江西财经大学金融管理国际研究院与统计之都共同主办,由江西财经大学财政大数据分析中心协办,并且与江西财经大学第一届金融大数据论坛相结合,获得了圆满成功。会议分为第一天的主会场和第二天共四个分会场,嘉宾的演讲主题涵盖了R语言在金融大数据、统计与机器学习、数据应用与可视化以及数据科学的其他方面。

China-R-Logo-trans

一、会议概况

阅读全文

一行R代码来实现繁琐的可视化

本文作者:唐源,目前就职于芝加哥一家创业公司,曾参与和创作过多个被广泛使用的R和Python开源项目,是ggfortify,lfda,metric-learn等包的作者,也是 xgboost,caret,pandas等包的贡献者。(喜欢爬山和烧烤)

ggfortify 是一个简单易用的R软件包,它可以仅仅使用一行代码来对许多受欢迎的R软件包结果进行二维可视化,这让统计学家以及数据科学家省去了许多繁琐和重复的过程,不用对结果进行任何处理就能以 ggplot 的风格画出好看的图,大大地提高了工作的效率。

阅读全文

COS沙龙第32期(北京)纪要

salon_看图王

主题:基于时空数据的复杂系统量化分析,从科学界到工业界(spatial-temporal big data: from science to industry)

嘉宾:吴海山

主办:统计之都

场地:中国人民大学

组织:冯璟烁  邓金涛  张心雨

纪要:张心雨

阅读全文

第八届中国R语言会议(上海)

更新: 点击下载会议手册,包括所有演讲摘要。

中国R语言会议自2008年以来,已经办到了第八届。2015年,在统计之都和各地高校的支持下,已经成功举办了西安、广州、北京、南昌、武汉的会场,创造了会场数和参会人数的新纪录。上海会场,作为中国R语言会议2015年的收官之作,将于11月21日和22日在华东师范大学中山北路校区举办。我们已做好最充分的准备,热诚欢迎各界朋友的到来。希望大家一同享受这场R语言与大数据的盛宴!

China-R-Logo-trans

会议的相关情况如下:

阅读全文

COS沙龙第31期(北京)纪要

32salon

主题:Dato:从数据科学到智能应用(Dato: From Data Science to Intelligent Applications)

嘉宾:顾海杰

主办:统计之都

场地:北京大学

组织:张心雨、王健桥、冯璟烁、魏太云

纪要:冯璟烁

阅读全文

泛滥与缺失:个人征信vs. 征信误差评估

王汉生@北大光华

       最近被刺激了!有人被刺激后的反应是以头抢地尔,而教授被刺激的第一反应是:写Paper!故事的发生是这样的。一天组会,大家东拉西扯,也不知怎么就扯到个人征信上去了。于是突发奇想,我请大家把自己的手机掏出来,每个人查一下自己的“芝麻信用”分是多少。王老师的芝麻信用分高居630之多,心想:这么高的芝麻信用分,可以秒杀众多学生,然后可以得意地哈哈大笑。

001

对,就是上面这个样子:哈,哈,哈,哈。额,噢?Hold on,怎么回事,你的得分居然更高?啊,你也更高?What,你们都这么高?天啊!你们每个人的芝麻信用分都比我高!同学们的芝麻信用分最高的有730,紧跟着一个700+,剩下的虽然不到700,但是无一例外,全部比我高。王老师是整个组里芝麻信用分最低的,木有之一,太丢人了!我这下子才醒悟过来,630不是高考得分,是芝麻信用分。630是一个不怎么乐观的得分。还亏的我自己研究个人征信呢,结果被芝麻信用秒成渣!瞬间,王老师的心情变成

阅读全文

第八届中国R语言会议(武汉会场)暨华中地区数据科学会通知

R语言作为一种用于数据分析和图形展示的语言,是受S语言和Scheme语言影响发展而来,具有免费、开源及统计模块齐全的特性。其应用范围涵盖了数据挖掘、机器学习、计量经济学、实证金融学、生物统计、气象学、电子商务等诸多领域。R语言的官方机构每年都会举办useR!会议,各个国家及地区也定期会有R的交流活动。中国的R语言会议从2008年开始已经成功举办到了第八届,之前在北京、上海、广州、杭州等地举办的会议都非常成功,大力推动了R语言在国内的蓬勃发展,促进了R语言乃至数据科学在中国的推广和发展。为了让更多的人认识和熟悉R,华中地区将首次迎来中国R语言会议。2015年11月7日在湖北经济学院和统计之都等的共同努力下,R语言会议将在江城武汉举办。本次会议旨在搭建各行各业R用户技术交流的平台,拓宽R语言与数据科学、金融学、统计学、机器学习等领域结合的新视角,吸引越来越多的华中地区人士关注R语言和数据科学。

阅读全文

狗熊报告之一:社交网络数据分析与应用

周静、朱雪宁

北京大学光华管理学院营销系、商务统计与经济计量系

根据最近的一份调查数据显示,美国互联网媒体的市值已达10890亿美元,是传统媒体的3倍,类似的在中国,根据艾瑞咨询发布的2014年第二季度网络经济核心数据显示,截止2014年6月30日,中国主要上市互联网公司市值前五的为腾讯(1405.6亿美元)、百度(654.5亿美元)、京东(389.7亿美元)、奇虎360(120.9亿美元)、唯品会(111.9亿美元)。与此同时,以Facebook,Twitter,微博,微信等为代表的社交网络应用正蓬勃发展,开启了互联网时代的社交概念。据全球最大的社会化媒体传播咨询公司We Are Very Social Limited分析指出,目前社交类软件使用的人数已达25亿——占世界总人数约的35%,另据艾瑞咨询发布的2014年第二季度社区交友数据显示,2014年5月,社区交友类服务月度覆盖人数达到4.7亿,在总体网民中渗透率为92.5%;2014年5月社交服务在移动App端月度覆盖人数为1.9亿人,其中微博服务在移动端优势较为明显,月度覆盖人数达到1.1亿人;互联网媒体和社交网络是Web2.0时代两个非常重要的应用,那么一个自然的问题是这两个领域将会如何互动发展?本报告主要从数据分析(非财务、非战略)的角度尝试探讨网络结构会给互联网媒体带来什么样的机遇和挑战。具体而言,我们根据自己的研究经验只关注以下几个方面:新闻、影音和搜索,根据艾瑞咨询发布的2013网络经济核心数据显示,这三部分的收入占到中国市值TOP20互联网企业总市值的32.16%,其重要性不可忽视。我们通过具体的案例并结合理论前沿做探索性的研讨。

阅读全文

统计学发展方向的选择

看这题目,多吓唬人。又是方向,又是选择。一看就是知道作者是一个深受商学院教育毒害的砖家!但是,想跟大家说的是,我真心想把这个题目整小点,但是困难。为什么?因为接下来跟大家瞎聊的故事,确实关乎发展方向,确实关乎取舍。或者,至少关乎我自己的研究团队(小二十号兄弟姐妹)的方向和选择!

阅读全文