RStudio的前世今生——RStudio创始人专访

本文是一篇Joseph B Rickert(简称JBR)对J.J. Allaire(RStudio的创始人和首席执行官)的采访稿,原文在此。统计之都与作者沟通后得到授权将其翻译为中文,希望可以让广大读者能够更多了解在R的世界中这个叫RStudio的地方。在这次采访中讨论了RStudio的历史、使命和J.J.的未来愿景。 短暂的交谈中讨论了各种各样的主题,包括RStudio的业务、R语言的发展、R联盟对R社群的重要性以及J.J.对R新手们的建议。

阅读全文

第九届中国R语言会议(武汉) 暨华中地区数据科学会议通知

R语言作为统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境,是一个基于GNU系统自由、免费、源代码开放的软件。每年R的官方机构都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在中国,自2008年起,北京、上海、杭州、广州等地已经成功举办了八届R语言会议,前后报名参与人数超过万人。会议内容覆盖数据科学在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域,在高校和业界均形成了深远影响,促进了R语言乃至数据科学在中国的推广和发展。如今R语言会议已成为R语言社区在国内影响力最大的交流盛会,聚学术专家、业界精英、技术大咖于一堂,让更多的数据人参与其中,促进社区内部的交流和进步。

阅读全文

COS沙龙第39期(北京)纪要

第39期沙龙(北京)于2016年11月5日在中国人民大学顺利举办。本次沙龙由人大统院本科生杨舒仪主持,嘉宾李翛然先生于利兹大学金融数学系取得硕士学位。 先后从事过寿险精算,投资银行工作。于2014年创办北京奇点创世信息技术有限公司,主要业务领域为二级市场金融风险管理系统。现已有10余家金融机构、私募基金采用该系统为客户和自营交易提供风险管理及投资顾问服务。其主要工作经历覆盖了一级市场的发行,尽职调查,搭建企业信用分析系统,二级市场的量化分析,风险管理SAAS系统。

阅读全文

第九届中国R语言会议(贵阳)暨西南地区数据科学会议通知

一、会议概况

R语言是一种在统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境,其官方机构每年都会举办中国R语言会议,各个国家及地区也定期有R用户的交流活动。中国R语言会议自2008年在中国人民大学举办第一届起,至今为止已经在全国七个城市成功举办,前后报名参与人数已过万人。会议内容覆盖数据科学在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域,在高校和业界均形成了深远影响。

R语言在各行各业的广泛应用,受到了西南地区数据人的高度重视,因此西南地区数据科学的各类用户需要一个可以交流技术,碰撞思维的平台。为了适应这种需求,中国R语言会议首次走入贵州。本届中国R语言会议(贵阳)暨西南地区数据科学会议将由贵州大学数学与统计学院、贵州省博弈决策与控制系统重点实验室和统计之都联合主办,诚邀学界和业界精英同台演讲交流,共同进步提高!

第九届中国R语言会议(贵阳)暨西南地区数据科学会议欢迎您!

阅读全文

第九届中国R语言会议(广州) 暨华南地区数据科学会议通知

一、会议概况

R语言作为统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境,是一个基于GNU系统自由、免费、源代码开放的软件。每年R的官方机构都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在中国,自2008年起,北京、上海、杭州、广州等地已经成功举办了八届R语言会议,前后报名参与人数超过万人。会议内容覆盖数据科学在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域,在高校和业界均形成了深远影响,促进了R语言乃至数据科学在中国的推广和发展。如今R语言会议已成为R语言社区在国内影响力最大的交流盛会,聚学术专家、业界精英、技术大咖于一堂,让更多的数据人参与其中,促进社区内部的交流和进步。

R语言在电商、互联网、金融、医疗、生物医学等领域广泛的应用前景吸引着越来越多华南地区数据人开始关注R与数据科学,来自各行各业的R用户需要这样一个平台交流技术,碰撞思想,广州R语言会议正是适应这种需求而举办。2014年11月,在华南统计科学研究中心、中山大学数学学院以及统计之都的多方努力下, R语言会议首次在华南地区主办,随后,2015年5月,华南地区第二次R语言会议也在中山大学成功召开,报名情况火爆,约有1400多人报名参会。 2016年中国R语言会议(广州)将由华南统计科学研究中心、中山大学数学学院与统计之都联合主办,将在往届会议的基础上进一步扩大R语言和数据科学的影响力,诚邀学界和业界精英同台演讲交流,愿与更多的数据爱好者探讨数据科学,共同进步提高!第九届中国R语言会议(广州),欢迎各位的到来!

阅读全文

热门数据挖掘模型应用入门(一): LASSO回归

作者简介: 侯澄钧,俄亥俄州立大学运筹学博士, 目前在美国从事财产事故险(Property & Casualty)领域的保险产品开发,涉及数据分析,统计建模,产品算法优化等方面的工作。

目录:模型简介线性回归Logistic回归Elstic Net理论简介学习资料

阅读全文

Python的七种武器

君子生非异也,善假于物也。

“物”能够延展英雄的能力。它是吕布的赤兔马,杨过的玄铁重剑,CS中的沙漠之鹰,曹操传中的凤凰羽衣。“物”也可用以治愈英雄,例如张无忌的黑玉断续膏,李逍遥的天香续命露,还有深夜里TVB的一碗面。

阅读全文

R与并行计算

作者简介

赵鹏,世界知名IT企业性能分析师。在包括多核、分布式以及GPU通用计算方面具有丰富的研究和实践经验,善于帮助客户解决性能问题以及提供并行化方案。R语言爱好者,业余时间创建了ParallelR网站,以此来分享R和并行计算相关内容。

文章摘要

本文首先介绍了并行计算的基本概念,然后简要阐述了R和并行计算的关系。之后作者从R用户的使用角度讨论了隐式和显示两种并行计算模式,并给出了相应的案例。隐式并行计算模式不仅提供了简单清晰的使用方法,而且很好的隐藏了并行计算的实现细节。因此用户可以专注于问题本身。显示并行计算模式则更加灵活多样,用户可以按照自己的实际问题来选择数据分解,内存管理和计算任务分配的方式。最后,作者探讨了现阶段R并行化的挑战以及未来的发展。

阅读全文

第九届中国R语言会议(厦门)会议通知

第九届中国R语言会议(厦门) 暨厦门大学数据科学与量化金融研讨会 一、会议概况 随着现代科学技术尤其是计算机、网络信息、生物工程等技术的快速发展,

阅读全文

为什么我不是R方的粉丝

本文翻译自 John Myles White 的博客 Why I’m Not a Fan of R-Squared。翻译工作已经获得作者授权同意。

本文大意

人们通常喜欢用 $R^2$ 作为评判模型拟合好坏的标准。与 MSEMAD 不同,$R^2$ 不只是模型误差的函数,它的定义中还隐含了两个模型的比较:一个是当前被分析的模型,一个是所谓的常数模型,即只利用因变量均值进行预测的模型。基于此,$R^2$ 回答的是这样一个问题:“我的模型是否比一个常数模型更好?”,然而我们通常想要回答的是另一个完全不同的问题:“我的模型是否比真实的模型更差?

通过一些人为构造的例子我们可以很容易发现,对这两个问题的回答是不可互换的。我们可以构造一个这样的例子,其中我们的模型并不比常数模型好多少,但同时它也并不比真实的模型差多少。同样,我们也可以构造出另一个例子,使得我们的模型远比常数模型要好,但也远比真实模型要差。

与所有的模型比较方法一样,$R^2$ 不单是被比较模型的函数,它也是观测数据的函数。几乎对于所有的模型,都存在一个数据集,使得常数模型与真实模型之间是无法区分开的。具体来说,当使用一个模型区分效能很低的数据集时,$R^2$ 可以任意地向零趋近——即使我们对真实模型计算 $R^2$ 也是如此。因此,我们必须始终记住,$R^2$ 并不能告诉我们模型是否是对真实模型的一个良好近似:$R^2$ 只告诉我们,我们的模型在当前的数据下是否远比一个常数模型要好。

阅读全文