标题党统计学

如果你是被这个标题骗进来的,那么说明标题党的存在的确是有原因的。 在网络高度发达(以及“大数据”泛滥)的今天,数据动不动就是以 GB 和 TB 的级别存储,然而相比之下,人类接受信息的速度却慢得可怕(参见大刘《乡村教师》)。 试想一下,你一分钟能阅读多少文字?一千?五千?总之是在 KB 的量级。 所以可以说,人们对文字的“下载速度”基本上就是 1~10KB/min。如果拿这个速度去上网的话你还能忍?

阅读全文

REmap入门示例

REmap是一个基于Echarts2.0 http://echarts.baidu.com/echarts2/的一个R包。主要的目的是为广大数据玩家提供一个简便的,可交互的地图数据可视化工具。目前托管在github,https://github.com/lchiffon/REmap

使用如下步骤安装:

library(devtools)
install_github('lchiffon/REmap')

REmap目前更新到V0.3,提供百度迁徙,分级统计,百度地图,热力图等功能的实现。

提示:请使用Chrome或者Firefox来作为默认浏览器

最后要声明的一点:这个包的目的是简化使用和学习的流程,如果你是一个好学的geek,请深入的学习Echarts!

特性

  1. 使用Echarts2.0封包,地图绘制使用的是SVG图形
  2. 采用百度API来自动获取城市的经纬度数据
  3. 支持Windows!

阅读全文

浅谈深度学习中潜藏的稀疏表达

“王杨卢骆当时体,轻薄为文哂未休。 尔曹身与名俱灭,不废江河万古流。”

— 唐 杜甫《戏为六绝句》(其二)

【不要问我为啥放这首在开头,千人千面千理解吧】

深度学习:概述和一孔之见

深度学习(DL),或说深度神经网络(DNN),作为传统机器学习中神经网络(NN)、感知机(perceptron)模型的扩展延伸,正掀起铺天盖地的热潮。DNN火箭般的研究速度,在短短数年内带来了能“读懂”照片内容的图像识别系统,能和人对话到毫无PS痕迹的语音助手,能击败围棋世界冠军、引发滔滔议论的AlphaGo……DNN在众多应用领域的成功无可置疑。然而,在众多(负责任的和不负责任的)媒体宣传推波助澜下,一部分人过于乐观,觉得攻克智能奇点堡垒近在眼前;另一部分则惶惶不可终日,觉得天网统治人类行将实现。作者君对此的态度如下图所示:

1

  • 小品里,黑土老大爷对头脑发热的白云大妈说过:“什么名人,不就是个人名?”
  • 对于DNN,作者君也想说:“什么怪力乱神,不就是个计算模型?”

言归正传,如果不把DNN看成上帝/天网/人工智能终点etc.,也暂不考虑当前DL和人脑思维之间若有若无的联系,那么DNN和K-Means、主成分分析(PCA)、稀疏编码(sparse  coding或Lasso)等众多耳熟能详的模型并无二致,都属于机器学习中特征学习(feature learning)范畴。假如硬说DNN有什么不同,那么大概就在一个“深”字上。从数据x中学习特征y,如果(绝大多数)传统模型写成$y = f(x)$(即学习“一个”特征变换),DNN则可以写成$y = f_N(\cdots(f_2(f_1(x))))$ (即学习“若干个级联”的特征变换)。那么究竟什么使得DNN如此效果拔群?作者君本人归纳了三点:

阅读全文

张志华教授:机器学习——统计与计算之恋

编辑部按:本文是从张志华老师在第九届中国R语言会议和上海交通大学的两次讲座中整理出来的,点击此处观看幻灯片张志华老师是上海交通大学计算机科学与工程系教授,上海交通大学数据科学研究中心兼职教授,计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前,是浙江大学计算机学院教授和浙江大学统计科学中心兼职教授。张老师主要从事人工智能、机器学习与应用统计学领域的教学与研究,迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文,是美国“数学评论”的特邀评论员,国际机器学习旗舰刊物Journal of Machine Learning Research 的执行编委,其公开课《机器学习导论》和《统计机器学习》受到广泛关注。

张志华

张志华老师和他的学生们

大家好,今天我演讲的主题是 机器学习:统计与计算之恋。我用了一个很浪漫的名字,但是我的心情是诚惶诚恐的。一则我担心自己没有能力驾驭这么大的主题,二则我其实是一个不解风情之人,我的观点有些可能不符合国内学术界的主流声音。

最近人工智能或者机器学习的强势崛起,特别是刚刚过去的AlphaGo和韩国棋手李世石九段的人机大战,再次让我们领略到了人工智能或机器学习技术的巨大潜力,同时也深深地触动了我。面对这一前所未有的技术大变革,作为10多年以来一直从事统计机器学习一线教学与研究的学者,希望借此机会和大家分享我个人的一些思考和反思。

Google-Go-Lee-Sedol-Game-3

在这场人工智能发展的盛事里,我突然发现,对我们中国的学者来说,好像是一群看热闹的旁观者。不管你承认还是不承认,事实就是和我一代的或者更早的学者也只能作为旁观者了。我们能做的事情是帮助你们—中国年轻的一代,让你们在人工智能发展的大潮中有竞争力,做出标杆性的成就,创造人类文明价值,也让我有个加油欢呼的主队。

阅读全文

R语千寻第三期:张无忌究竟爱谁?

图片 1

金庸的射雕三部曲,我最爱的是收官作《倚天屠龙记》。金老爷子在后记里曾说,三部曲中郭靖诚朴质实,杨过深情狂放,张无忌的个性却比较复杂,也是比较软弱。就我看来,这种软弱的一方面体现在他对爱情的选择困难症上。

幼时蝴蝶谷初遇殷离,便被一见钟情,后有婚诺之约;年少汉水舟中邂逅周芷若,后来互生情愫,几成良缘;光明顶遇小昭,意存怜惜,却终天人永隔;绿柳山庄遇赵敏,针锋相对,但也一生羁绊。张无忌本人态度比较暧昧,可以说是经过朱九真爱情滑铁卢之后一路上运势基本开挂,但他性格里却是拖泥带水,见异思迁,放到现在基本称得上是渣男中的战斗渣。张无忌究竟爱谁?这是一个被争得沸沸扬扬的问题,说实话,有一千个读者,就有一千个最爱。连金老爷子最后也只得承认:恐怕作者也难以说清。但是,真的说不清吗?我心血来潮,拿倚天屠龙记小说做了一把文本分析。

阅读全文

利用shiny包快速搭建可视化原型系统

前几周给大家分享了一篇《利用R语言进行交互数据可视化》的文章。文章末尾提到的在R的环境中,动态交互图形的优势在于能和knitr、shiny等框架整合在一起,能迅速建立一套可视化原型系统。今天接着给大家分享如何将动态交互图形与shiny框架整合在一起,迅速建立一套可视化原型系统。

Shiny是R中的一种Web开发框架,使得R的使用者不必太了解css、js只需要了解一些html的知识就可以快速完成web开发,且shiny包集成了bootstrap、jquery、ajax等特性,极大解放了作为统计语言的R的生产力。

Shiny应用包含连个基本的组成部分:一个是用户界面脚本(a user-interface script),另一个是服务器脚本(a server script)。

Shiny应用包含连个基本的组成部分

阅读全文

2016年“大数据时代的统计学”教学研讨会通知

2016年“大数据时代的统计学”教学研讨会暨第五届全国高校统计类专业骨干教师研修班,由应用统计硕士教指委与五校联合大数据分析硕士培养协同创新平台联合推出。

主办单位

全国应用统计专业学位研究生教育指导委员会秘书处

五校联合大数据分析硕士培养协同创新平台(中国人民大学 北京大学 中国科学院大学 中央财经大学 首都经济贸易大学)

协办单位

中国人民大学出版社

会议介绍

2016年“大数据时代的统计学”教学研讨会,定于2016年7月16-18日在北京举办。 届时我们将邀请国内知名专家示范教学方法,介绍大数据统计分析方法与技术的前沿理论和最新发展。探讨大数据时代统计学的教学创新与改革,交流教学中遇到的新问题与疑难点,分享案例教学法以及前沿发展。

阅读全文

第九届中国R语言会议(北京)纪要

第九届中国R语言会议(北京会场)、第七届中国人民大学国际统计论坛与2016百分点数据与价值国际论坛共同组成的大统计与数据科学联合会议于2016年5月27日至29日在中国人民大学成果举办。5月27日主会场位于世纪馆,5月28、29日各个分会场分别位于逸夫报告厅、国学馆报告厅及第一教学楼。

DSC04026

一、会议概况

今年是中国R语言会议举办的第九年。本次会议由统计之都与中国人民大学、北京大学、伦敦政治经济学院、百分点集团联合主办,并得到了考拉征信和量邦科技等战略合作伙伴的鼎力支持协办,以及微软、Tableau、懒投资、RStudio、记健康和纽约数据科学学院等友情合作伙伴的大力支持。在三天的会议时间里,数据科学各行各业的同仁们欢聚一堂,共襄盛举,畅所欲言。在大会会务组的不懈努力下,本次会议比往届有了更大的突破。会议共设有22个分会场,126场主题报告,覆盖大数据技术、互联网金融、量化投资、人网物联、生物信息等诸多当下热门话题。报名非常火爆,人数突破5000人,报名单位超过1500个。不仅创下历届之最,也使本次会议成为亚洲地区规模最大的数据科学盛会之一。

二、会议内容

本次会议分为第一天的主会场和其后两天的22个分会场。主会场演讲嘉宾包括学界杰出代表、业界大咖等。分会场包括互联网征信专场(考拉征信专场)、可视分析专场(Tableau冠名)、量化金融专场(量邦科技冠名)、软件工具专场(微软冠名)、经济金融专场(懒投资冠名)、汽车联网专场、自然语言专场、概率统计专场、医疗健康专场、智能制造专场、计算平台专场、生物医疗专场、商务分析专场、生物统计专场、生物信息专场、机器学习专场、智慧城市专场、计算广告专场、社交网络专场、时空数据专场,涵盖了数据科学的各个领域,讨论了数据科学在诸多领域的最新进展。

阅读全文

利用R语言进行交互数据可视化

上周在中国R语言大会北京会场上,给大家分享了如何利用R语言交互数据可视化。现场同学对这块内容颇有兴趣,故今天把一些常用的交互可视化的R包搬出来与大家分享。

rCharts包

说起R语言的交互包,第一个想到的应该就是rCharts包。该包直接在R中生成基于D3的Web界面。

rCharts包的安装

require(devtools)
install_github('rCharts', 'ramnathv')

rCharts函数就像lattice函数一样,通过formula、data指定数据源和绘图方式,并通过type指定图表类型。

下面通过例子来了解下其工作原理。我们以鸢尾花数据集为例,首先通过name函数对列名进行重新赋值(去掉单词间的点),然后利用rPlot函数绘制散点图(type=“point”),并利用颜色进行分组(color=“Species”)。

阅读全文

数据江湖,回归5式

今天要跟大家分享的主题叫做:数据江湖,回归5式!

如今啊,大数据时代,群雄割据,天下大乱。各位童鞋,闯荡江湖,凶险难测。没一些必备的看家的本领,就想从数据出发,直达价值的彼岸,恐怕很难。

为此呢,熊大教大家几招防身绝技,叫做:回归5式!简单的说,就是5种最常见的回归模型。这5个招式,看似简单,却是熊大行走江湖的看家本领。回归5式,就如同少林长拳,看似平淡无奇,但是如果辅以深厚的内力,就能威力无比。

所以呀,今天除了要教给大家这回归5式以外,熊大还要跟大家说道说道这内力的修为。没有深厚的内力修为,任何绝妙的功夫,都是花拳绣腿。

好了,闲话少说,先从回归5式开始。

阅读全文