数据告诉你:高信誉的卖家应该收高价,还是收低价?

看到这个题目,各位看官不妨想一想,淘宝上的信誉高的卖家会收高价,还是会收低价呢?根据我多年的教学经验,这里有四种可能的答案:(A)收高价、(B)收低价、(C)不好说、(D)不知道。您选哪一种?为什么?

且听我慢慢道来。

1 eBay说:卖家信誉越高,最终成交价格越高

1

从2000年开始,以eBay为代表的电子商务发展势头迅猛,养活了一大票科研人员。eBay以网上拍卖为主要的营业方式,因此,当时科研人员的一个主要的研究题目,就是网上拍卖的卖家的信誉如何影响拍卖结果(如成交率、竞拍次数、最终成交价格等)。那么卖家的信誉和最终成交价格是什么关系呢?答案是显著的正相关关系:对于同质商品,高信誉的卖家,其最终成交价格普遍更高。

阅读全文

从搜索序列文本看高端商务车

摘要:本文对100万搜索引擎用户的13亿搜索序列文本进行探索分析,对高端车用户以及商学院人群做了描述对比,并针对用户搜索高端车品牌过程中的动态选择行为进行建模。首先,我们发现,在人群划分上,高端车用户和商学院用户表现出更加高端的属性,这主要表现在他们对生活、事业、学业上更卓越的追求。接下来,本文利用逻辑回归构建了忠诚模型,对用户在搜索过程中表现的忠诚和叛变行为进行了刻画,并对影响其忠诚行为的关键因素进行了逐一分析。根据模型的估计结果,我们发现,用户的搜索时间间隔、搜索关键词长度、搜索点击数等指标对用户忠诚行为有显著影响1。最后,我们利用成本收益曲线对模型进行了评价,并得到了良好的效果。

阅读全文

电子商务顾客评论的热点话题分析

作者:蔡越 (厦门大学经济学院统计系),郭鹏(厦门数析信息科技有限公司), 方匡南(厦门大学经济学院统计系,厦门大学数据挖掘研究中心)

摘要: 买家的评论文本数据是电子商务领域一种重要的数据形式,通过对其分析,电商卖家可以直接了解顾客对产品的态度与建议,提取顾客关注的热点问题,也可以进行顾客分类,实现精准营销,改进和提高生产和服务等;买家可以提取所关注属性的相关评价,了解舆论情感倾向,提高购物决策效率。但是大数据环境下海量文本的出现给文本数据的有效利用带来了一定的困难,比如结构化处理后的文本数据的高维特性给电子商务文本聚类等分析带来了新的挑战。本文主要研究当词条数目(变量数)远远大于评论文本数(样本数)时如何归纳顾客评论以及提取热点话题。本文抓取了亚马逊中国站热门产品kindle的评论文本,通过惩罚高斯混合模型聚类方法,同时进行文本聚类和有效词条的筛选,实现了大规模评论文本的有效、快速、自动聚类,为后续更加精细的商业分析提供了良好的基础。

关键词:顾客评论;文本分析;聚类;热点话题

阅读全文

互联网征信中的信用评分模型

摘要:面向小微商户以及个人消费的小微信贷是当前互联网金融的重要发展方向,并且正在经历爆发式增长。在这个增长过程中,如何在没有实物抵押的情况下,通过互联网大数据分析实现快速准确征信是一个非常重要的问题。为此,不同的数据来源将各显神通地为信用评估提供依据。本文将通过一个真实的案例出发,进行分析和探讨,针对用户历史行为数据建立信用评分模型,并通过该模型改进信用评估的预测效果。

关键词: 小微信贷;互联网征信;信用评分;Logistic回归模型

一、业务介绍

1. 行业介绍

小微信贷,我们定义为金额较小,并且没有抵押担保,完全靠信用的借贷行为。小微信贷可以面向个人(2C),也可以面向小微企业(2B)。对于2C类业务而言,常常是小额短期信用贷款,这是贷款是为解决借款人临时性的消费需要而发放的期限在1年以内、金额在20万元及以下的、毋需提供担保的人民币信用贷款。对于2B类业务而言,由于小微企业的信贷需求特点是 “短、小、频、急”,这种小额、短期、分散的特征更类似于零售贷款,对资金流动性的要求更高。

阅读全文

天气驱动行业销售大数据

作者:罗应琏(北京维艾思气象信息科技有限公司),朱珊(中山大学华南统计科学研究中心) ,何顺(中山大学华南统计科学研究中心),周翔(中山大学华南统计科学研究中心),李昶(北京维艾思气象信息科技有限公司) ,王学钦(中山大学华南统计科学研究中心)

摘要:自建国以来我国的气象系统已经十分完备,2015年中国气象局发布27号令后使得气象数据迈向开放数据(Open Data)新阶段,行业与公众可以使用海量气象数据助力企业,目前行业数据和海量气象数据还没有得到完全应用。本文主要研究气象数据对销售的影响,进而利用气象数据特性完成天气驱动行业销售的预测。我们以两个零售行业的销售数据为例,结合气象局提供的天气数据进行分析。同时,我们在分析中加入了经济因素,如上证指数和CPI数据来提供外部环境支持。与传统的预测不同,在气象数据中,我们不仅知道目前时间点的数据,也有目前公众唾手可得的未来七天精确天气预报。我们采用目前流行的机器学习算法随机森林来建模,得到了很好的泛化结果。我们的预测模型可以解决销售行业传统通过从业人员的主观判断进行销售预测的局限,利用大数据分析实现更加精确可靠的指导。

关键词:气象数据、销售预测、随机森林、大数据分析

阅读全文

统计之都十周年感言

呐,统计之都已经创建十周年。作为所谓的创始人,自然也是时候卷起袖子跟大家一起干一大碗鸡汤,毕竟十年这个时间长度听起来好像还蛮厉害的。不巧最近这些天挺忙,加上我其实并不太喜欢专门写文字给乌泱乌泱的客官们看,年龄越大,就越不愿意去安利别人。这篇十周年感言如何写,每天晚上苦苦思考三分钟之后就睡得特别香。想全面概括这十年的发展是不可能的,只能用我最擅长的意识流方式想到哪儿说到哪儿了,这篇文章基本上是纯个人视角,无意借机强行输出价值观。

阅读全文

基于驾驶行为数据的UBI车险模型

作者:

  • 陈星(中央财经大学统计与数学学院,北京)
  • 潘蕊(中央财经大学统计与数学学院,北京)
  • 黄亮(彩虹无线(北京)新技术有限公司,北京)

摘要:本文的研究内容为UBI车险业务。本文通过车辆前装设备采集驾驶行为数据,并与同期车辆出险情况建立Logistic回归模型,通过该模型挖掘对车辆出险情况具有显著影响的驾驶行为变量,并对其影响程度进行分析。根据分析结果,本文对其在行程打分与车险保费定价两部分业务的实施进行了分析,并对其预期效果与可能存在的问题展开了进一步讨论。

关键词:车联网大数据;驾驶行为;Logistic 回归模型;UBI车险

阅读全文

丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑

大家好,我是水妈,在大学工作,主要教统计学。今天代表狗熊会,发起一个新的系列,丑图百讲。这个系列不讲炫酷的、高大上的统计图,而是给大家分享如何画好最基础的统计图

读者可能会问,为什么要分享统计画图?熊大说了,数据分析的第一步,是梳理业务目标,接下来才是分析数据。水妈认为,在分析数据环节,第一步是做描述分析。这里的描述分析,包括三个内容:一、明确行业背景和变量含义;二、用统计图、统计表以及各种统计指标对数据进行描述;三、适当的解读描述的结果,发现问题,支撑后续的建模。其中,第二个环节尤为重要,因为统计图是最容易给人留下深刻印象的。做好了,能给你的报告或者展示加分,帮助你发现数据当中的问题。做不好,那就是一场灾难。

读者可能又要问,最基础的统计图有什么好讲的啊。我看过太多学生的报告,学生看自己画的图,就像是看自己家孩子,越看越喜欢,殊不知别人早就受不了你在朋友圈天天晒娃娃了。大家不要觉得画最最基础的统计图这件事情非常简单容易,可谓不画不知道,一画吓一跳。真的自己动手去画,才知道自己画出来的图有多丑。

阅读全文

某智能手机新机上市营销策略应用分析

近年来,深耕国产手机市场多年的某手机及家电品牌厂商推出了旗下智能手机独立子品牌,之后不定期推出该品牌的系列新产品。随着智能手机竞争日趋激烈,新机上市时,如何从国产智能手机大军中脱颖而出,并获得消费者的青睐,就需要一套行之有效的适合市场的营销策略。本文主要总结此智能手机品牌利用大数据分析与数据挖掘技术,辅助其实现新品上市营销的策略过程。

阅读全文

基于机器学习的高价值用户自动发现

猎聘每天有数万新用户注册。但是,其中有的用户只是填写了少量的职业信息,即名片信息,而并未完成整个简历的填写。为获得完整的简历,猎聘职业顾问团队(GCDC)需要电话联系该部分用户完善简历。历史数据表明,未填写简历的用户中有相当数量的高价值的用户,而猎聘职业顾问需要能够优先拨打这批高级用户并提升其转化率。

阅读全文