当前位置: 100md首页 > 医学版 > 医学资料 > 资料下载2021
编号:5360
数据思维从数据分析到商业价值.pdf
http://www.100md.com 2020年11月10日
第1页
第5页
第17页
第23页
第42页
第80页

    参见附件(15982KB,262页)。

     数据思维从数据分析到商业价值

    数据产生价值,即数据分析产品化的过程——将希望改变的变量和影响改变的变量,交由专业人士分析两者的相关关系,形成具体动作来创造价值,小编给大家准备了数据思维从数据分析到商业价值的资料,有需要的就快来吧

    书籍部分内容预览

    内容简介

    本书由微信公众号:狗熊会创始人王汉生教授(熊大),及其核心团队联合创作完成。本书可以被看作商业分析(business analytics)领域入门级通俗且有趣的读物,深入浅出,雅俗共赏。

    适合数据分析师、工程师、产品经理、销售、BD、以及数据企业中高管阅读。 本书主要由五章组成。第一章介绍了熊大朴素的数据价值观,解读数据与价值的逻辑关系;

    第二章介绍了最基本的数据可视化方法(统计图表)的规范与有趣应用;第三章介绍了回归分析,通过精彩案例展示了如何将一个业务问题定义成为一个数据可分析问题;

    第四章介绍了机器学习,可以看作是第三章技术上的一个重要补充;第五章展示了各种常见的非结构化数据分析(文本、图像)的有趣案例。

    书籍特点

    全书是公众号“狗熊会”的文章的精选,文章都还比较下功夫,但是集结起来看不够全面系统,有的还略显重复。

    书中有一些图表的使用技巧,简单介绍了回归分析和机器学习,还有一部分是中文文本分析的案例。

    所有的案例都没提到具体的实现细节,有些是用excel或R画图可以实现的,有些则需要编程处理。

    案例比较有意思。

    书的装帧不错,图是彩色的看起来比较舒服。数据图表的排版与样式花了些功夫,虽然比不上经济学人的图表,还算可以。

    总体评价3星,有一定参考价值。

    精彩书摘

    1:因为你确立了一个可以量化的参照系,而这个参照系就是客户现有的系统。如果没有这个参照系,又想说明75%的精度是有价值的,是不是无比艰难?P19

    2:这就是回归分析要完成的三个使命:识别重要变量;判断相关性的方向;估计权重(回归系数)。P25

    3:当一个离散型变量只有两个取值的时候,无论在报告里还是在PPT里,都不建议画饼图,因为很容易画成图2-22的丑样。P54

    4:对数变换可谓是画图界的整客神器,专门解决各种不对称分布、非正态分布和异方差现象等问题。P72

    5:本案例将最经典的技术分析方法之一——均线策略,运用于中国股票市场。通过本案例可以发现,以时间序列模型为基础的均线策略在中国市场有不错的表现,这证明时间序列分析的有用性。P107

    6:这里给大家分享一个竞价分配方案:50%预算购买行业词,30%预算购买主打产品词,20%预算购买长尾词。P204

    7:用各角色与梅长苏出现在同一自然段的次数作为亲密度的衡量指标。

    新闻资讯

    《数据思维——从数据分析到商业价值》一书成于2017年9月,由王汉生及其核心团队联合所著(王汉生——北大光华管理学院商务统计与经济计量系主任)。本书可以被看作商业分析(business analytics)领域入门级通俗且有趣的读物,深入浅出,雅俗共赏。

    本书主要由五章组成。第一章介绍了熊大朴素的数据价值观,解读数据与价值的逻辑关系;第二章介绍了最基本的数据可视化方法(统计图表)的规范与有趣应用;第三章介绍了回归分析,通过精彩案例展示了如何将一个业务问题定义成为一个数据可分析问题;第四章介绍了机器学习,可以看作是第三章技术上的一个重要补充;第五章展示了各种常见的非结构化数据分析(文本、图像)的有趣案例。

    本书的核心观点是其朴素的数据价值观,即数据产业实践不是单纯的数据分析与建模,而是要在一个产业环境下,让数据产生价值。事实上,从数据分析到商业价值的实现至少涉及三个关键环节:数据业务定义(把一个具体业务问题定义成一个数据可分析问题)、数据分析与建模(描述统计、数据可视化、回归分析、机器学习)、数据业务实施(流程改造、产品设计、标准制定、重构商业模式等),第一和第二环节属于数据分析,第三环节属于商业价值实现。

    首先,数据业务定义是要把“业务问题”定义成“数据可分析问题”。只有把业务问题准确定义成一个数据可分析的问题,数据分析与建模才能有用武之地。什么样的问题可以被看作数据可分析问题?你需要找到两种变量:第一种是因变量Y:因为别人的改变而改变的变量,这是业务的核心诉求;第二种是自变量X:用来解释因变量Y的相关变量,通俗点说,自变量X的改变,影响了因变量Y的变化。X表现了数据分析者对业务的洞见。

    其次,数据分析与建模是根据已经确定的因变量Y和自变量X(数量可以是多个),判断好Y和X的相关性方向,并评估好各X变量的权重,进行建模。通过数据可视化(柱状图、饼图、直方图等)、回归分析(线性回归、0—1回归、定序回归等)、机器学习(决策树、回归树、深度学习等)和非结构化数据(中文文本、网络结构数据、图像数据等)等分析工具对已有的巨量数据进行处理,提取出业务诉求因变量Y的相关影响因素自变量X,并建立可以对业务起到促进作用的模型,指导实际生产工作。

    最后,数据业务实施是根据数据分析和建模的结果进行流程再造和产品改进,实现数据的商业价值。即使数据分析德再好、模型建立得再漂亮,如果无法落地成为可被执行的数据产品,那数据的商业价值还是没有实现。商业价值三要素:收入、支出、风险,在这三个方面中的任何一个方面实现可量化的改进,即提高收入、减少支出或减小风险,那么这个数据的商业价值就比较容易说清楚,否则非常困难。

    联系到我们工作现实情况,在第一环节中,很多业务部门只是知道自己需要数据分析,这些业务部门人员没有受过相对专业的训练,提不出自身的需求,也就是知道自己有因变量Y和自变量X,但是却不知道Y变量和X变量是什么,所以数据分析价值的观念继续在业务部门进行普及。

    黑龙江垦区发展数字农业始于2002年3S技术应用,到今天已经有17年,成果显著。在部分农场应用“3S”技术(机车作业卫星导航系统GPS、地理信息系统GIS、农业遥感技术RS),有效发挥物联网平台功能,推进农业智能化发展;近三年,垦区每年打造“互联网+农业”高标准示范基地二十余个,探索以物联网为基础的智能化农业;新建智能化水稻工厂化芽种生产基地和智能化育秧中心,水稻育秧实现全程机械化和智能化相结合;垦区大多数农场建设了精准农业试验示范基地,实现农机综合作业监管、农机自动导航驾驶系统应用和精准施肥控制系统应用;农业标准化提档升级;在北大荒农业股份有限公司总部及其下属十五家农业分公司实施了农业物联网项目;垦区建立了农场种植业生产管理信息系统、作物种植技术决策系统、测土配方施肥信息系统、农机管理数据库系统、农机作业定位跟踪系统、农机作业及农具场远程视频监控等生产管理信息系统的建设。目前垦区已经有大量智慧农业生产数据,如何加快实现海量数据价值变现,推进数字资源资产化,是我们正在积极探索并努力推进的重要课题。

    数据思维从数据分析到商业价值截图

    书名:从数据分析到商业价值

    作者:王汉生

    出版社:中国人民大学出版社

    出版日期:2017-09

    ISBN:978-7-300-24856-1目 录

    1.

    2. 序 一

    3. 序 二

    4. 序 三

    5. 前 言

    6. 狗熊会简介

    7. 绪论Introduction 大数据时代之“皇帝的新装”

    8. 第一章Chapter One朴素的数据价值观

    1. 什么是数据?

    2. 数据的商业价值

    3. 数据到价值的转化:回归分析的“道”与“术”

    4. 搞清客户需求

    5. 中国数据科学的风口

    9. 第二章Chapter Two数据可视化

    1. 实力派:准确+有效

    2. 偶像派:简洁+美观

    3. 柱状图

    4. 堆积柱状图

    5. 柱状图之妙用

    6. 饼图

    7. 直方图

    8. 折线图

    9. 散点图

    10. 箱线图

    11. 茎叶图

    10. 第三章Chaper Three回归分析

    1. 什么是回归分析?

    2. 线性回归——北京市二手房房价

    3. 线性回归——中国电影票房

    4. 线性回归——线上女装销量预测

    5. 线性回归——股票投资中的均线策略

    6. 0-1回归——某移动通信公司客户流失预警分析

    7. 0-1回归——车险数据分析与商业价值

    8. 0-1回归——点击率预测在R T B广告投放中的应用

    9. 定序回归——信用卡逾期数据分析

    10. 计数回归——英超进球谁最强11. 生存回归——新产品在架时长研究

    11. 第四章Chapter Four机器学习

    1. 朴素贝叶斯——12345,有事找政府

    2. 决策树——非诚勿扰

    3. 决策树——二手车保值比率那些事儿

    4. 回归树与提升算法——世界这么大,想去哪儿看看?

    5. 深度学习——图像自动识别

    6. 深度学习——打麻将

    7. K均值聚类——狗熊皮鞋的百度广告投放

    12. 第五章Chapter Five非结构化数据

    1. 中文文本——小说的三要素:以《琅琊榜》为例

    2. 中文文本——从用户评论看产品改善

    3. 中文文本——空气净化器的好评率影响因素分析

    4. 中文文本——数据分析岗位招聘情况的影响因素分析

    5. 中文文本——张无忌最爱谁

    6. 网络结构数据——《甄嬛传》中的爱恨情仇

    7. 图像数据——通过图片识别PM2.5

    8. 刷卡数据——互联网征信>>更多新书朋友圈免费 分享微信xueb789序 一

    与狗熊会的结缘始于五年前。2012年,我在拉卡拉支付有限公司任集团高级副总裁,承蒙集团董事长兼总裁孙陶然先生和松禾资本厉伟先生的推荐,有幸考入北京大学光华管

    理学院就读工商管理硕士,在燕园结识了商学院多个领域的顶级专家和教授。

    狗熊会的定位是致力于数据产业的高端智库。先和大家分享一下我和数据产业亲密接

    触的过程,或许和众多数据领域的创业者们有着一样的心路历程。

    2015年1月5日,中国人民银行印发《关于做好个人征信业务准备工作的通知》 ,要

    求八家机构做好个人征信业务的准备工作,考拉征信位列其中。受集团委托以及董事会任

    命,我出任考拉征信总裁。虽然我有十余年支付结算领域的工作经验,但是在个人征信方

    面几乎是一片空白,工作一时难有头绪。于是,在最初的几个月里,我把大部分时间和精

    力用于学习和交流。我陆续拜访了监管部门、征信业同行、金融机构以及多家大数据公

    司,发现三个问题:(1)很多机构对征信业务的方向、产品以及服务模式认识不清晰;

    (2)相当一部分大数据公司缺乏好的商业模式和盈利能力;(3)技术储备不足,数据统

    计模型设计普遍不强。前两个问题很难在 短期内解决,需要在长期的市场实践中逐步清

    晰完善。唯有第三个问题或许可以尽快解决,那就是产学研相结合。于是我找到了熊大,也就是王汉生教授。王教授是北京大学光华管理学院统计与经济计量系主任,在国内统计

    和数据科学领域具有极高的知名度。双方合作由此展开,并成立了联合研究组。由王教授

    带领的狗熊会团队定期来到公司,双方的数据和模型团队联合作业,对多个产品和评分模

    型进行了长期深入的研究,成果显著。

    2016年年底我投身于大数据领域的创业热潮。在机缘巧合下,受熊大的邀请有幸出任

    狗熊会CEO。此时狗熊会已经与近十家机构开展了联合研究工作,涵盖征信、广告、车联

    网、消费金融、证券、汽车等多个领域。同时,狗熊会微信公众号聚集了大量粉丝,其中

    70%是来自高校的老师和学生,30%是来自大数据企业的从业者。狗熊会团队出品的精品

    案例甚至已经走进课堂和企业内部的分享培训。

    狗熊会的快速发展伴随着中国数据产业的蓬勃兴起,其使命是聚数据英才,助产业振

    兴。其文化内涵体现在三个方面:一是创造。首先是内容创造,无论是案例还是教材以及

    研究成果,始终坚持原创,均出自狗熊会成员的智慧。其次是价值创造,知识成果能够为

    合作伙伴带来数据价值和商业价值。二是分享。助力院校培养更多应用型的数据科学人

    才,帮助企业提升数据科学水平,共同分享育人的欣慰、科研的成果和智慧的结晶。三是

    陪伴。从点滴做起,或许是一个案例、一个模型,抑或是一本书、一堂课,还有可能是一

    个学科、一个专业,狗熊会将始终乐于与大家并肩而行,陪伴中国数据科学产业共同成

    长。桃李不言,下自成蹊。欢迎数据科学领域的莘莘学子与从业者关注和加入狗熊会!

    >>更多新书朋友圈免费分享微 信xueb789

    狗熊会CEO李广雨序 二

    我与王汉生教授相识于北京大学光华管理学院,作为共事多年的老同事,汉生对学术

    研究的执着、对教书育人的用心都给我留下了深刻印象,用“诲人不倦、古道热肠”来评价

    恰如其分。这些年,随着中国数据科学产业的蓬勃发展,汉生意识到数据科学人才的匮

    乏,遂发起成立了狗熊会,旨在聚数据英才,助产业振兴,在资本喧嚣繁华之下尤为难

    得。值其新书《数据思维》出版之际,汉生委托我写序。盛情难却,故将感慨之言以示支

    持。

    2009年,我有幸与几位小伙伴一起创立了一家大数据公司———百分点,身份也从一

    名大学教授转变成一个在商海中打拼的创业者,在大数据这个最热门的“风口”摸爬滚打七

    八年,接触几千家客户后感慨良多。中国经济经历了30多年的快速发展并取得了举世瞩目

    的成就,经济水平、市场规模、企业数量和质量都取得了飞跃式发展。但不可否认的是,在信息技术层面,我们是断层的,延续性也比较差,并未跟上国家的经济发展水平。西方

    国家能够比较容易从传统IT平稳延展到云计算、大数据,而我们在不同行业则呈现出千差

    万别的状况,我想这种情况跟思维有着密不可分的关系。

    机械思维带来了工业革命,数据思维则引爆智能革命。传统机械思维的核心思想是确

    定性和因果关系,任何事情一旦发生,则必然会产生结果,一定有可用的模型来描述其发

    生的原因。而到了数据时代,这个世界正在变得越来越复杂,不确定性无处不在,强相关

    性则取代了过去的因果关系,数据中包含的信息以及数据之间的相关性则可以帮助我们消

    除不确定性。在中国大数据产业方兴未艾之际,需要更多人拥有数据思维,无论是政府机

    构的决策者、商业组织的管理者,还是普通员工、老百姓,都需要学习和了解数据思维。

    人们常说:“思维决定命运。”对于即将到来的智能革命,将会是一个崭新的开始,大家都

    需要用数据思维来重新认识这个世界。相信汉生这本《数据思维》一定会给广大读者带来

    受益良多的启发。

    王汉生教授也是百分点科学委员会的首席统计学家,在百分点的核心技术、产品研

    发、大数据项目中给予了大力帮助和支持。此外,百分点与狗熊会都意识到数据科学人才

    培养的重要性。近年来,百分点与狗熊会联合举办了多场数据科学培训活动,我们都希望

    涌现出更多的人才来推动国家数据科学产业的快速发展。

    “21世纪什么最贵?人才!”电影中黎叔这句话道出了这个时代的真理。人才的培养,首先体现在思维上,思维跟不上,则永远跟不上。在大数据一线奋斗多年,让我尤其感叹

    大数据人才在各个行业中的匮乏,也深深明白汉生所做工作的意义和价值。但愿有更多的

    人能够读到这本《数据思维》,从而为自己开启一个不一样的新世界。

    百分点集团董事长兼CEO苏萌序 三

    我非常荣幸地阅读了王汉生教授撰写的《数据思维》一书。我首先要祝贺汉生教授和

    他的团队狗熊会,感谢他们的卓越工作。当今,大数据和人工智能是两大最有活力的热点

    领域,而现代人工智能的发展本质上也是应数据而驱动。数据思维展示了观念的转换,从

    而推动了技术的突破。

    汉生教授是著名的统计学家,他早年主要从事统计学的理论研究,后来重点关注产业

    界实际问题的数据分析。特别是近几年,他以敏锐的眼光抓住了学科发展的态势,组建了

    狗熊会团队。他们从业界中寻找数据科学的实际问题,并帮助业界寻找解决问题的可行途

    径,由此积累了一批翔实的数据分析案例,这夯实和丰富了数据学科的内涵。《数据思

    维》一书正是他们实践的总结,蕴涵了汉生教授对数据科学的思考和探索,也体现了汉生

    教授及狗熊会的时代使命和科学情怀。他们是“聚数据英才,助产业振兴”的践行者,他们

    的具体行动对“皇帝的新装”给出了最有力的鞭挞。

    该书不是仅仅基于文献的总结,也不是基于数学公式的堆砌,而是利 用作者自己完

    成的案例来对经典和现代的数据分析工具和方法进行重新认识。该书视角独特,语言活

    泼、风趣、幽默,处处闪烁着作者的思想光芒。我相信它将是一本非常好的数据科学通识

    读物,该书的出版对数据科学的普及和推广是及时的。我再次祝贺和感谢汉生教授!

    北京大学数学学院教授张志华前 言

    市场上已经有那么多关于数据科学(或者大数据)的书了,为什么还要再写一本呢?

    这是一个很好的问题,我也问过自己八百遍。说老实话,有点稀里糊涂,有点说不清楚。

    直到有一天,狗熊会公众号(微信ID:CluBear)上发了一篇题为《关于应用型高校“数据

    科学与大数据技术”专业建设的一些思考》的文章,探讨产业实践之于数据科学教育的重

    要性。文章发表后,一位热心读者的留言吸引了我的注意力。这位朋友的留言大意是产业

    实践可以通过参加类似K aggle的数据建模比赛获得。支撑这个观点的一个原因是这种类

    型的比赛所使用的数据都来自真实的数据产业,有定义清晰的业务问题,所以,通过参加

    此类比赛,或者接受类似的训练,就可以获得不错的产业实践经验。但是,我的看法有所

    不同。我对数据产业实践的理解可能更丰富一些。

    我认为数据产业实践的核心任务是:让数据产生价值。更准确地说,是在真实的产业

    环境中,让数据产生可被产品化的商业价值。这个商业价值是一个广义的商业价值,既包

    括企业的价值,也包括政府的价值。从这个角度看,数据产业实践至少涉及三个关键环

    节:数据业务定义(把一个具体业务问题定义成一个数据可分析问题)、数据分析与建模

    (描述统计、 数据可视化、回归分析、机器学习)、数据业务实施(流程改造、产品设

    计、标准制定等)。这三个环节缺一不可。而各种数据建模比赛主要关注的是第二个环节

    (数据分析与建模)。对于第一个环节(数据业务定义)与第三个环节(数据业务实施)

    能够提供给大家的训练很少。原因很简单,第一个和第三个环节属于赛事主办方的思考范

    畴,不需要参赛者再操心。参赛者只要对第二个环节发力就可以了。当然,能够对第二个

    环节提供优质的训练,这仍然是非常值得称赞的事情。

    带着对第二个环节无限的尊重,我想说,其实另外两个环节可能更加重要,而且极具

    挑战性。如果不能把一个业务问题(例如客户价值提升)定义成数据可分析问题,那么任

    何数据分析都是胡说八道。只有把业务问题准确定义成一个数据可分析问题,数据分析与

    建模才能有用武之地。最后,即使数据分析得再好、模型建立得再漂亮,如果无法落地成

    为可被执行的数据产品,那所有的努力也都是白费的。因此,从这个角度看,这两方面更

    加重要。而这就是狗熊会的核心理念,可能会和很多书籍文章中的看法有所不同。为了方

    便起见,我称之为朴素的数据价值观。

    朴素的数据价值观认为,数据产业实践不是单纯的数据分析与建模,而是要在一个产

    业环境下,让数据产生价值。为此,前面提到的三个环节都非常重要,尤其是第一个和第

    三个。而写作本书的目的就是要同大家分享狗熊会朴素的数据价值观。

    为了更好地分享,本书大量采用了狗熊会的精品案例。章节内容都是从狗熊会发布的

    精品案例的微信推文直接润色修改形成的。因此,这些内容继承了狗熊会精品案例的一些

    有趣的基因:(1)尽最大的努力把业务问题定义清晰;(2)尽最大的努力让数据分析与建模瞄准业务问题;(3)尽最大的努力让最终分析结果有产品化的可能。这三个基因也

    正好对应了数据产业实践的三个重要环节。为了增加阅读的趣味性,所有案例的写作风格

    都诙谐幽默,但努力不失科学的严谨。当然,由于各个案例的作者不尽相同,不同章节的

    写作风格也有所不同,这可能会在一定程度上影响阅读 体验,对此,我表示深深的歉

    意,请大家原谅。同时为了方便读者利用碎片化时间进行阅读,所有案例之间基本上互相

    独立,因此,大量章节可以独立阅读,而不受制于前后内容的逻辑顺序。此外,特别值得

    强调的是,为了降低阅读难度,本书几乎不涉及任何数学符号和计算机代码。但是,这并

    不代表这些案例是虚构的或者肤浅的。事实上,狗熊会精品案例的生产是一个非常艰辛的

    过程。一个非常有经验的精品案例Leader,带领自己的团队,一年最多生产5个精品案

    例。不敢说这些案例多么了不起,但确实是创作团队的心血之作。

    在内容组织方面,本书从基本理念入手,按照不同的数据分析方法,由浅入深,组织

    成不同的章节。其中,第一章系统阐述狗熊会朴素的数据价值观。第二章对经典的统计图

    表做了系统幽默的阐述。其原型来自狗熊会公号的“丑图百讲”系列。第三章系统阐述我们

    对于回归分析的理解。在“道”的层面,回归分析是一种重要的思想,是一种将业务问题定

    义成数据可分析问题的能力;而在“术”的层面,回归分析才是我们常见的各种模型。第四

    章主要讨论传统的机器学习方法,以及最近很火爆的深度学习。最后一章分享了狗熊会这

    些年来积累的众多非结构化数据分析的有趣案例,其中涉及中文文本、网络结构、图像分

    析等不同领域。

    本书由狗熊会的核心创作团队,在熊大的“压迫剥削”下,齐心协力,经过多次讨论、修改而成。参与创作的成员有(按姓名拼音排序):常象宇(政委)、陈昱(昱姐)、黄

    丹阳(小丫)、刘婧媛(媛子)、罗荣华(康爸)、潘蕊(水妈)、王菲菲(灰灰)、王

    汉生(熊大)、周静(静静)、朱雪宁(布丁)。创作团队付出了巨大的心血和努力。其

    中特别要感谢两位朋友:一位是百分点集团的董事长兼C E O苏萌博士,是他的启发与鼓

    励坚定了我们写作的决心;另一位是中国人民大学出版社的李文重编辑,他为书稿的形成

    付出了巨大的努力,帮助本书选择书名、安排章节、修改文字。大家为什么愿意做出如此

    辛苦的努力与付出呢?我想都是基于狗熊会的理念:聚数据英才,助产业振兴。这是狗熊

    会从创立之初到现在从未 改变的理念。

    ●聚数据英才说明狗熊会关注数据科学相关的基础教育,并愿意为之付出卓绝的努

    力。狗熊会希望通过提供优质的教育素材,帮助年轻人成长,享受数据分析的快乐,而不

    是痛苦,并在这个过程中实现个人职业的幸福成长。

    ●助产业振兴说明狗熊会看重产业实践,并认为这才是产生数据科学知识的唯一源

    泉。狗熊会立志要通过自己微薄的努力,陪伴数据产业一起成长。狗熊会感激每一位曾经

    合作过的企业伙伴,是他们的鼓励支持让狗熊会站在了中国数据产业实践的第一线,并因

    此产生了接地气的研究课题,以及高质量的教学产品。

    另外,本书中的引用的图片除特别标注的之外均来自网络,鉴于编者在引用这些图片

    时无法获知原创作者及出处,在此统一对原创作者表示感谢。

    最后,把本书献给所有培养过我们的老师,谢谢你们的辛苦栽培。献给我们所有的企

    业合作伙伴,站在你们的肩膀上,才能看得更远。献给我们的学生,是你们渴望知识的双

    眼,还有那最美丽的青春年华,让我们重任在肩。献给我们的家人,感谢你们的理解支

    持,我们才能够努力拼搏,一往无前。祝福我国的数据产业,祝福数据科学教育事业,愿

    它的每一天都更加美好。祝福狗熊会,愿有更多志同道合的小伙伴,跟我们一起拼搏,“熊”赳赳向前!由于本书写作仓促,疏漏之处难免,请大家多多批评指正!

    王汉生(熊大)狗熊会简介

    前言中提到,本书是狗熊会(微信ID:CluBear)的核心创作集体创作的。相信很多

    朋友对狗熊会并不了解,因此需要简单向大家介绍一下狗熊会。这是一个什么样的组织?

    它的名字是怎么来的?它的定位和使命是什么?

    几年前,我在美国的一所大学的统计系访问一位很杰出的统计学家。期间我能够比较

    近距离地观察他的研究团队,那是一个非常棒的、跨学科的科学家团队。我从中学到了很

    多东西,受到很多的启发。其中最重要的启发就是:也许未来的统计学研究,或者数据科

    学研究,会跟工程类学科越来越相似。单打独斗,是没有前途的,需要“打群架”才行!因

    此需要一个强大的、多学科、相互支撑的团队。为此,我下了一个决心:回国后也要好好

    组织一个强有力的研究团队。要彻底改变过去“小分队作战”的风格,转为“集团军联合作

    战”。想想当时还是非常兴奋的!

    但是,回国以后,这个“集团军”到底应该怎么组织?我没有经验,因此一头雾水,毫

    无想法。正在这个时候,微信群开始流行起来。于是,我把学生,还有数据领域相关的朋

    友,整合在一个微信群里,大家经常东拉西扯,也聊和数据相关的话题。这时,问题来

    了,这个微信群取个什么 名字呢?我想了好久,决定叫“大数据讨论班”。结果没多久,统计之都论坛的二代目魏太云同学就跳出来说:“王老师,这个名字太土了。”原话我记不

    得了,大意就是:现在啊,到处都在说大数据,但大数据是啥?有清晰、统一的定义吗?

    还有什么不是大数据吗?这个名字太low了!想想也是,于是我说:“那请你给取个名字

    呗!”太云同学估计受武侠小说荼毒不浅,笑着说:“王老师,咱们叫‘英雄会’怎么样?”我

    听了,差点没晕过去!这个名字不是更土吗?还英雄会?谁认为我们是英雄啊?我觉

    得“狗熊会”还差不多!

    当时,就是一句逗乐的气话。结果过了几周,我自己也没想出更好的名字来。相反,我越来越觉得“狗熊会”这个名字挺好。狗熊多可爱啊,很多动画片的主角都是狗熊:小熊

    维尼就是一只熊;《熊出没》里的熊大、熊二也是熊;还有《奇幻森林》里也有一只非常

    可爱的熊。于是,我在微信群里说了一下这个想法,没想到没人反对!“狗熊会”就这样叫

    开了,一直延用到现在的微信公众号。由于本书大量的原始素材(例如,原文、音频、数

    据、程序)都在微信公众号上。因此,要充分享受本书的乐趣,请大家关注狗熊会公众号

    (ID:CluBear),或者直接扫描二维码。其实当时也没有什么特别的想法,就是觉得好玩。接下来,意想不到的事情发生了!

    我意外地发现,“狗熊会”的品牌传播效果出奇得好。为什么?因为这个名字太奇葩了,人

    们忍不住要问:狗熊会是什么?为什么 要取这么一个奇葩的名字?这名字跟数据分析有

    什么关系呢?就是这一问一答的过程,让很多朋友记住了这个名字。因此,“狗熊会”成了

    我们团队的称号,也成了我特别珍惜的品牌。从此在数据的江湖上,王老师开始以“熊

    大”自称。

    作为一个高大上的品牌,狗熊会需要一个自己的logo。在我的百般恳求下,我家小朋

    友用铅笔在素描纸上,画了一个大大的熊脑袋。他画出了小朋友心中憨态可掬的熊大。这

    张草图后来在一位名为冯璟烁的大朋友的帮助下,去掉了一些不必要的线条和背景,再无

    任何其他修改,成为了狗熊会的logo。我对这个logo超级满意!他画出了我心中狗熊那种

    傻傻的但是很可爱的样子!这个logo也时刻提醒我两件事情:第一,傻傻的狗熊提醒我自

    己是无知的———对这个世界,对数据相关的学科,自己都是无知的,要保持好奇心,督

    促自己持续学习。第二,可爱的狗熊提醒我要善良、要快乐,为这个社会多创造一点欢乐

    的正能量。这两点构成了狗熊会的品牌内涵。

    如今的狗熊会是一个致力于数据产业的高端智库。狗熊会帮助合作伙伴制定数据战

    略,培养数据人才,研究数据业务,发现数据价值,推动产业进步!狗熊会给自己确定的

    使命是:聚数据英才,助产业振兴!第一,聚数据英才。这说明狗熊会关注数据科学基础教育,希望通过 生产优质的数

    据科学科普教育内容(例如本书),提供卓越的研究、实践、就业机会,帮助相关专业的

    老师、同学、从业者,充分享受数据分析的快乐,促进个人职业的终身幸福与成长。

    第二,助产业振兴。狗熊会认为优质的数据科学教育一定不能脱离数据产业实践。狗

    熊会的任务就是通过联合研究、高端咨询等多种形式,陪伴中国的数据产业一起成长。在

    此过程中,通过多种形式(例如本书),致力成为连接产学研的桥梁。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“前世今生”,听熊大音频!绪论Introduction 大数据时代之“皇帝的

    新装”

    安徒生有一部伟大的作品———《皇帝的新装》。作品中反映出的世人的虚伪、虚

    荣、贪念,世世代代都存在。反思这部伟大的作品,小处可以检讨自己的利益取舍,大处

    可以看看现在热闹非凡的大数据时代。下面以一个独特的视角,审视当前的大数据时代是

    不是正穿着“皇帝的新装”。

    图0-1

    很久很久以前,有一位可爱的皇帝,他掌管着一个巨大的传统企业,专业卖豆浆。业

    务靠谱,收入稳定,每个员工臣民都过得幸福安康!

    但是,大数据时代到来了,王国内外大数据的狂风一阵阵刮过,吹得皇帝的企业王国

    摇摇晃晃。终于有一天,这位皇帝坐不住了。为了能让自己的企业王国在数据产业的世界

    里看起来漂亮一些,他决定不惜花费巨额的资金和宝贵的时间,做大数据转型。

    但遗憾的是,他既不关心数据业务,也不关注数据技术,更不会对某一个垂直数据行

    业做深入研究。如果偶尔搞一个大数据“新款服饰发布会”,那也无非是为了炫耀一下他

    的“新衣服”,好在数据产业的世界里占一个坑。他每天都要换一套新衣服。这些衣服有数据挖掘、机器学习、大数据、深度学习,还

    有最近特别流行的人工智能。但是,其实没有一套衣服他是真心研究过的,没有一套衣服

    他是真心明了的。

    只要他一开口,真正的时装设计师就会知道,他对(例如)机器学习,其实狗屁不

    通。但是,人们提到他的时候总是说:“皇帝在更衣室里,正在制定新的大数据战略呢!”

    图0-2

    有一天,来了两个大数据“砖家”,尤其擅长4V(volume:数据量特别大;variety:形

    式多样化;velocity:速度特别快;veracity:数据要真 实)。据说,他们能做出人间最牛

    的数据分析、超级炫酷的可视化呈现,相关数据产品不仅色彩和图案都分外美观,而且让

    你脑洞大开。在他们面前,没有解决不了的数据问题!

    这主要得益于他们奇葩的理论框架。这个框架认为:简单数据的简单分析是统计分

    析,而复杂数据的复杂分析是深度学习。而且他们的大数据产品还有一种奇怪的特性:任

    何不称职的甲方客户,愚蠢的、不可救药的投资人,或者笨蛋小数据统计学教授,都无法

    体会他们大数据思想的美妙。“那真是理想的衣服!”皇帝心里想,“非常符合我的大数据

    战略梦想!要知道,昨天我穿的机器学习已经过时了,隔壁老王对此非常鄙视呢。对了,我今天炫耀的深度学习也腻歪了,明天穿啥呢?噢,人工智能。但是,无论这些衣服如何

    炫酷,似乎都没法跟他们的衣服比啊!”

    “穿了这样的衣服,就可以看出在我的企业王国里哪些人不称职;就可以辨别出哪些

    是聪明客户,哪些是傻瓜投资人,还有哪些是简单数据简单统计的笨蛋教授。是的,我要

    叫他们马上为我织出这样的布来。”于是他付了许多钱给这两个砖家,好让他们马上开始

    工作。图0-3

    两位砖家摆出两架织布机,一架叫皇家新装大数据派对;另一架叫皇 家新装大数据

    秀场。把两架织布机放在一起叫皇家新装大数据高档会所!可是,他们的织布机上连一点

    东西的影子也没有。他们的织布机上首先缺乏的是能够产生价值的具体业务———要知道

    这可是数据织布的基本原材料啊。他们的织布机旁也没有帮手———要知道,织一匹最棒

    的数据布料,没有靠谱的数据人才,怎么可能呢?

    但是,他们急迫地请求发给他们一些最细的生丝、最棒的办公室,还有最多的金子。

    他们把这些东西都装进自己的腰包,只在那两架空织布机上忙忙碌碌,直到深夜。

    “我倒很想知道布料究竟织得怎样了。”皇帝想。不过,想起凡是愚蠢的甲方客户、不

    称职的投资人,还有愚蠢的教授都看不见这块布,皇帝心里的确感到不大自然。他相信自

    己是无须害怕的,但仍然觉得先派一个人去看看工作的进展情形比较妥当。“我要派我诚

    实的老大臣,我的技术副总裁,到砖家那儿去。”皇帝想,“他最能看出这布料是什么样

    子,因为他是我的技术副总裁,专业上最靠谱,很有理智,就称职这点来说,谁也不及

    他。”

    这位善良的老大臣来到那两个砖家的屋子里,看见他们正在空的织布机上忙碌地工

    作。“愿上帝可怜我吧!”老大臣想,他把眼睛睁得特别大,“我什么东西也没有看见!”但

    是他没敢把这句话说出口。那两个砖家请他走近一点,同时指着那两架空织布机,问他深

    度学习的花纹是不是很美丽,人工智能的色彩是不是很漂亮,还有那机器学习的风格是不

    是非常符合数据挖掘的特点。可怜的老大臣眼睛越睁越大,仍然看不见什么东西。他过去

    习惯于完成一个具体项目开发部署,有确切可见的业务价值,并且可以通过一些指标测

    量。

    但是,当这两个砖家将一堆时髦的专业大数据词汇向他砸过来的时候,他懵了。他全

    然不知道应该如何应答,更不知道一个诚实的应答是否会让自己显得很蠢。对了,听说皇

    帝最近正在全宇宙招聘“懂大数据”的首席数据官(Chief Data Officer,CDO),这可不

    妙,他有可能“下课” 呢。他绝对不能露怯,至少为大数据唱赞歌,皇帝肯定会开心。于是,技术副总裁说道:“哎呀,美极了!真是美极了!”他一边说,一边从他的眼镜里仔细

    地看,“这数据量多大啊,多么异构啊!这人工智能的花纹多美丽啊!这深度学习的色彩

    太惊艳了!这跟我见过的谷歌大数据、I B M大数据都太像了!是的,我将要呈报皇帝,我对这布料非常满意。”“嗯,我们听了非常高兴。”两个砖家齐声说。

    于是他们就把色彩和稀有的花纹描述了一番,还加上些专业名词,尤其是4V,叮嘱

    老大臣一定要牢记在心。老大臣全神贯注地听着,以便回到皇帝那儿可以照样背出来。事

    实上他也这样做了,他至少背出了4V!

    图0-4

    这两个砖家又要了更多的生丝和金子,说是为了织布的需要。他们把这些东西全装进

    了腰包。

    过了不久,皇帝又派出了另一位诚实的官员———负责市场的副总裁。这位官员的运

    气并不比头一位好:他看了又看,但是那两架空织布机上什么也没有,他什么东西也看不

    出来。但是他想,我一个市场副总裁,如果被人数落不懂大数据,这可太没面子了,以后

    怎么做市场啊?如何管理公共关系?会不会在销售的兄弟面前露怯?不!这绝对不能发

    生!保险一 点,还是说自己懂吧,这至少能让皇帝开心。他就把他完全没看见的布称赞

    了一番,同时保证说,他对这些美丽的色彩和巧妙的花纹感到很满意。“是的,那真是太

    美了!”他对皇帝说,他也准确地背出了4V!

    现在数据城里所有的人都在谈论着这美丽的布料。皇帝很想亲自去看一次。他圈定了

    一群特别随员,其中包括已经去看过的那两位诚实的大臣。“您看这布华丽不华丽?”那两

    位诚实的官员说,“陛下请看,多么美的多源异构的花纹,像谷歌不?多么美的数据挖掘

    色彩,像IBM不?”他们指着那架空织布机,他们相信别人一定看得见布料。

    “这是怎么一回事呢?”皇帝心里想,“我什么也没有看见!这可骇人听闻了。难道我

    是一个愚蠢的人吗?难道我不够资格当皇帝吗?这可是最可怕的事情了,绝对不能让别人

    知道!”“哎呀,真是美极了!”皇帝说,“这是我见过的最美妙的大数据战略,对我们这样的

    传统行业更是非常准确。我十分满意!”于是他点头表示满意。他仔细地看着织布机,不

    愿说出什么也没看到。

    图0-5

    跟着他来的全体随员也仔细地看了又看,可是他们也没比别人看到更多的东西。他们

    像皇帝一样,也说:“哎呀,真是美极了,完全达到了4V 的境界!”他们向皇帝建议,用

    这新的、美丽的布料做成衣服,穿着这衣服去参加快要举行的产品发布会,并作为下年度

    的重点产品向所有客户强力销售。“这布料是华丽的!精致的!举世无双的!”每个人都随

    声附和,每个人都有说不出的快乐。

    皇帝赐给砖家“御聘大数据砖家”的头衔,封他们为爵士,并授予一枚可以挂在扣眼上

    的勋章。

    图0-6第二天早上,新产品发布会就要开始了,众人期待的游行大典就要举行了。皇帝穿上

    用这布料做出的美丽新衣,开始了他的产品发布会。

    站在街上的客户、投资人,还有傻傻的教授们都说:“乖乖!皇上的新装真是漂亮!

    这款大数据产品太炫酷了!瞧瞧那4 V真合他的身材!”谁也不愿意让人知道自己什么也没

    看见,因为这样就会显出自己对大数据狗屁不通,显得自己落后不称职,或是太愚蠢。皇

    帝所有的衣服从来没有获得过这样高的称赞。

    终于,一个小白客户忍不住了,小声地、怯怯地问了一句:“他好像什么也没穿啊?

    这样的数据产品我为什么要买呢?买了对我有什么用啊?对我提高收入有用吗?对我控制

    成本有用吗?对我降低风险有用吗?什么用也没有啊,还不如我家的Excel!这不是骗钱

    吗?”

    不说不要紧,小白一说,钱多人傻的大客户们也开始嘀咕:“这高大

    上的新衣,对我家的业务真的有用吗?我怎么缺乏信心呢!”傻傻附和的教授们也开

    始嘀咕:“皇帝的新衣是不是太高大上了啊?真心不懂啊!”“他实在没穿什么衣服呀!”最

    后所有的百姓都这么说。

    图0-7

    皇帝有点儿发抖,因为他觉得百姓们的话似乎是真的。不过,他的资源已经投入了,时间已经消耗了,他不想再失去在臣民面前最后一丝仅存的尊严,他不想在投资人面前更

    难堪。于是,他想:“我必须把这游行大典举行完毕。”

    因此他摆出一副更骄傲的神气。他的内臣们跟在后面,手中托着一条在风尘中摇曳的

    大数据“时带”……温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“新衣”,听熊大音频!第一章Chapter One朴素的数据价值观

    都说今天是数据的时代,到处都在讨论大数据,每个人都说自己在研究大数据,到处

    都宣称数据可以产生价值,但是,到底什么是数据?什么又是价值?如何实现从数据到价

    值的转换?其背后的基本方法论是什么呢?熊大通过带领团队多年、填坑无数的经验教

    训,最终形成了一个相对完整的理论框架,即朴素的数据价值观。

    什么是数据?这个看似简单的问题却不易回答。我们可以尝试向不同的人请教,相信

    会得到很多不同的答案。

    常见的答案有两个:一是数据就是信息。这对吗?完全正确。但这个定义太抽象了。

    数据和信息都是非常抽样的概念,两者的相互定义,并不令人满意。二是数据就是数字。

    这对吗?有一定的道理,因为数字是一种最典型的传统数据。例如,GDP,股市的指数,人的身高、体重、血压等,都是数字,也都是数据。因此,我们可以得出其实数字就是数

    据。但是反过来,数据就是数字吗?未必。

    熊大认为,凡是可以电子化记录的其实都是数据。这里的记录不是靠

    什么是数据?

    自然人的大脑,而是通过必要的信息化技术和电子化手段。基于此,数据的范畴就大

    得多了,远不局限于数字。既然涉及电子化记录,就要谈谈记录数据的技术手段。手机、数码相机、各种工程设备上的探头等,都是记录的技术手段。但这些手段是有时代特征

    的,不同时代所能够提供的记录的技术手段是不一样的。这就是熊大的数据时代观。

    问:声音是数据吗?

    在很久很久以前,声音并不是数据。因为当时没有任何技术手段能够把它记录下来。

    既然不能记录下来,更谈不上分析,怎么说它是数据呢?但是今天,音频设备可以采集声

    音,然后转化为音频数字信号,进而支撑很多有趣的应用,比如iPhone的Siri、搜狗的语

    音输入法、微信的语音翻译,等等。由此可见,在可以记录声音的时代,声音是一种数

    据,而且是一种具有强烈时代特征的数据。

    问:图像是数据吗?在很久很久以前,图像也不是数据,因为记录不下来。图像只能是人们肉眼中看到的

    这个大千世界,如此美妙!但遗憾的是,只是过眼云烟,转瞬即逝,没法记录。今天就不

    一样了,数码成像技术的成熟让所有的图像都能够记录下来,而且分辨率非常高。在此基

    础上,人们可以做进一步的分析和建模,进而支撑很多有趣的应用。例如,脸部识别、指

    纹识别、车牌号识别、美图秀秀,还有医学中大量的医学影像分析。由此可见,在可以记

    录图像的时代,图像也是一种数据,而且是一种具有强烈时代特征的数据。

    类似的例子还有很多。例如,生物信息技术的进步产生了Microarray数据,社交网络

    的兴起产生了社交链数据,物联网技术的成熟产生了车联网数据。所有这些都是电子化的

    记录,都是数据。所有这些数据的产生都依赖于一定的技术手段,都有强烈的时代特征。

    因此,科学研究和商业实践也许可以尝试着思考:第一,在当前以及未来可见的时间内,数据采 集的基础技术是否会有一些突破性的变革?如果有,这些变革会发生在哪些方向

    上?进而带来哪些新的数据?第二,通过对这些新的数据进行分析,能够回答哪些之前不

    能回答的重大科学问题?是否可以产生一些增量的商业价值?

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“数据”,听熊大音频!数据的商业价值

    明白了什么是数据,下面讨论数据的商业价值。不要以为这个问题很简单,只有“填

    过坑”的小伙伴,才知道这个问题的重要性。只有说清楚了数据的商业价值,客户才容易

    为数据买单,数据企业才容易产生利润,数据产业中才不会有那么多的困惑。

    商业价值三要素

    先来思考以下问题:第一,企业靠什么活着?答:收入!即使没有现在的收入,也得

    有未来可预期的收入。第二,企业为了获得收入,需要做什么?答:支出。支出包括方方

    面面,如人力、物力、时间、空间等。收入减去支出,就是利润。但是,在资本当道的今

    天,利润可以暂时是负的,没有问题,因为很多利润为负的企业的估值都非常高。究其原

    因是大家看好企业未来的利润。第三,没有任何企业对自己未来的收入和支出是100%确

    定的,因为这里面有很大的不确定性,而不确定性带来的是什么?答:风险。而且企业可

    能还会涉及一些重大的风险,这些风险所导致的损失是很难用货币计量的。例如,桥梁倒

    塌、锅炉爆炸。这就是熊大关于数据的商业价值理论框架的三个关键词:收入、支出、风

    险。任何数据产品,如果可以帮助客户,在这三个方面中的任何一个方面实现可量化的改

    进,那么这个数据的商业价值就比较容易说清楚,否则非常困难。

    收入

    从一个数据从业者的角度,可以先检讨一下,你的数据产品能否为客户带来额外的收

    入。请注意,是“额外”。

    例1-1 50碗豆浆的价值

    假如客户是卖豆浆的,以前没用你的数据分析,他每天卖100碗。用了你的数据分析

    后,每天能卖多少呢?如果还是100碗,那么数据分析的价值在哪里?如果是150碗,那么

    你的价值就体现出来了。这个价值的大小就是额外的50碗豆浆!作为数据分析服务的提供

    者,是否就可以将这50碗豆浆作为基准进行收费了?

    例1-2 最理想的额外收入———新兴市场

    最理想的额外收入应该是什么?熊大认为是新兴市场。例如,“五一”小长假,大家要

    开车出去玩,堵车是必然的,那么能否出一个堵车险?每堵车1分钟,保险公司给你赔付1

    块钱,补偿一下你那郁闷的心情。看似不错的主意,保险公司为什么不做呢?因为传统的

    保险公司没有技术手段可以实时监控一辆车的状态。它不知道你是否堵车,更不知道你堵

    了多久。但是,有了车联网数据,这个故事就改变了。新兴的车联网数据,催生了一种全

    新的保险产品,带来了一个纯粹增量的新兴市场。

    例1-3 百度付费搜索广告

    为什么很多广告主对百度的付费搜索广告非常依赖?因为百度的付费搜索广告确实为他们带来了收入的增加。为什么百度可以做到这点?一个最基本的原因是,通过对用户搜

    索数据的深入分析,理解用户意图,进行精准匹配。所以,对于诸如医疗、教育、电商等

    行业而言,百度的广告投 入能够直接带来销售收入。这就是数据分析的价值:收入!

    支出

    有朋友说,我们的数据分析距离市场销售端有点远,不能给客户直接增加收入,但

    是,能给客户节约不必要的支出,也就是成本,你看这样行吗?当然行啊,而且更好!为

    什么?因为收入的增加往往具有很强的不确定性,但是成本却在自己的预算控制范围内,相对而言更具可控性。

    前文提到要开辟一个新兴的堵车保险市场,但是这个新兴的市场到底能带来多少额外

    的收入呢?非常不确定。再比如说,超市现有100个收银员,但是通过技术改造,数据分

    析,合理排班,发现80个就可以了。直接节省了20个收银员的人工成本,这是非常确定的

    事情。因此,如果数据分析可以节省支出,那更好,因为更靠谱、可控性更强!

    例1-4 呼叫中心运营改进

    呼叫中心最重要的成本是什么?人工坐席成本。如果通过数据分析可以精确把握电话

    呼入量的规律,就可以合理安排坐席。其中,包括应该安排多少全职坐席、多少兼职坐

    席。为此,数据分析可以通过研究电话呼入量与星期几的关系、与一天中时间段的关系、与企业重大市场行为的关系,甚至与天气状况、空气污染之间的关系来解决这个问题。如

    果技术进一步提高,可以通过准确的语音数据分析理解客户意图。那么,这能带来多大的

    成本节省?是不是人工坐席成本就可以被彻底省略了?这就是数据分析带来的价值。

    例1-5 开关车窗电机的设计寿命

    我们绝大多数汽车制造的技术标准都是来自欧美国家。这些制造标准都是为欧美的消

    费者建立的,虽然适合他们的驾乘习惯,却未必适合我 们。例如,鉴于国内空气污染的

    严峻现实,北京司机每天开车窗的次数很少,熊大可能好多天都不开一次。有数据分析表

    明,平均而言,一个司机一年也就开关车窗1000次左右(平均一天3次)。假设一辆车的

    设计寿命是10年,那么在车的整个使用生命周期内,也就需要开关车窗10000次。为了保

    守起见,我们再增加一个量级,那就是10万次。也就是说,从设计的角度,我们只需要一

    个能够承受10万次开关车窗的电机就可以了。但是,我们的实际设计标准可能是50万次,这是一个多么巨大的设计浪费。中国汽车的产量有多大呢?以上海汽车为例,根据20 1 6

    年不准确数字,集团整体产量大概是600万辆!还有很多其他汽车制造商。深入的数据分

    析能够带来多少成本的节省?

    例1-6 电视视频接口的调整

    有一次参加一家企业的融资发布会,正巧坐在旁边的朋友来自一家国内领先的电视机

    制造企业,他分享了一个非常有趣的数据价值案例。以前电视机制造出来售卖给消费者

    后,制造商同消费者之间的关系就中断了,因此,制造商并不非常明确消费者是如何使用

    电视机的。不过,现在有了物联网技术,制造商可以慢慢地了解消费者的习惯了。例如,他们发现某一款电视机的用户中,只有大概1 %的用户还在使用那种非常老式的、梯形的

    VGA视频接口。那么,只有这么少的用户在使用这个接口,是否还需要生产、制造、安

    装这个接口呢?基本不需要。于是在后来批次的电视机生产中,这个接口就被取消了。仅

    此一项,为企业每年节省的成本有多少?上亿元!这就是数据分析带来的价值。例1-7 电视机遥控器的改良

    如今的电视机遥控器设计得十分复杂,按钮数量繁多,但是我们会使用其中的几个

    呢?熊大自己看电视,就只需要电源开关,以及频的“+”和“-”,可能还需要一个音量

    键。其他的按键几乎不用。那么这种设计是不是冗余的?成本是不是可以节省?恐怕不好

    回答。因为制造商并不明了熊大这样的用户有多少?是非常有代表性,还是有一定代表性

    但代表性不强,又或者完全没有代表性?类似地,我们还可以检讨,电脑上需要那么多

    USB接口吗?或者是不够用?现在的台式机、笔记本还需要光驱吗?以前我们很难做这样

    的决策,因为我们不知道用户如何使用这些设备。但是,现在物联网的兴起让这样的数据

    分析正在变成现实,这就是物联网数据的商业价值所在。我们期待物联网技术进一步成熟

    的明天,会给我们带来新的启发,带来更好的设计、更低的成本。

    风险

    还有朋友说,我的数据产品第一不能增加收入,第二不能直接节省成本,但是可以控

    制风险,这样的数据有商业价值吗?当然有。事实上,风险的度量有两种情况:第一种情

    况是风险根本没办法通过货币度量,是独立于收入或者支出的另外一个维度;第二种情况

    是风险就是连接收入和支出的一个转化器。对风险的把控,或者可以增加收入,或者可以

    降低成本。

    对第一种情况而言,风险可能是人的健康甚至生命。如果有任何一种数据分析,能够

    改善人们的健康状况,甚至可以挽救生命,它的价值恐怕是不可想象的。从这个角度看,凡是同医疗、健康、生命保障相关的数据分析,都是值得关注的。例如,如果有一种可穿

    戴设备能够在无创伤的情况下,测量各种血液指标(如血糖),这会为众多的糖尿病患者

    带来什么样的福音?又例如,通过对人类基因组的数据分析,找到同某种致命癌症强相关

    的基因,这能否改变病人未来的命运?它的价值又如何?

    除了人以外,重大设施设备的风险恐怕也是我们不愿意承担的。如果一座桥梁坍塌,会失去多少生命?一个发射塔发生故障,会不会带来社会的恐慌?一个发电锅炉爆炸,会

    造成多大的损失?这些都不容易通过货 币衡量。但有一点可以确定的是,这都是人们不

    愿意接受的风险。如果通过数据分析,时刻监控桥梁的状况,及时维修保养,那桥梁坍塌

    的概率就非常小。如果通过数据分析,及时了解发射塔的工作状况,也许它每年的故障率

    就会有显著的下降。如果通过探头数据,完全把握发电锅炉的运行状态,就可以避免锅炉

    爆炸的风险。这就是数据分析带来的价值。

    再研究第二种情况。对于这种情况而言,风险同收入和支出之间是可以相互转化的。

    例如,很多商业银行都有网上申请系统,允许用户通过互联网直接申请信用卡或者其他金

    融信贷产品。为什么要在网上做?因为流量大、成本低、效率高,但缺点是风险比较大,而且有些通过线下面签才能提供的材料无法获得。怎么办?那就只能提高在线申请的门

    槛,降低通过率。这样做的优点是什么?安全,把坏人拦在外面,而缺点是“错杀”了很多

    好人。而好人之于银行就是客户,就是收入。为什么会错杀好人?因为不了解他们,缺乏

    信任,无法实现风险管控。这是一件非常遗憾的事情。那么机会来了,如果你能够为这家

    银行提供独特的数据分析,帮助它更加准确地区分哪些线上申请者是好人,哪些是坏人,银行就可以放心大胆地给更多的人发卡放贷,进而增加收入。这样的数据分析,谁能否认

    它的价值呢?那么这样的价值是如何实现的?主要是通过把控风险提高收入。同时,因为

    风险把控做得好,坏账率就低,因此还节省了催收成本。这给我们的启示是,对风险的把

    控还可以转化为对支出的节省。难怪有从业者说,对于消费金融企业而言,风险把控部门做的不仅仅是风险把控,同时还是市场,还是销售。因为风险敞口的控制直接影响市场和

    销售收入。这样的数据价值是否清晰?所以数据商业价值的第三个关键词是:风险!

    政府价值

    目前所有的讨论都是偏向企业的。这似乎忽略了数据产业的另外一个 极其重要的参

    与者:政府。政府一方面制定市场规则,另一方面还掌握着巨大的数据资源(公安、通

    信、医疗等),以及预算。政府的重大决策也非常需要数据的支持。那么,数据之于政府

    的价值又如何体现呢?非常有趣的是,这个问题似乎也可以从收入、支出、风险三个要素

    考虑。但是,面向的对象主要不是政府自己,更多的是每一个公民。通俗地讲,如果数据

    分析能够帮助政府更好地服务社会,让普通公民的收入有所增加,支出有所降低,风险有

    所规避,这就是数据之于政府的价值。

    公民收入

    从政府的角度看,哪些方面关乎普通公民的收入呢?例如,增加就业,降低税负,提

    高福利等,都同增加普通公民的收入相关。更具体地说,比如,通过对招聘广告的文本分

    析,可以洞察市场需求,并提供相应的教育培训机会,就有可能增加就业,带动GDP。狗

    熊会媛子小分队曾经做过一个案例,通过对大量招聘广告的文本语义分析,解读市场对各

    种工作经验的需求,对各种分析技能的渴望,以及在最终薪酬上的表达。通过数据分析,可以量化BAT这样大型互联网公司工作经验在薪酬上的表达;通过数据分析,可以理解产

    品经理工作年限在薪酬上的体现;通过数据分析,可以理解数据分析师应该具备什么样的

    编程技巧(如R,python),最好具备什么样的大数据计算能力(如Hadoop,Spark),以

    及这些专业技能在薪酬上的反映。通过诸如此类的数据分析可以了解市场需要什么样的数

    据分析人才。从政府的角度,这样的信息对于设计相关学科的发展规划意义重大。相关合

    理的决策会带来普通公民就业率的增加,进而带来收入的增加。

    公民支出

    数据分析能否帮助政府科学决策,进而降低普通公民的成本?答:可以。以医保为

    例,大量的公共资金聚集在一起,但是它的使用效率是否足够高呢?是否还有改进空间?

    是否存在一定数量的骗保行为?这是非常重要的,因为骗保行为损害的是所有参与医保计

    划公民的公共利益。骗 保行为所带来的后果是公共医疗成本不必要的提高。那么能否通

    过数据分析将这些骗保行为人自动识别出来,并施以相应的惩罚教育措施呢?再考虑医

    院,能否通过对医院的各种收入、支出的数据分析,理解普通群众看病贵的根本原因在哪

    里?昂贵医疗费用所产生的收入到底去了哪些地方?能否进行相关的制度建设?这不仅可

    以节省群众的医疗成本(节省费用),同时还能增加优秀医生的实际收入(增加收入)。

    公民风险

    数据分析能否帮助政府进行科学决策,降低普通群众的风险呢?答:可以。任何一个

    国家的政府所能够支配的社会安全保障资源(如公安民警)是有限的。如何通过对有限的

    公共安全资源的合理利用,尽可能地保障群众的生命财产安全,这是一个永恒的话题。例

    如,能否通过对各种公开以及非公开刑侦数据的合理分析,更加准确地锁定吸毒人群,尤

    其是有重大公共影响力的人群,并实施制止教育措施?能否通过对各种数据的综合分析,做到对恐怖事件的提前预警?能否通过对各种流量数据的监控,做到提前规避一些重大公

    共安全事件(如踩踏)?这就是数据分析之于政府风险管控的价值。可以量化的参照系

    数据分析的价值体现在三个要素上,但要实现它的价值还需要一个重要的因素:可以

    量化的参照系。其中包括两个关键词:量化和参照系。

    90%?你咋不上天啊?

    某天,一朋友说:“熊大,我最近给客户做了一个客户流失预警模型,准确度

    75%!”我一听,挺靠谱。但是,他却垂头丧气地表示,对方老总很不满意,认为这个准

    确度太差,连90%都不到!熊大心里倒抽一口凉气,心想:90%,你咋不上天啊!大家是

    否能意识到困惑在哪里?客户对预测精度没有合理的预期,因为没有合理的参照系。在没

    有参照系的情况下,客户就只好参照小学生的考试成绩,认为90%甚至9 9%才算优秀!这

    就是困惑所在,那么应该怎么做呢?应该给他树立一个合理的参照系。为此,我们可以先

    弄清楚一个问题:客户在没有你的情况下,自己能做多好?在你到来之前,客户自己是否

    有流失预警得分,这个得分准确度如何?我们发现,其实很多时候,客户从来没有评价

    过,自己根本不知道。你帮他看看,十有八九惨不忍睹。这时候你可以这么说:某某总,您看,之前咱们这边的精度是65%,已经做得不错了(夸奖一下对方)。但是,现在咱们

    双方共同努力,这个精度提高到了7 5%。为此您可以节省多少不必要的支出,或者增加

    多少额外的收入,等等。你看,这样是不是就更有说服力?因为你确立了一个可以量化的

    参照系。而这个参照系就是客户现有的系统。如果没有这个参照系,又想说明75%的精度

    是有价值的,是不是无比艰难?

    有句“名言”:预测不准是常态,预测准确是变态。什么意思?之所以做数据分析,做

    模型预测,就是因为面对的数据是带有强烈不确定性的。如果一个数据可以被精确预测

    (例如,今年我30岁,明年一定31岁),这样的数据分析就没有价值了。有价值的数据分

    析,就是要在不确定性中,尽可能多地发掘价值。因此,预测不准必然是常态。

    但是,预测不准(至少达不到100%完美准确),并不代表没有价值。就像前面的案

    例一样,预测不准的结果可能是有巨大价值的,但是需要找到一个合理的参照系。

    例1-8 个性化推荐系统

    你做了一个个性化推荐系统(例如图书推荐系统),最后发现转化率是8%,请问:

    价值何在?如果同线下商店比,8%的转化率是比较低的。这意味着100个客户进入我的店

    铺,只有8个人下单,剩下的9 2个人都空手离开。这是一个令人失望的结果。但是,在线

    上环境中,这就不好说了。从事这行工作的朋友一定知道,8%是一个非常高的数字。为

    什么?因为如果没有优秀的个性化算法推荐保障,这里的转化率可能是4%,1%,甚至是

    0%。有了这样一个合理的参照系,数据分析的价值才能够充分表达出来。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“价值”,听熊大音频!数据到价值的转化:回归分析的“道”与“术”

    本节讨论的是如何把数据转化为价值。为此,需要一个非常精妙的思想方法:回归分

    析。学过统计学的同学都知道,回归分析是数据分析的一个非常重要的模型方法。这些模

    型可能是线性的、非线性的,参数的、非参数的,一元的、多元的,低维的、高维的,不

    尽相同。但这都是在“术”的层面讨论回归分析,其实,回归分析还有一个更高的“道”的层

    面。

    回归分析的“道”

    在这个层面,回归分析可以被抽象成为一种重要的思想。在这种思想的指引下,人们

    可以把一个业务问题定义成一个数据可分析问题。什么样 的问题可以被看作数据可分析问

    题呢?一个问题是不是数据可分析问题, 只需要回答两点:第一,Y 是什么;第二,X是

    什么。

    Y 是什么?

    Y,俗称因变量,即因为别人的改变而改变的变量。在实际应用中,Y刻画的是业务

    的核心诉求,是科学研究的关键问题。

    例1-9 好人与坏人

    对于征信而言,业务的核心指标是什么?就是隔壁老王找我借钱,最后 他是还还是

    不还。如果还,定义老王的Y=0,这说明老王是好人;如果不还,定义老王的Y=1,这

    说明老王是坏人。这就是征信的核心业务诉求,即因变量Y 。在这种情况下,因变量是一

    个取值为0-1的变量,俗称0-1变量。>>更多新书朋友圈免费分享微信xue b789

    图1-1例1-10 天使与杀手

    对于车险而言,业务的核心指标就是是否出险。隔壁老王买了我家车险,接下来12个

    月,他是否会出险呢?如果他出险,定义老王的Y=1,这说明老王是个马路杀手;如果

    他不出险,定义老王的Y=0,这说明老王是个天使。这种情况下,因变量Y又是一个取值

    为0-1的因变量。

    图1-2

    例1-11 两个坏蛋

    对于车险而言,还有一个核心的业务指标,就是赔付金额。也就是说,一旦出险,保

    险公司到底要赔多少。例如,老王、老李都买了我家车险,结果这两个客户都出险了。老

    王属于轻微刮蹭,保险公司赔付600元。那么,对于赔付金额这个业务指标而言,老王的

    因变量Y=600(元)。老李在高速公路上出了一次大车祸,人和车都伤得不轻,保险公

    司赔付60000元。那么,老李的因变量Y=60000(元)。这种情况下的因变量,即赔付金

    额,是一个连续的取值为正的因变量。如果再取一个对数,那么就是一个取值可以是正负

    无穷的、连续的因变量。

    图1-3

    例1-12 谁是倒霉蛋?人类医学的一个重要使命就是攻克癌症,为此,科学家需要理解不同类型癌症的形成

    机制。隔壁老王,还有马路对面的老李,平时看起来身体都倍儿棒,吃嘛嘛香。可是,老

    王得了某种癌症,而老李没有。对于这个问题,老王的因变量Y=1,表示老王是个倒霉

    蛋;而老李的因变量Y=0,表示老李不是倒霉蛋。因此,这又是一个取值为0-1的变量。

    结论:Y就是实际业务的核心诉求,或者科学研究的关键问题。

    图1-4

    X 是什么?

    X就是用来解释Y的相关变量,可以是一个,也可以是很多个。我们通常把X称作解

    释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机

    制,进而达到通过X去预测Y的目的。那么,X到底是什么样的?

    对于征信而言,我们已经讨论了,Y=0或者1,表示隔壁老王是否还钱,这是业务的

    核心指标。当老王找我借钱的那个时刻,我并不知道老王将来是否会还钱,也就是说,我

    不知道老王的Y。怎么办?我只能通过当时能够看得到的,关于老王的X,去预测老王的

    Y。这种预测是否会100%准确呢?答:基本不可能。但是,希望能够做得比拍脑袋准

    确,这是非常有可能的。为此,我们需要寻找优质的X。

    例1-13 老王的实物资产

    假设老王想找我借1万元现金,我得想想,他会还吗?此时,如果知道他家境富裕,房产价值几千万元,我就不会担心他不还钱。因为如果他不还钱,可以用他的房子进行抵

    押。这说明充足的实物资产,尤其是可以 抵押的实物资产,是有可能极大地影响一个人

    的还钱行为的。如果这个业务分析是正确的,那么可以定义很多X,用于描述老王的财产

    情况。例如,X1 表示是否有房;X2 表示是否有车;X3 表示是否有黄金首饰可以抵押,等等。这些X都是围绕老王的实物资产设定的。

    例1-14 老王的收入

    除了实物资产,老王还有哪些特征有可能影响他的还钱行为呢?如果老王月工资收入

    10万元,那么还款1万元,不是小菜一碟吗?相反,如果老王月工资收入1000元,估计吃

    饭都有问题,哪来的钱还呢?这说明老王的收入可能同他的还款行为有相关关系。那么,是否可以构造一系列的X,用于描述老王的收入情况呢?例如,可以重新定义X1 是老王

    的工资收入;X2 是老王的股票收入;X3 是老王太太的收入,等等。于是,朴素的业务直

    觉又引导产生了一系列新的X变量,它们都是围绕老王的收入设定的。

    例1-15 老王的社交资产

    除了实物资产、收入,老王还有什么值钱的呢?有,老王有自己在社交圈中的尊严。

    就像电影《老炮儿》里面的顽主六爷那样,面子老大了,不会为了万把块钱去赖账,然后

    让街坊邻居、同事朋友都笑话,丢不起那人。如果老王是一个这样的人,那他的还款意愿

    会很强烈。这个朴素的业务直觉说明,一个人的社交圈即他的社交资产是可以影响他的还

    款行为的。如果这个直觉是对的,那么哪些指标能刻画一个人的社交资产呢?例如,定

    义X1 是老王的微信好友数量;X2 是他的微博好友数量;X3 是他的电话本上的好友数

    量;X4 是他的QQ好友数量,等等。又可以生成一系列新的X变量,它们都是围绕老王的

    社交资产设定的。

    由此可以看出,对于征信这个业务问题而言,简单地进行头脑风暴, 就产生了许多X

    变量。所以,依赖于人们的想象力以及数据采集能力,可以产生成千上万,甚至上百万、上千万个X变量。有了X,也就有了Y。至此,回归分析“道”的使命已经完成,因为一个

    业务问题已经被定义成数据可分析问题。

    回归分析的“术”

    接下来,从“术”的层面探讨,回归分析还要完成什么使命。一般而言,至少对于参数

    化的线性回归模型来说,它要完成三个重要的使命。

    使命1:回归分析要去识别并判断,哪些X变量是同Y真的相关,哪些不是。 而那些不

    相关的X变量会被抛弃,不会被纳入最后的预测模型。因为不干活的人多了会捣蛋,即没

    有用的X不会提高Y的预测精度,而且会狠狠地捣蛋,拉后腿,所以必须抛弃。关于这方

    面的统计学论述很多,以至于统计学中有一个非常重要的领域,叫做“变量选择”。

    使命2:有用的X变量同Y的相关关系是正的还是负的。 也就是说,要把一个大概的方

    向判断出来。例如,对于老王的借贷还款行为而言,老王的股票收入同他的还款行为可能

    性是正相关,还是负相关?如果是正相关,那么老王的股票收入越高,还款能力越强,我

    越敢借钱给他;如果是负相关,那么老王的股票收入越高,说明他赌性越大,我越不敢借

    钱给他。

    使命3:赋予不同X不同的权重,也就是不同的回归系数,进而可以知道不同变量之间

    的相对重要性。 例如,老王、老李都找我借钱。老王每月基本工资X1 =1(万元),但

    是股票收入X2 =0。老李恰恰相反,没有基本工资,因此X1 =0,但是每个月股票收入X2

    =1(万元)。请问哪一个还款能力更强?请注意,他们的月总收入都是1万元。但他们的

    还款能力恐怕是不同的。此时,如果我们能够通过数据建模,赋予X1 和X2 不同的权重,也就是不同的回归系数,这个问题就容易回答了。

    这就是回归分析要完成的三个使命:识别重要变量; 判断相关性的方 向;估计权重

    (回归系数)。

    简单总结一下。什么是回归分析?从“道”的层面而言,回归分析就是一种把业务问题定义成一个数据可分析问题的重要思想。而从“术”的层面,回归分析要完成三个重要的使

    命。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“回归”,听熊大音频!搞清客户需求

    在数据分析的业务实践中,客户的需求常常说不清。谁是我们的客户?数据分析需求

    是谁提出来的,谁就是我们的客户。有可能是正儿八经的乙方,也有可能是不同的业务部

    门。可是,为什么客户自己的需求还说不清楚呢?

    当然了,也不能说得太绝对,有的客户确实可以把自己的需求说得非常清楚。但是这

    样的客户特别少,大多数客户是说不清楚自己的需求的。

    例1-16 都不是我要的

    有一天,熊大去一个高大上的商场给太太买结婚周年礼物。我在一个首饰柜台前左挑

    右选,没有特别满意的,很难下定决心。最后把服务员给整烦了,瞪着眼睛,气势汹汹地

    问我:“你到底要买啥?”

    我先是一愣。等我反应过来,马上给这位姑娘上了一堂免费的MBA课程。我说:“姑

    娘,我是客户,我不知道我要买啥。但是,我知道,摆在我面前的这些东西都不是我要

    的。”这就是一个典型的“客户自己说不清需求”的故事。

    例1-17 鬼才知道的“客户价值”

    熊大跟一家车厂合作,帮助对方理解:他们的客户,也就是汽车购买 者的客户价

    值。做这个事是因为如果车厂可以知道哪个客户价值高,就可以投入更多的资源来重点培

    养和维系这个客户;哪个客户价值低,也许可以暂时不予考虑。

    但问题是:什么是汽车厂商脑袋里的“客户价值”?熊大不懂车,只能向对方请教。车

    厂领导说:“熊大,这还不简单,价值就是给我创造的收入。”这简单!咱统计一下,张三

    李四王二麻子,每个客户过去一年贡献了多少收入、买了多少车、去了多少次4S店,等

    等,用Excel就搞定了!

    结果,对方说:“这怎么行!我们的经验是,同样是(比方说)一万元的收入,张三

    是通过维修保养贡献的,李四是通过购买车险贡献的,他们所产生的价值是不一样的!”

    听完我就晕了,完全不懂———都是一万元,都是人民币,怎么会不一样呢?是因为

    利润不一样吗?对方说还不完全是。看到我的困惑,对方又说:“同样是一万元,买车险

    的价值可能就要高一些。因为他一旦在我们这里购买车险,未来他的维修保养很可能也发

    生在我的4S店里。”

    这句话真是醍醐灌顶啊,购买保险的价值高,是因为它未来能够产生更多的预期收

    益。这说明在我这位伙伴的心目中,价值,不是已经实现的过去价值(那已经发生了),而是还没有发生的未来的预期价值。

    例1-18 跟收入过不去熊大有一伙伴,是经营连锁酒店的。我们发现,他的定价策略有很大的改进空间。简

    单地说就是:旺季不涨价,淡季不降价。而我们的分析又发现,可以用当天的数据,对第

    二天的客流量做一个相当不错的预测。那是不是可以根据预测结果做每日的动态价格调整

    呢?这么做会带来立刻的收入的增加吗?

    结果,等我们跟对方汇报这个结果的时候,对方却是一瓢凉水,说:“熊大,辛苦

    了,但这不是我想要的,我对这不感兴趣。”

    我当时超级困惑,第一次听说有企业会跟自己的收入过不去。我正在疑惑时,人家说

    了:“熊大,我这个连锁店,绝大多数都不是直营店,而是加盟店,我的收入主要来源于

    这些加盟店的加盟费,至于这些加盟店收入有多少,跟我关系不大,或者至少不是我最关

    心的事,而且我们总店跟加盟店,还有一定的合作和博弈在里面,我还不能保证这些数据

    是准确的。”

    我这才明白过来———要理解数据之于客户的价值,得首先摸清楚客户的盈利模式。

    这似乎是一个非常显然的常识,但之前我们是真不知道!

    例1-19 我提不出需求

    有一次参观一家世界500强的制造企业,对方意识到,数据之于企业非常重要。因

    此,集团特意成立了大数据部门,购买了几百台高性能服务器,并配备所有需要的存储、软硬件环境,以及人才。然后,数据部门的老大非常骄傲地介绍他们这个部门计算机有多

    牛,做了哪些有趣的分析。但是,从熊大的角度看,这些分析都是趣味性很大,可没有朴

    素的业务价值。熊大终于忍不住问了一个问题:“请问,咱们大数据部门,在集团内部主

    要支持哪些业务部门?”对方腰板一挺,大声回答:“所有业务部门!”大家觉得可信吗?

    反正我不信。企业这么大,实话实说,一定有大量的甚至大多数业务部门同数据无关,至

    少现在是这样。就在这时,旁边的一个业务部门的老大忍不住了,说:“不对啊,我们就

    觉得你们对我们支持不够!没什么支持啊!”数据部门老大很生气:“你提需求啊!只要你

    提需求,我都能帮你搞定。”结果业务部门老大一脸懵圈:“我提不出需求啊。”

    这是一个非常典型的问题。业务部门就是数据部门的客户,可是,客户只知道自己需

    要数据分析支持,但是提不出需求。为什么?大家还记得回归分析的理念吗?即从道的层

    面帮助我们把业务问题定义为数据可分析问题。 而业务部门的绝大多数人员没有受过这

    样的训练,因此,无法洞见自己正在操心的业务问题,其实是数据可分析的。为此,他只

    需要把Y 定义清楚,给一些关于X 的想法,剩下的事情,数据分析的小伙伴们就可以全力

    以赴了。

    所以,从这个角度看,数据之于企业的价值,最需要被普及教育的,不是数据分析部

    门,而是业务部门。当然,数据分析部门也需要。只有全员都具备朴素的数据价值观,都

    使用同一种回归分析的语言,需求才有可能被说清楚。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“客户需求”,听熊大音频!中国数据科学的风口

    作为本章的最后一节,想跟大家一起分享一下熊大关于数据科学发展风口的思考。这

    里主要涉及相关的制度环境和产业基础。搞清楚这些问题,对于把握数据科学的发展趋势

    也许会有所帮助。具体而言,存在这样几个问题:中国统计学未来发展的大方向是什么?

    背后的逻辑是什么?套用一句时髦的互联网语言就是:中国数据科学的风口在哪里?

    图1-5

    推动统计学发展的产业

    人们常说:以史为鉴。所以,首先简单回顾一下某些统计学领域的发展史,例如实验

    设计。当年,这个领域是如何发展起来的?难道是少数天才学者的智力游戏吗?显然不

    是,是出于农业生产的需要,相关科学实验是最根本的驱动力。

    随后,工业化的进程又催生了质量控制、可靠性等相关学科。而过去这十年是计算机

    实验。那么未来呢?我想一定是互联网。这说明什么?这说明统计学的发展要顺应产业变

    革,这是大势所趋!

    推动统计学发展的技术

    再看一个例子,高维数据分析是最近2 0年才被提出来的吗?不是!早在这之前,就

    有学者受个人学术兴趣的驱动,提出过类似的问题,但没有形成气候。因为这样的方法在

    当时没什么重要的实际应用,当时主流统计学研究并不关心这个问题。

    这个当年让人脑洞大开的异类问题,却成了最近2 0年的研究主流。因为科学技术变

    了。以DNA Microarray为代表的生物技术的巨大进步,产生了大量这样的数据。而这些数据蕴藏着关乎人类生命健康的秘密,具有重要的科学价值。这成就了过去这些年的(超)

    高维数据研究。这说明统计学的发展依赖于技术进步,这是大势所趋!

    推动统计学发展的制度环境

    最后一个例子。为什么制药统计学在美国那么重要?因为在美国生物制药这个产业极

    其强大。默克、强生、施贵宝等制药巨头每年要实施大量的临床试验,产生了大量的数

    据,形成了海量的分析需求,进而推动了制药统计学的发展。为什么这些巨头愿意投入巨

    大的时间、财力、物力作临床试验?是它们对科研的好奇心,还是道德上的高尚?可能都

    有一些,但 都不是最根本的。最根本的是美国食品药品监督管理局(FDA)对市场的强

    力监管。这个制度环境迫使相关企业必须实施严格的临床试验,进而产生了强劲的统计分

    析需求。而制药统计学的发展又极大地促进了相关领域,例如生物统计学的发展。这说明

    统计学的发展需要一定的制度环境,这是大势所趋!

    图1-6

    统计学发展的大势所趋

    我们不妨下一个结论:统计学的大势所趋,从不以任何个人的兴趣爱好为转移,而是

    由产业变革(例如工业化进程)、技术进步(例如DNA Microarray),以及制度环境(例

    如FDA政策)所决定的。这一点,我认为一定要看清楚!雷军说,站在风口,猪都能飞!

    其实这说的就是,重大选择要顺势而为。背后隐含的另一个结论是,如果逆风而动,鹰也

    飞不起来。这是我个人看待中国统计学发展方向的基本逻辑。那么,在中国这片土地上,面对当下的产业基础、政策环境,我们的大势在哪里?统计学的风口在哪里?要当飞起来

    的猪,还是被打趴下的鹰,或者最好是顺势而为的鹰?

    生物统计学在中国

    要讨论这个话题,需要检讨一下中国的现状。中国有强大的制药产业吗?未来会有。

    但不是今天,不是明天,不是我们可见的未来5~10年。因为我们缺乏强有力的制度环

    境。更加具体地说,我们缺乏类似FDA的强力监管机构。国家食品药品监督管理总局已经做了很多有意义的工作,但是显然还不够,看看大家对食品安全的焦虑就明白了。在此请

    允许我做一个悲观的预测:在中国,未来可见的相当长时间内,同制药相关的统计学将会

    是一个重要的存在,但不可能大放异彩。因为没有相应的制度环境。

    不过,这并不代表生物统计学就没有希望。恰恰相反,我认为生物统计学大有作为。

    但是,可能不在制药这块,而是在医学研究上。因为中国医院多,病人多,病例多。这是

    极其宝贵的数据资料积累,能够支撑很多深刻的研究。另外,生物统计学也有可能在健康

    经济学方面大放异彩。因为中国的医保制度就是最值得研究的素材。每年如此巨大的经

    费,都花到哪里去了?效果如何?未来如何改进?这些都是非常有意义的实际问题。

    图1-7

    风口所在

    此外,中国还有哪些产业在全球范围内是有竞争力的呢?第一,互联网;第二,制造

    业。互联网方面,中国有以BAT为代表的一大批有竞争力的企业;而制造业方面,中国是

    世界的中心,孕育了像华为这样伟大而优秀的企业。这两个行业,有可能会形成风口,或

    者正在形成。这两个行业就是统计学研究的大势所趋,风口所在!

    互联网

    首先讨论互联网,尤其是移动互联网。先来思考以下问题:移动互联网产生了什么独

    特数据?它们的价值是什么?应该如何研究?要回答这些问题,看看自己最常用的APP就

    知道答案了。国内最常用的是微信,国外最常用的是脸书和推特。它们全部都是基于社交

    的软件或者服务,产生的数据是网络结构数据,刻画了用户之间的社交关系。对于统计分

    析,这带来的最根本的变化就是让信息沿着网络结构开始流通。通俗地讲,以前我们判断

    一个人是好人还是坏人(因变量),主要参考他自己的特征(解释性变量)。但是,有了

    网络结构,与之相连个体的所有信息(既包括因变量,也包括解释性变量),都可以加以利用,提高预测精度。但是,能够符合该理念、满足该需求的统计学模型却少之又少。这

    就是网络数据赋予统计学发展的重大机会,这就是风口所在!

    制造业与物联网

    再来讨论制造业。制造业有以下特点:第一,中国是全世界的制造中心,但是亟待产

    业升级,进入工业4﹒0时代;第二,与世界制造中心相对应的是,对中国制造业的数据,我们却极其无知,远远落后于互联网。产生这个现象,有两个原因:首先是传统制造业的

    数据采集困难,不如互联网方便;其次是互联网的故事太抢眼,让我们忘记了传统产业。

    但是,我 个人感受到的传统行业,尤其是制造业,却蓄势待发。请看两个基本事实:

    (1)物联网技术越来越成熟,相应的数据采集越来越方便。一个典型的案例就是车联

    网。毋庸置疑,未来的汽车一定被成百上千个各种各样的探测器包围。这些探测器会准确

    记录汽车行驶的方方面面,例如胎压、发动机温度、地理位置、行驶方向、行驶速度、加

    速度、角速度等,这就构成了统计分析的数据基础。(2)传统制造业体量巨大,一个汽

    车厂商年产汽车百万辆,一个家电企业年产电视机千万台。因此,如果数据分析能够产生

    任何有益的改进方案,带来的价值都是巨大的,很可能远远大于数据分析(例如精准营

    销)之于互联网的价值。

    由此可见,对于传统制造业,数据分析很可能不以消费者为第一核心,而是以流程再

    造、产品改进、成本节省为第一核心。这点跟互联网行业很不一样。而这一切都是以物联

    网的大规模、低成本的实施为前提。因此,物联网将是另一个风口所在!

    图1-8

    风口所在,想不飞都难!

    基于以上讨论,作为统计工作者应该如何应对呢?需要以一种非常谦卑开放的心态,去学习业务知识,了解应用场景,实践统计学理论。这方 面可供我们实践的沃土太丰富

    了。它们包括但不局限于:游戏、电商、社交、广告、投资、金融、征信、可穿戴设备、车联网、设备监控、政府、医疗等。过去的历史已经很清楚地说明:统计学的发展一定要

    顺势而为,要顺应产业变革、技术进步以及制度环境。

    在中国,医疗健康、互联网和物联网就是大势所趋,就是风口所在。统计学从这里出发,想不飞都难!

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字: “风口”,看原文!第二章Chapter Two数据可视化

    最基础的数据可视化方法就是统计图。一个好的统计图应该满足四个标准:准确、有

    效、简洁、美观!由此对应的就是统计图的实力派和偶像派。

    实力派:准确+有效

    准确是统计图最基本的要求,即能够使用正确的统计图去描述不同类型的数据。比

    如,对于离散型变量(性别、职业等),可以画饼图或者柱状图;对于连续型变量(年

    龄、工资等),可以画直方图或者箱线图;对于时间序列变量(GDP,CPI等),可以画

    折线图。这就好比不同的季节要穿不同的衣服。春天穿风衣,冬天穿羽绒服。冬天穿比基

    尼,这不是好不好看的问题,而是会被冻死。

    然后说有效。比如,有两个变量,一个是性别,一个是年龄。如果比较男性和女性的

    年龄,应该选择什么样的统计图呢?先展示一组丑图(见图2-1和图2-2)。

    图2-1 男性年龄直方图轴须图及密度曲线图2-2 女性年龄直方图轴须图及密度曲线

    图2-1和图2-2展示的是针对男性和女性的两个直方图。男性是绿色,女性是粉色!但

    其实真的看不出明显的对比。你可能要问,年龄不是连续型变量吗?不是说应该画直方图

    吗?分组画直方图,只能够满足准确,但却达不到有效。图2-3则画的是分组箱线图(关

    于箱线图的详细介绍,请参看本章后面的内容),无论在平均水平还是波动程度上,都比

    分组直方 图更加有效地体现了不同性别的年龄对比。图2-3 男性和女性年龄分组箱线图

    所以,画图时,在满足准确的前提下,要多动脑筋,如何能让统计图更加有效地展示

    你的数据,支撑你的观点。这好比在不同场合穿不同的衣服。上班时穿职业装,毕业典礼

    上穿学士服。跑步时穿婚纱,虽然也能跑,但能跑得快吗?偶像派:简洁+美观

    先说简洁。图2-4是对年龄这个变量作的统计图。显然,连续型变量,画直方图。你

    可能会被图中每个柱子底下的黑色线段吸引。这叫轴须图。但这是什么?没人能回答。大

    家想象一下,如果这件事情发生在会议、讲标、答辩等重要场合,就悲剧了!但凡有一个

    人提出这种问题,人们的注意力就会集中在这个不必要的环节上。在画图阶段,过于技术

    的细节,如果一句话说不清,就不要展示。这就好比你化了个妆,眼线、唇膏 都不错,最后你非得用马克笔把两条眉毛描得老粗,谁还能看到你的明媚双眸和樱桃小口啊,全都

    看你的眉毛了。

    图2-4 获奖演员年龄直方图轴须图及密度曲线

    再谈谈美观。到底什么样的统计图是好看的?客观地讲,这没有唯一正确的标准。但

    是,一个美观的统计图应该同时满足准确、有效和简洁的标准。

    图2-5是非常普通的饼图,统计的是电影《速度与激情7》中主演范·迪塞尔开的车的

    品牌分布。这个饼图干干净净,标注清楚,“饼”上还贴心地印了车的logo。图2-5 范·迪塞尔开的车的品牌分布

    而图2-6属于一种树图(tree map),来自谷歌的一份报告。描述的是在谷歌上搜索某

    种裙子的关键词,出现的各种质地的裙子的搜索频数分布。这个图非常巧妙,每个格子直

    接用裙子的质地当作背景,格子的面积就代表这种质地的占比,可以说是赏心悦目。

    图2-6 各种质地的搜索频数分布

    图2-7是游戏中出现的统计图,一个非常简单的柱状图。它的配色与游戏背景配合得

    天衣无缝,出现得恰到好处。所以说,美观这事儿,考验的是化妆的整体技术,以及对于

    细节的把握。淡妆浓抹总相宜,让人瞅着舒服就是你的本事。图2-7 某游戏中的统计图柱状图

    柱状图是针对离散型数据(比如性别)所作的统计图。每根柱子代表一个类别(男性

    或者女性),柱子的高度是这个类别的频数(男性或者女性有多少人),有时也是百分

    比。首先展示一个中规中矩的柱状图(见图2-8)。

    图2-8

    一个完整的统计图包含以下要素或者注意事项:

    (1)要有图标题,一般在图的下方,标题要简洁明了。

    (2)报告中的统计图要有标号。横轴和纵轴要标注清楚(横轴:职称;纵轴:频

    数)。如果有单位的话,需要注明。

    (3)图的标题、横轴、纵轴等,出现的文字要统一和准确,不要一会儿中文,一会

    儿英文。写中文报告,就都标注中文。>>更多新书朋友圈免费分享 信xueb789

    (4)图的比例要协调,别太胖也别太瘦,别太高也别太矮。

    (5)图的内容要正确、简明,避免出现不必要的标签、背景等。

    (6)注意图的配色。不要精挑细选一组非常难看的配色!

    (7)画完图要有适当的评述,尤其是在报告里,这点非常重要。比 如,职称一共有

    三个水平(正教授、副教授和助理教授)。从图2-8中可以看出,正教授的人数最多(151人),其次是副教授(131人),人数最少的是助理教授(58人)。很多报告,常常是一

    个统计图从天而降,咣当摆在报告里,没有任何评述,这是非常糟糕的做法。要么就不画

    图,画图就要有它的作用,必须有简单的评论。所谓,写报告,统计图和评论更配。

    有人抱怨软件,说这个软件画图不好看,那个软件配色丑。这是典型的睡不着觉埋怨

    枕头,自己画图丑别把责任推到统计软件上!>>更多新书朋友圈免费分享微信x ueb789

    例2-1 借款用户信用等级频数分布柱状图

    图2-9 借款用户信用等级分布图

    点评:

    第一,这不是在画统计图,而是在画诗,这幅图画的是《题西林壁》中的“远近高低

    各不同”。最高的柱子高2万多,最矮的柱子才60。有两个解决办法:一是将特别少的归为

    其他,然后将柱子按照从高到低的顺序排列(这个技巧很实用,能让你的柱状图美观很

    多);二是干脆就只画具有可比性的三个信用等级,然后文字说明一下其他等级的频数特

    别少。

    第二,是美观问题。人都说距离产生美,柱子之间需要留出空隙,让人喘口气。横坐

    标“信用等级”也体现了自己无处安放的青春,非要跟频数6 0挤在一起才有安全感吗?其

    实完全可以调整到横轴下方做一个安静的美男子。

    第三,是图的标题。这个图的大名叫“柱状图”,你却起个绰号叫 “分布图”。

    总结一下,这个柱状图,画的没有错,只是丑而已!图2-10是“整容”后的版本。图2-10

    例2-2 奥斯卡获奖者出生地的频数分布柱状图

    图2-11 获奖者地区分布频数图

    点评:

    第一,这幅图可以用来玩“看统计图猜成语”的游戏,这个成语就是“参差不齐”。洋洋

    洒洒几十根柱子,精心排列得奇丑无比。而且由于柱子数太多,很多标签无法显示,根本

    无法知道每根柱子对应哪个地区,相当于这个柱状图没有传递任何信息!解决办法是,将

    频数较少的类别合并,然后将柱子按照从高到低排列。注意:柱状图的柱子数最好不要超

    过10根,否则美观程度将大打折扣。第二,图的标题出现了两次,这是分析报告里经常看到的。图的上方,标注了一次标

    题(更多时候是统计软件默认的标题,而作者没有修改或者去掉),然后图的下方又写了

    一遍。正确的做法是,只在图的下方写标题。

    第三,图的标题和纵轴标题。与图2-9中的柱状图类似,大名叫“柱状图”,就不要再

    给起个“频数图”或者“分布图”这种名字了。另外,这个图缺少纵轴标题,可以标注“频

    数”或者“人数”。

    总结一下,这个柱状图不但很丑,而且没能有效地传递任何信息。同样的数据,完全

    可以换一种作图方式,例如图2-12,它把每个地域获奖者的人数标注在了美国地图上,这

    个图基本上应该给满分(如果能加上颜色,利用颜色的深浅来反映频数的多少就更好

    了)。

    图2-12 获奖者出生地分布图(美国)

    例2-3 调查问卷中被调查者的一些基本情况图2-13 问卷1—4条形统计图

    点评:这不算是一个丑图,放在这里是因为有三点需要强调:

    第一,图的标题。一般而言,若是竖着的柱子,称为柱状图;若是横着的柱子,称作

    条形图。柱状图和条形图没有什么本质的区别,只是展示方式不同。所以这里叫柱状图更

    加贴切。

    第二,柱子的排列。前文已提到,按照柱子从高到低排序,会使柱状图更美观。但不

    是所有情况都以此为标准。注意:本例中,是按照类别的顺序排列的(比如年级按照从大

    一到硕士),这也是排列柱子的一种方式。

    第三,右上角的柱状图只有两个柱子。前文提到,柱状图的柱子数太多不美观。这里

    再补充一句,柱子数太少了也不漂亮。大家用心体会一下,画统计图跟养生特别像,传达

    的是一种适量的精神,信息量太多或者太少都不妥当。对于右上角这个柱状图,其实可以

    不用画图,用文字写上男生多少人、女生多少人(或者占比)即可。不是所有的数据描述

    都要通过画图来完成。堆积柱状图

    这里要讲的是一种更加复杂的柱状图,江湖人称“堆积柱状图”。按照惯例,还是先做

    一个正确的示范。堆积柱状图和柱状图的本质一样,都是在展示频数。只不过简单的柱状

    图只涉及一个离散型变量(比如性别),而堆积柱状图涉及两个离散型变量(比如性别和

    职称)。图2-14展示了一组样本数据中,性别和职称交叉频数的柱状图。

    图2-14 一组堆积柱状图示例

    因为有两个离散型变量,柱子可以代表任何一个变量,这样就产生了两种画法。左上

    角的柱状图中,柱子代表职称;右上角的柱状图中,柱子代表性别。也正是因为柱子只能

    代表一个变量的不同类别,那么另外一个变量的类别只能通过颜色(也有其他手段,颜色

    最为常见)进行区分。这样就需要一个额外的标签,标注另一个变量的不同类别所对应的

    颜色。按 照交叉频数的展示手段,是“堆积展示”(左上角)还是“分开展示”(左下

    角),又会形成两种不同的画法。于是,同一组数据,可以有四种不同的展示方法。具体

    采用哪个柱状图,取决于想给读者传递的信息。比如右上角的柱状图,比起其他三个,能

    够更直观地传递男性总数多于女性这一信息。

    有两点值得注意:(1)堆积柱状图也可以展示一个离散型变量和一个连续型变量,甚至两个连续型变量,前提是将连续型变量离散化,比如将年龄分成若干离散区间。

    (2)采用堆积展示的手段,不太适合在柱子上标注出交叉频数,会显得混乱。介绍了最基本的知识之后,来看看堆积柱状丑图。

    例2-4 北京市不同空气质量(从严重污染到良,共5个水平)下首要污染物出现的频

    数

    图2-15 北京市不同空气质量指数类别下首要污染物分布图

    点评:

    第一,这是在对读者进行色弱测试吗?很难看出,哪段是PM2﹒5,哪段是PM10。注

    意,但凡类别较多,需要画堆积柱状图的时候,应选择区分度比较强的配色,让人能识别

    出每段柱子都是哪个类别。

    第二,这些柱子上面最多出现了4种颜色,然而标签却显示出7种物质。看原始数据才

    发现(见表2-1),CO或者O3频数太低,根本显示不出来。

    表2-1 北京市不同空气质量指数类别下首要污染物分布 单位:天

    不妨手动输入数据,去掉频数小于10的三种污染物,给出如图2-16所示的柱状图(虽

    然配色也没有美到哪里去)。请读者试着自己去看图说话,解读这个柱状图的结果。图2-16 修改之后的污染物分布柱状图

    例2-5 获得奥斯卡提名演员不同性别的获奖频数

    图2-17 male对ynwin分组条形图

    点评:

    第一,图的标题和横轴、纵轴处,中英文混用。比如横轴标着英文的male,然后分别画了女性和男性的柱子。纵轴更过分,ynwin是什么?或许你会说,前文中提到ynwin代表

    是否获奖,但前提是有多少人会专心看你那几十页报告。而且这里纵轴应该标注“频数”,而非是否获奖。

    第二,标签挡住了柱子。这是最让人难以容忍的。

    第三,男性和女性这两组柱子非常像(蓝色柱高基本相同,粉色柱女性略高)!作者

    的评论写着:“演员获奖事件的发生与性别无关。”看后更加一头雾水!那么蓝色柱子画的

    是获过奥斯卡奖的人数,还是人次呢(报告里面没交代)?如果是人次,这不是废话吗?

    每年奥斯卡都会分别有一男一女分获最佳男女主角奖(极少数情况下会有两人同时获

    奖)。如果是人数的话,会存在一个演员多次获奖的情况,蓝色柱高一样又有点太碰巧。

    这个统计图以及不清晰的陈述,都给读者带来了很大的疑惑。

    总而言之,这个柱状图是非常失败的展示,从图到评论,都会给报告大大扣分!那么

    怎么改呢?其实不用画图,简单陈述一下,本文统计了多 少届奥斯卡奖、提名了多少

    人、男女获奖者又有多少人就可以了。柱状图之妙用

    除了用来展示频数,柱状图还有别的用途,本节跟大家分享两个柱状图的其他妙用。

    妙用一:展示某些常用的统计量,让你的汇报更直观

    假设样本数据包含1000辆车,4种车型(A,B,C,D)。以往画柱状图,就是展示

    每种车型各有多少辆车。

    现在,统计了这些车在2015年全年的保养花销,想比较不同车型的平均花销,看看哪

    种车型的平均保养费用最高。一般情况下,人们会分车型算出平均数,用统计表进行展示

    (统计表里可能还会报告其他统计量)。

    作为另一种选择,也可以用柱状图进行展示,柱高就是统计量(平均保养费用)的取

    值,如图2-18所示(类别不多,可以按照车型排列柱子,也可以按柱子高度排列)。

    请注意:首先,千万不要每个统计量都展示一遍,均值、中位数、方差、标准差,一

    个变量画出好几个柱状图展示不同的统计量。要展示读者最关心的,或者最能讲出故事的

    那些统计量,做到少而精。其次,画这种柱状图时,非常容易犯一个错误,或者说有的报

    告是故意为之。图2-19展示的是车型B和C的年均保养费用。左侧的柱状图是一个正常的

    展示,Y 轴从0开始画起。右侧的柱状图特意隐去了Y 轴。

    比较左右两组柱状图可以看出,右侧的柱状图在视觉上拉大了两种车型的平均保养费

    用差距,因为右图的纵轴是从2开始画的。如果读者没有格外留意,就会在视觉上产生错

    觉,接收错误的信息(这里可不是在教你作假,而是在教你打假)。用某些作图软件(例

    如R)画图,可能不会遇到这个问题,但是如果用Excel,就有可能遇到这个问题。图2-18 不同车型的平均保养花销

    图2-19 展示Y轴(左)和隐藏Y轴(右)的柱状图比较妙用二:展示回归分析的系数估计结果

    大家可能会困惑,教材上从来没教过用统计图展示回归结果,老师教给我们的是要规

    规矩矩做成表,要汇报系数估计值、t值、p值,等等。设想下面两种场景:

    第一,当你在听一个报告的时候,如果回归分析涉及8~10个自变量,给你的第一印

    象是什么?看不到重点,更没心思去细看系数估计值了。

    第二,若你是作报告的人,翻到回归结果那页ppt的时候,讲述起来是不是也略显吃

    力呢?听众的心恐怕早就飞到九霄云外了。

    做展示,跟写报告又不同,需要想尽办法用统计图去抓住听众的心。假设一批样本数

    据,因变量是来年的净资产收益率,自变量包括当年净资产收益率、资产周转率等9个指

    标。表2-2是全模型回归结果(只简略展示了部分系数估计值和p值)。

    表2-2全模型回归结果

    在报告中,回归结果往往是以表2-2的形式展现的,然而这种表现方式不太适合ppt汇报。

    可以用柱状图展示回归系数估计值,如图2-20所示。

    图2-20的展示效果有三点需要注意:

    (1)用红色和黑色区分了显著和不显著的系数估计。红色是指系数估计跟0有显著差

    异,而黑色是指没有。因此解读的时候,关注红色柱子即可。

    (2)柱子朝上,说明自变量和因变量的关系是正向的。自变量取值增加的时候,因

    变量取值也增加。类似地,如果柱子朝下,说明自变量和因 变量的关系是负向的。自变

    量取值越大,因变量取值则越小。图2-20 回归系数展示

    (3)若对自变量进行了标准化,那么柱子的高度,也就是系数的估计值有可比性,可以直观地区分出自变量对因变量的影响大小。饼图

    饼图是一种使用非常广泛的统计图,也是丑图的重灾区。饼图跟柱状图一样,都是针

    对离散型数据的统计图。柱状图多用于展示频数,饼图多用于展示频率(也就是比例)。

    下面先展示一个规规矩矩的饼图(见图2-21)。饼图展示的是在某游戏中,最近一周9个

    职业使用热度(就是某一职业使用次数占总次数的比例)。法师这个职业使用次数最多;

    最受嫌弃的职业是战士,占比只有不到5%。

    下面先看三组丑图,最后再做总结。重点从饼的块数和标签的标注来进行点评。

    图2-21 游戏《炉石传说》中职业分布饼图

    资料来源:炉石传说盒子(lushi﹒163﹒com)。

    例2-6 一拍两散,貌合神离

    当一个离散型变量只有两个取值的时候,无论在报告里还是在ppt里,都不建议画饼

    图,因为很容易画成图2-22的丑样。图2-22 一组类别数较少的饼图示例

    这些饼图之所以不好看,主要是因为变量只有两个取值,信息量太少。那怎么办?如

    果是在报告里,建议直接写一句话。比如右上角的饼图,可以写成“样本数据中,成功的

    比例为51﹒6%”。如果非要画图做ppt展示,除非你能画成图2-23这样(对,你没看错,是

    魔兽世界里的部落和联盟),否则就别画!

    图2-23 一组美观的数据展示示例

    例2-7 群雄割据,丑绝人寰

    与例2-6中的饼图形成鲜明对比,图2-24展示的是变量取值特别多的一类饼图。除非

    这几个类别分布比较均匀(如左上角的饼图,是魔兽玩家星座分布),否则效果就是剩下

    的几个饼图。需要注意以下几点:

    第一,饼的块数过多的时候,有两种改进办法:一种是将比例不到5%的,归为一

    类,叫作其他。可以在饼的下方写个注释或者在行文中提及“其他”都包括什么。另一种是画条形图。条形图是柱状图的兄弟,是把柱状图顺时针旋转90度。由于平时写报告的纸

    张,纵向较长,所以条形图比柱状图更适合展示类别数较多的离散型变量。

    第二,饼的标签单独打在旁边的时候,读者对应起来很费劲,比如右下角的饼图。细

    心一点的读者还会发现:这个饼分了9块,右侧的标签只有8个。另外一个34﹒53%的饼对

    应的标签呢?

    图2-24 一组类别数较多的饼图示例

    第三,饼的标签,一般只标注百分比,很少标注频数或者两者都标注。左下角的饼图

    就同时标注了频数和百分比,异常混乱。

    下面针对右下角的饼图,做了改良(见图2-25)。图2-25 一个“改良”后的饼图

    例2-8 不多不少,丑得正好

    例2-6和例2-7中的两组丑图所涉及的离散型变量取值要么太少,要么太多。如果一个

    离散型变量取值不多不少,画出来的饼图就一定美美哒吗?请看图2- 26所展示的这组充

    满想象力的饼图。

    图2-26 一组分布极不均匀的饼图示例左上角的饼图,厚重感满满。但比例不标注,标签也很难对应上。右上角的饼图,小

    数位数保留两位即可。左下角的饼图,标签是“1,2,3,4,5”,跟比例完美地融合在一

    起不分彼此。很多小伙伴一定不服气了,数据就长成这样啊,画出来的饼图就是这么丑。

    为了回答这个问题,引用一句R help里面的一句话:Note:Pie charts are a very bad way of

    displa‐ying in for mation﹒The eye is good at judging linear measures and bad at judgingre

    lative areas﹒A bar chart or dot chart is a preferable way of dis‐playing this type of data﹒翻译

    过来就是:没事儿别画饼图!

    那有没有改良版的饼图呢?这里隆重推出一款整容神器:复合饼图!中心思想是把占

    比特别小的区块用另外一个饼图放大出来。右上角的饼图整容之后如图2-27所示。你肯定

    想不到,这是用Excel画的。

    图2-27 一个复合饼图示例

    最后,进行总结。

    第一,饼的块数。这是经常碰到的问题,一块饼到底多少个人吃才合适呢?块数少

    了,每个人都容易吃撑;块数多了,大家都吃不饱。结论是:不多不少。

    第二,饼的标签。一个规规矩矩的做法是在饼的旁边对应着标注类别+比例。还有一

    种常见的做法是只在饼上标注比例,在旁边额外标注相应的类别。然而,第二种做法不是

    那么容易对应上,所以还是推荐第一种标注方法。

    第三,饼的配色。精挑细选的难看配色比比皆是。R里面有四个常用的配色:heat﹒

    colors,terrain﹒colors,cm﹒colors以及rainbow。大家可以尝试一下,然后量力而行。用

    力过猛的后果很严重!注意:面积大的区块用浅色,面积小的区块用深色。直方图

    直方图是针对连续型变量所作的统计图。笔者随机生成了1000个来

    自标准正态分布的随机数,画了一组直方图(见图2-28)。

    图2-28 一组直方图示例

    直方图的横轴是实数轴,被分成了许多连续的区间。这些区间,可以是等距的,也可

    以是不等距的;可以是左开右闭的,也可以是左闭右开的。直方图的纵轴有两种处理方

    式:一是代表频数,如图2-28中的(a),(b),(c);二是代表密度,如图2-28中的

    (d)。先看(a),(b),(c),这三个图的共同点是,纵轴代表频数,就是落在相应

    区间内的样本数。三个图的不同点是,区间的宽度不一样,从(a)到(c),区间越来

    越“窄”,数据的分布形态也被展示得越来越“细”。一般认为,(b)是看着比较舒服的。

    再看(d),这个图的纵轴是概率密度(不是频率),图中红色的线是用非参数方法估计

    的概率密度曲线。实际上,直方图是一种非参数方 法。(d)在学术论文中使用较多,在偏向应用的报告中,更多地使用纵轴是频数的直方图。

    直方图最大的用处是观察数据分布的形态,了解数据的取值范围。关于数据分布,主

    要分为对称、右偏和左偏三种。下面来看另外一组直方图(见图2-29)。

    图2-29 一组不同分布形态的直方图示例图2-30 一个并不美观的直方图示例

    图2-29中的(a),(b)和(c)分别是对称分布、右偏分布和左偏分布的形态。对

    称的形态比较容易判断,但有人经常搞不清右偏和左偏。直方图的“尾巴”在哪里,就是往

    哪里偏,仿佛新娘婚纱的拖尾一样。例如,人们常说的二八定律,说的是绝大多数客户带

    来的收入(利润)都很低,只有少数客户做出了巨大贡献。如果数据服从这种规律,那么

    直方图就应该是右偏的,因为大量的样本集中在左边(原点附近),代表低价值客户;而

    少数样本集中在右边,代表高价值客户。

    在运用直方图时需要注意以下两点:

    第一,当拿到数据之后,往往需要对连续型变量画直方图,看看分布的形态,这是正

    确的做法。但不是每个直方图都要放在报告或者ppt里,因为有的数据画出来的直方图并

    不好看,如图2-30所示。这个直方图不好看,并不怪直方图本身,而是数据分布没法画出

    赏心悦目的直方图。在数据分析的初始阶段,可以做各种画图尝试。但是在报告阶段,要

    选择美观的、有展现力的图表来汇报,并且讲出故事。实在难以应付的,可以选择不画图

    而是用文字简要汇报。因此,描述分析不在全面而在精辟。

    第二,要看作的图是否有效传递了信息,同时想一想是否有其他展现手段,否则后果

    将如图2-3 1所示。

    图2-31展示的是四类用户的微博被转发数的直方图。四个直方图在一个图中,颜色互

    相覆盖,没能准确传递任何信息。一个可行的解决办法是,做一个统计表,比较四类用户

    的微博被转发数的各种统计量(最值、均值、分位数、标准差等),效果会好很多。所

    以,要学会用有效的手段展示数据,画图不是唯一选择,做统计表或者文字陈述也是可行

    的。图2-31 一个信息传递无效的直方图示例折线图

    本节主要讲针对时间序列的统计图———折线图。先看三种常见的数据类型:横截面

    数据、时间序列数据和面板数据,分别如图2-32至图2-34所示。

    ●横截面数据是指在某一时间点上,在多个对象上采集到的数据。比如某次狗熊会团

    队跑步活动中,团队成员的身高、体重,以及跑10公里的耗时。

    ●时间序列数据是指在一些时间点上,针对某个对象采集的数据,反映事物随时间的

    变化。比如2014年3月至2016年9月,每个月给孩子测量一次体重。

    图2-32 横截面数据

    图2-33 时间序列数据图2-34 面板数据

    ●面板数据是指在多个时间点上,对于同一批对象采集的数据。比如2014年3月至

    2016年9月,每个月采集爸爸、妈妈和孩子的身高、体重等数值。

    本节主要介绍时间序列数据。时间序列数据的典型特征是带有时间标 签,因此折线

    图的横轴是时间(顺序不能乱),纵轴是某一指标取值。将每个时间点上采集到的指标取

    值标在图上,相邻的两个点用直线连接起来,就形成了折线图。

    例2-9 追热剧《老九门》

    图2-35展示的是热播剧《老九门》初映时百度搜索指数时间序列图。从这张图上,能

    够明显看出“周期”规律,原因是该剧每周一和周二播出,因此周一和周二的搜索会出现一

    个波峰,呈现出周期规律。

    图2-35 热剧《老九门》百度搜索指数

    例2-10 “国民老公”张继科

    里约奥运会结束之后,迷妹们忙得不知道选谁当“老公”好。图2-36是当时新晋“国民

    老公”张继科的百度搜索指数时间序列图。与图2-35不同的是,这张图没有明显的周期规

    律,而是出现了两个非常明显的“波峰”。当时正值奥运会,所以张继科的搜索量突增。

    图2-36 张继科百度搜索指数

    由例2-9和例2-10可以看出折线图的三大特点:

    第一,看趋势。指标随着时间的变化,呈现递增、递减还是持平的趋势。第二,看周期。指标的取值是否呈现一定的周期规律(例如《老九门》的搜索指

    数)。

    第三,看突发事件。指标的取值是否因为某个事件的发生,出现波峰或者波谷(例如

    张继科的搜索指数)。

    另外,折线图也可以用来对比多个指标的变化,也就是一张图里有多条折线。

    例2-11 北京的哥的忙碌时段

    图2-37是北京市出租车在工作日和周末每小时接单数的时间序列图。从图中可以看

    出:(1)工作日和周末出租车每小时接单数变化趋势相同,有两个高峰,分别是

    上午9点到下午1点以及晚上6—8点;(2)在上午8点到下午2点的时间段,出租车工

    作日接单数大于周末接单数;(3)在凌晨时段,周末的接单数多于工作日。这从一定程

    度上反映了人们在工作日和周末的出行规律。

    图2-37 工作日和周末的出租车小时接单数折线图

    需要注意的是,经济指标的变化趋势惯用柱状图,而非折线图。这里没有孰对孰错,主要看个人使用习惯。图2-28是根据国家统计局数据,画出的民用汽车拥有量随时间变化

    的柱状图,柱高代表民用汽车拥有量,本质上跟折线图一个道理。图2-38 2005—2014年民用汽车拥有量

    最后展示几张丑陋的折线图(见图2-39),并进行点评。

    (1)左上图:一根线飘在空中,让人不明所以。不妨对纵轴展示范围进行调整。

    (2)右上图:三根折线两个纵轴,让人难以比较。

    (3)左下图:少了纵轴标题,横轴标签过于密集。

    (4)右下图:只能用一个词来表达:一团乱麻。如果有太多的信息想要表达,而且

    非要在一个图中,就是这个效果。图2-39 一组不美观的折线图示例散点图

    图2-40 一组散点图示例

    散点图是用于展示两个(连续型)变量的一种常用统计图。

    散点图中的每一个点,由横纵两个坐标值组成。从散点图图2-40中可以解读两个变量

    的相关关系:正线性相关(左上)、负线性相关(右上)、非线性相关(左下)、不相关

    (右下)。需要注意的是,相关关系不等于因果关系,人们渴求因果关系,但常用的许多

    统计工具(回归分析等),探求的只是相关关系。

    除了已知的两个变量,当数据中还有其他变量信息时,可以通过改变“点”的颜色、形

    状和大小来传递更多的信息。在图2-41

    [1]

    中,横轴是信用卡账户余额,纵轴是年收入。

    从散点图上看,两个变量之间没有明显的相关性。除此之外,还有第三个变量———是否

    违约。将违约用户用橙色的十字表示,非违约用户用蓝色的圆圈表示。能够看出,两类人

    群的信用卡余额有着十分明显的差别,但在年收入上并没有差别。从散点图上,还能发现一些“异常”的信息,也就是“离群点”。在车联网行业中,可以

    通过车上设备获得汽车的实时车速(以秒计)。图2-4 2是一段路程的前后时速散点图。

    横轴是t时刻的时速,纵轴是(t+1)时刻的时速。可以看出,当前时刻的车速跟下一时

    刻的车速是高度线性正相关的。同时也能看到一个明显的“离群值”,疑似是一个“急刹

    车”行为。

    当数据中有多个连续型变量时,可以两两画散点图,形成散点图“矩阵”。图2-43展示

    的是鸢尾花的萼片长度、萼片宽度、花瓣长度和花瓣宽 度的散点图矩阵。同时还用颜色

    区分了三个不同的品种。

    图2-41 账户余额与年收入散点图图2-42 t时刻和t+1时刻车速散点图

    然而,如果数据中有很多连续型变量,散点图矩阵会让人抓不到重点。这时可以两两

    计算相关系数。遗憾的是,如果把相关系数的数值展示 成矩阵,并不直观。在此,可以

    将相关系数矩阵可视化。图2-44展示的是“英超进球谁最强”的相关系数矩阵图。图中

    的“圆圈”越大,相关性越强。越接近深蓝色,代表正相关性越强;越接近深红色,代表负

    相关性越强。对角线都是深蓝色的大圆圈,这是因为一个变量跟自己的相关系数是1。通

    过相关系数矩阵图,可以迅速得到一组变量的相关关系的大致情况。

    图2-43 一个散点图矩阵示例

    注释

    [1] Gareth James,Daniela Witten,Trevor Hastie,Robert Tibshirani.An Introduction to Sta‐tistical Learning.Springer,2013.箱线图

    箱线图(boxplot)是一种针对连续型变量的统计图。但是,要画好很不容易。

    首先看一个长相标致的箱线图(见图2-45)。该图模拟了一个样本数据,假设是学生

    的期末考试得分。

    根据图2-45,可以看出箱线图的基本三要素:

    (1)箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。

    图2-44 一个相关系数矩阵示例图2-45 学生期末考试得分箱线图

    (2)箱子的上下限,分别是数据的上四分位数和下四分位数,意味着箱子包含50%

    的数据。因此,箱子的高度在一定程度上反映了数据的波动程度。

    (3)在箱子的上方和下方,又各有一条线。有时代表最大或最小值;有时会有一些

    点“冒出去”。如果有点冒出去,应理解为“异常值”。

    需要注意的是,虽然箱线图也能看分布的形态,但人们更习惯从直方图去解读分布的

    形态,而非箱线图。

    例2-12 不是所有的数据都适合画箱线图

    图2-46展示的三个箱线图看着并不舒服,主要原因是,箱子被压得很扁,甚至只剩下

    一条线,同时还存在很多刺眼的异常值。这种情况的出现有两个常见的原因:一是样本数

    据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸

    显出这些异常;二是样本数据特别少,数据少就有可能出现各种诡异的情况,导致统计图

    很不美观。图2-46 一组不美观的箱线图示例

    如果画出的箱线图如图2-4 6中的那样,有两个解决办法:第一,如果数据取值为正

    数,那么可以尝试做对数变换。对数变换可谓是画图界的整容神器,专门解决各种不对称

    分布、非正态分布和异方差现象等问题。

    图2-47展示的是整容前后的一组箱线图。第二,如果不想变换,那么建议不画箱线

    图。

    图2-47 对数变换后的箱线图例2-13 箱线图应该怎么用

    箱线图的用法是,配合定性变量画分组箱线图,作比较。如果只有一个定量变量,很

    少用一个箱线图去展示其分布,更多选择直方图。箱线图更有效的使用方法是作比较。

    假设要比较男女教师的教学评估得分,用什么工具最好?箱线图。从图2-48可以看

    出,箱线图明显更加有效,能够从平均水平(中位数)、波动程度(箱子高度)以及异常

    值对男女教师的教学评估得分进行比较,而直方图却做不到。

    假设共涉及3个变量:定量变量是牙齿生长长度,体现在图形的纵坐标,也就是箱子

    展示的内容。第一个定性变量是维生素C的剂量,三个水平(0.5mg,1mg和2mg),体现

    在横坐标,所以一共有3组箱线图;第二个定性变量是食用的食物,是维生素C还是橙

    汁,分别用黄色和橙色展现,所以每组箱线图里又包含两个箱子。

    图2-48 箱线图的对比作用图2-49 一个美观的箱线图示例

    从图2-49可以看出:(1)随着使用剂量的增加,不管食用的是哪种食物,牙齿生长

    长度的平均水平(中位数)都在增加。(2)当使用剂量为 0.5mg和1mg时,食用橙汁带

    来的牙齿生长的平均长度(中位数)要比食用维生素C高,波动程度也相应更大。(3)

    当使用剂量为2mg时,食用两种食物带来的牙齿生长平均水平(中位数)相当,食用维生

    素C带来的牙齿生长长度波动相对更大。茎叶图

    本节将通过以欧洲杯为背景的综合案例,对比几种统计图,同时还会介绍一种很少用

    到的统计图:茎叶图。

    图2-50展示的是原始数据的一部分,我们从腾讯网手动收集了2016年欧洲杯小组赛截

    至2016年6月18号的进球数据(共42个进球)。第一列是每一个进球的发生时间,也就是

    这个进球发生在第几分钟。第二列是更粗一点的时间段,上半场、下半场还是伤停补时。

    对这个数据做分析,主要是想看看进球时间的分布规律,分析过程可以由粗到细地推进。

    图2-50 进球时间的部分原始数据

    第一步:饼图

    主要看上下半场以及伤停补时的进球分布。

    从图2-51可以看出,超过一半的进球都发生在下半场。另外,伤停补时是个关键的时

    段,有14.29%的进球发生在那短短的几分钟。所以如果你没有时间看全场,那么上半场

    可以直接快进了。图2-51 进球时段分布饼图

    第二步:柱状图

    主要看更加细分的时间段内进球的分布。

    从图2-52可以看出,将时间以1 5分钟为间隔进行划分,前30分钟是进球数最少的时

    间段。后面的每个15分钟区间中,45~60分钟时间段进球最多。最后的伤停补时阶段(90

    +)发生了8个进球,完全不逊色于其他时间段,看来这届欧洲杯上演了许多精彩绝杀。

    第三步:直方图

    把时间看做连续的,可以画出更加细致的直方图(见图2-53),可惜并不美。

    第四步:茎叶图

    茎叶图可以同时展示原始数据和分布的形状,图形由“茎”和“叶”两部分组成。通常以

    数据的高位数字作为树茎,低位数字作为树叶。进球 时间数据的茎叶图如图2-54所示。图2-52 进球时间分布柱状图

    图2-53 进球时间分布柱状图

    图2-54直接展示了原始数据,“|”左边的数字是进球时间的十位 数,这

    是“茎”。“|”右边的数字是进球时间的个位数,在相应时段出现了几个进球,就会列出几

    个,这是“叶”。以第4行为例,在30~40分钟的时段内,进了6个球,分别是1个31分钟、2

    个32分钟、1个34分钟和2个37分钟。从图2-55还能看出来,目前为止,本届欧洲杯最快的进球是开场后5分钟(来自瑞士队的萨沙尔)。如果嫌茎叶图不好看,可以改进一下,如

    图2-55所示。

    图2-54 进球时间茎叶图

    图2-55 改进后的茎叶图第三章Chaper Three 回归分析

    回归分析是实现从数据到价值的不二法门。本章将学习什么是回归分析,有哪些常见

    的回归分析模型,适用于什么样的数据类型,可以支撑什么样的业务应用。

    什么是回归分析?

    在“道”的层面,回归分析是一种重要的思想,在它的指导下,我们将一个业务问题

    (或者科学问题)定义成一个数据可分析问题。在“术”的层面,回归分析就是各种各样的

    统计学模型。回归分析主要包括五种类型:线性回归、0-1回归、定序回归、计数回归,以及生存回归,称为“回归五式”。

    第一式:线性回归

    线性回归,更严格地说是普通线性回归,其主要特征是:因变量Y 必须是连续型数

    据,而对解释性变量X 没有太多要求。典型的连续型数据包括身高、体重、价格、温度

    等。但是,在实际工作中,所有的计算机都只能存储有限位有效数字。因此,在真实的数

    据世界中,不存在严格的连续型 数据,只有近似的。普通线性回归在数据世界中,可以

    应用于股票投资、客户终身价值、医疗健康等领域。

    第二式:0-1回归

    0-1回归就是因变量Y 是0-1型数据的回归分析模型。0-1型数据是指只有两个可能取值

    的数据类型。例如,性别,只有“男”或者“女”两个取值;消费者的购买决策,只有“买”或

    者“不买”两个取值;病人的癌症诊断,只有“得癌症”或者“不得癌症”两个取值。遇到这种

    数据的时候,线性回归就不好使了,此时需要的是回归分析第二式:0-1回归。

    0-1型的因变量又包含了众多招数,其实大同小异,最常见的有两招:一招是逻辑回

    归,也叫Logistic Regression;另外一招是Probit Re‐gression。相关的重要应用很多,并

    且都很时髦有趣,比如互联网征信、个性化推荐、社交好友推荐等。

    第三式:定序回归

    定序回归就是因变量Y 为定序数据的回归分析模型。定序数据就是关乎顺序的数据,但是又没有具体的数值意义。例如,狗熊会出品一款新的矿泉水,叫做“狗熊山泉,有点咸”。现在想知道消费者对它的喜好程度,因此决定请人来品尝,根据其喜好程度,给出

    一个打分。1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示

    非常喜欢。这就是人们关心的因变量Y。这种数据很常见,有以下两个特点:

    第一,没有数值意义,不能做任何代数运算。例如,不能做加法。不能说,1(非常

    不喜欢)加上一个2(有点不喜欢)居然等于3(一般般)。这显然不对。这就是该数据的

    第一个特点,没有具体的数值意义。

    第二,顺序很重要。例如,1(非常不喜欢)就一定要排在2(有点不喜欢)的前面,而2(有点不喜欢)就必须要排在3(一般般)的前面。这 个顺序很重要,这就是为什么

    称其为“定序数据”。

    定序回归常见的应用场景如:各种关于消费者偏好的市场调研(李克特1~5点量

    表);豆瓣上对电影的打分评级(1~5分);电商平台上对商品或商家的满意程度(1~5

    颗星);在医学应用中,有些重要的心理相关的疾病(如抑郁症)也会涉及定序数据等。

    第四式:计数回归

    如果因变量Y 是一个计数数据,那么对应的回归分析模型就是计数回归。什么是计数

    数据呢?就是数数的数据。例如,谁家有几个孩子,养了几条狗。这样的数据有什么特

    点?既然是数数,就必须是非负的整数。不能是负数,说谁家有负3个孩子,没这事;不

    能是小数,说谁家养了1.2 5只小狗,也没这说法。

    计数数据常见的应用有哪些呢?客户关系管理中,有一个经典的RFM模型,其中这

    个F,就是frequency,指的是一定时间内客户到访的次数。可以是0次,也可以是1次、2

    次、很多次。但是,不能是-2次,更不能是2.3次。医学研究中,一个癌症病人体内肿瘤

    的个数:0是没有,也可以是1个、2个,或者很多个。社会研究中,二孩政策放开,一对

    夫妻最后到底选择生育多少个孩子呢?可以是0个、1个,也可以是2个,但是,不能是-2

    个,也不能是0.7个。

    第五式:生存回归

    生存回归是生存数据回归的简称,即因变量Y 为生存数据的回归分析模型。其中生存

    数据就是刻画一个现象或个体存续生存了多久,也就是常说的生存时间。为此需要清晰定

    义:什么是“出生”?什么是“死亡”?

    以人的自然出生为“出生”,以人的自然死亡为“死亡”,就定义了一个人的寿命,这就

    是一个典型的生存数据,该数据对寿险精算非常重要;以一个电子产品(例如灯泡)第一

    次使用为“出生”,最后报废为“死 亡”,就定义了产品的使用寿命;以一个消费者的注册

    成为会员为“出生”,到某天流失不再登录为“死亡”,就定义了一个消费者的生命周期;以

    一个企业的工商注册为“出生”,破产注销为“死亡”,就刻画了企业的生存时间;以一个创

    业团队获得A轮融资为“出生”,创业板上市为“死亡”(请注意,这是一个开心的死亡),就刻画了风险投资回报的周期。由此可见,生存数据无处不在。

    生存数据看起来是一个连续型数据,那么为什么不用线性回归呢?如果生存数据是被

    精确观察到的,那么普通线性回归确实可以用来分析生存数据。但问题是生存数据有可能

    并未被精确观测到。以人的寿命为例,在抽样调查过程中,隔壁老王被抽中。老王今年60岁,身体倍儿

    棒,吃嘛嘛香,核心问题是他还好好地活着。因此,他的最终寿命Y 并不为人所知。但可

    以确定的是,Y一定比60大。这是一个宝贵的信息。所以,在数据上把Y 记作60+。只要

    数据后面跟着一个“+”,就表明真实的数值比这个大,但是大多少不知道。这种数据称作

    截断的数据(censored data)。这就是生存数据最独特的地方。

    至此,就把五种最常见的回归分析模型的基本框架介绍完了。接下来,将结合不同的

    实际案例,进一步展示它们各自的有趣应用。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“五式”,听熊大音频!线性回归——北京市二手房房价

    二手房时代

    北京市房地产市场是我国最为发达、最具有代表性的房地产市场之一。截至2016年5

    月25日的北京住宅年内交易数据显示,北京市二手房交易占市场住宅成交比例高达

    86.2%,北京楼市已经全面进入二手房 时代。

    数据来源和说明

    本案例所关心的因变量Y 是单位面积房价(万元平方米)。二手房的市场价格是多

    种因素综合作用的结果,本案例收集了某二手房中介网站的16210套在售二手房相关数

    据,对二手房房价的相关影响因素展开研究。

    所有的X 变量如表3-1所示,主要分为内部因素和区位因素两部分。其中内部因素包

    括房屋面积、卧室数、厅数、楼层;区位因素包括所属城区、是否邻近地铁、是否学区房

    三个因素。由于数据限制,没有能够考虑更多的相关指标(例如,交通、商圈、医疗、教

    育等)。显然,这些因素都是重要的,是本案例可以显著改进的方向。

    表3-1数据变量说明表二手房价格

    从直方图(见图3-1)可以看出,单位面积房价呈现右偏分布。具体来说,单位面积

    房价的均值为6.12万元平方米,中位数为5.74万元平方米。这一现象符合对于房价的

    基本认知,即存在少数天价房,从而拉高了房价的平均水平。图3-1 单位面积房价直方图

    在本案例中,单位面积房价的最小值为1.8 3万元平方米,所对应的房屋是丰台区东

    山坡三里的一套两居室,总面积为100.83平方米;最大值为14.99万元平方米,所对应的

    房屋是西城区金融街的一套三居室,总面积为77.40平方米。

    描述性分析

    首先看内部因素,从分组箱线图(如图3-2)可以看出,卧室数、厅 数、楼层对于单

    位面积房价的影响并不明显,而房屋面积与单位面积房价则存在一定的负相关,相关系数

    为-0.07,关系显著。图3-2 内部因素的单位面积房价箱线图

    再看区位因素,从分组箱线图(见图3-3和图3-4)可以看出:(1)不同城区的房屋

    单位面积房价差异较大,西城区、海淀区和东城区的单位面积房价明显偏高;(2)学区

    房和地铁房的单位面积房价偏高。

    图3-3 各城区的单位面积房价箱线图图3-4 公共交通资源(地铁)、学区资源与单位面积房价的关系

    综上所述,通过对本案例数据的描述性分析,可以推测:对单位面积房价可能会产生

    影响的因素包括区位因素(城区、地铁、学区)和内部因素(卧室数、是否有客厅、面

    积、楼层);从影响作用来看,区位因素比内部因素更为明显。

    为了更深入地分析各因素对二手房房价的影响,本案例将建立单位面积房价关于区位

    因素和内部因素的回归模型,使用量化的方式更为精细地刻画两方面因素的影响大小,并

    且试图使用该模型来预测二手房房价。

    回归分析

    在数据建模部分,本案例层层推进地建立了三种模型:(1)简单线性回归模型;

    (2)对数线性回归模型;(3)带有交叉项的回归模型。下面展示简单线性回归模型的估

    计结果和解读(见表3-2)。

    表3-2线性回归结果

    在控制其他因素不变时,可以得到如下结论:(1)对于城区这一变量,石景山区单

    位面积房价最低,西城区单位面积房价最高,比石景山区每平方米平均高出3.70万元;

    (2)对于学区这一变量,学区房比非学区房单位面积房价平均高出1.18万元;(3)对于地铁这一变量,地铁房比非地铁房单位面积房价平均高出6720元;(4)高层房屋单位面

    积房价最低,其次是中层,低层房屋单位面积房价最高;(5)有客厅的房子单位面积房

    价更高;(6)卧室数每增加一间,单位面积房价平均增加1110元;(7)房屋面积的增加

    会带来单位面积房价的降低。这些结论与之前的猜想基本符合。而且模型的F 检验拒绝原

    假设,说明建立的模型是显著的;调整的R 2为0.59,模型的拟合程度尚可接受。

    总结与讨论

    最后,本案例采用了带有交互效应的对数线性模型。假设有一家三口,父母为了能让

    孩子在西城区上学,想买一套邻近地铁的两居室,面积是85平方米,低楼层,那么房价大

    约是多少呢?根据交互模型,预测到的单位面积房价为9.29万元平方米,总价高达

    789.78万元。

    由于房价的影响因素有很多,因此在未来的研究中可以考虑在模型中加入更多因素,比如小区位置(地处几环)、小区环境(如绿化情况、容积率等)、周边配套设施(如商

    圈、医院等)等。另外,若要将模型推广到其他城市,还要进一步考虑城市特有因素(如

    在旅游城市是否为海景房等)。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“二手房”,听水妈音频!线性回归——中国电影票房

    中国电影产业

    中国电影产业正处于高歌猛进的快车道。据中国电影产业网数据显示,2016年中国电

    影票房达457亿元,略超2015年的440亿元票房。I P电影的出现为中国电影市场增加了不

    少票房收益,如《同桌的你》《栀子花开》《十二公民》等电影未映先火。作为观影者,如果没听说过IP电影就out了。

    数据来源和说明

    本案例使用的是中国电影发行放映协会统计的某年度年票房过千万元的电影数据,共

    275个样本,数据包括电影票房、影片类型、发行方等13 个变量。数据说明如表3-3所

    示。

    表3-3数据说明票房收入

    本案例的因变量Y是票房收入,其直方图呈现右偏分布(见图3-5)。票房最高为

    127168.1万元,是影片《人再囧途之泰囧》,导演:徐峥;票房最低为1010.16万元,是影

    片《举起手来(之二)追击阿多丸》,导演:冯小宁。不过,电影票房过2亿元的影片数

    量较少。由于低票房的影片数量较多,从而降低了整体影片票房的平均水平。图3-5 票房收入直方图

    描述性分析

    首先,对月份进行分组描述,重新定义影片上映档期,即贺岁档、暑期档、普通档、黄金档1期(含“五一”)、黄金档2期(含“十一”)。从图3-6中可以清晰看到贺岁档的平

    均票房比其他档期的平均票房要高,而黄金档期的平均票房却很不理想。

    图3-6

    再来考察IP电影。简单来说,IP就是知识产权,可以是一首歌、一部网络小说、一部

    广播剧、一台话剧,或者某个经典的人物形象,哪怕只是一个字、一个短语,把它们改编

    成电影,就可以称作I P电影,比如《栀子花开》《狼图腾》《十二公民》等都是I P电

    影。通过描述性分析(见图3-7),可以看到IP因素将电影的平均票房推向了新的高度,即改编的真人真事、翻拍以及有(是)续集的电影票房都高于虚构的、非翻拍的电影。比

    如样本中的《人再冏途之泰囧》《将爱情进行到底》《叶问2:宗师传奇》《武林外传》等均是IP电影。

    图3-7

    最后看导演因素。导演是一部电影中最核心的元素,实力派导演丰富的拍摄经验会为

    影片增色不少,有一些观众会因为导演的声望而去关注其更多的作品。另外,从演员转型

    的导演比导演会演,比演员会拍,是不是会演电影的导演才是好导演呢?从箱线图(见图

    3-8)的描述结果可以看到,获过奖的导演的电影平均票房更高,比如样本中的冯小刚、张艺谋、周星驰、陈凯歌等均是获过奖的导演;从演员转型的导演所拍电影的平均票房比

    非转型的导演所拍电影的平均票房要高,比如样本中的赵薇、徐峥、冯德伦等均是从演员

    转型的导演。

    图3-8回归分析

    本案例建立了电影票房对影片类型、上映年份、上映档期、宣发公司类型、影片时

    长、是否原创、是否真人真事、是否续集、导演是否获奖、导演是否从演员转型10个变量

    的对数线性回归模型,调整后的R2为45.95%,回归结果如图3-9、图3-10和图3-11所示。

    图3-9

    图3-10图3-11

    总结与讨论对数线性模型的系数估计解读为“增长率”,在控制其他因素不变的情况

    下,对于影片类型这一变量,悬疑影片、魔幻影片的票房比爱情影片票房平均依次高

    101%、87%,爱情类影片与动画类影片票房没有显著差异;影片时长与票房显著相关。

    相比其他档期的电影,贺岁档影片对票房的影响最大;对宣发公司这一变量,小私营企业

    与联合公司宣发的影片票房有显著差异。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“电影”,听静静音频!线性回归——线上女装销量预测

    “双十一”剁手季

    每年“双十一”到来,就是全民“剁手”的时候。卖家热情促销,买家积极囤货。2015

    年“双十一”期间,阿里巴巴集团单日平台交易额达到了912.17亿元,昔日的“光棍节”已经

    彻底变成了购物狂欢节。

    数据来源和说明

    作为商家,最重要的就是如何合理预估库存、吸引买家眼球;作为广大购物者,想了

    解的是什么样的衣服顺应时代大家都爱,什么样的已经被最近的潮流淘汰。基于此目的,以某购物网站某年某月销售量超过100件的5880款连衣裙为研究对象,通过回归分析探究

    影响连衣裙销量的多种因素。销售方能借此捕捉流行趋势、了解买家需求、有效定位市

    场、合理管理库存;而消费者则可以洞悉潮流动态、了解卖家情况并且增加网购经验。

    表3-4数据说明表

    续前表

    描述性分析样本数据的变量分成商品本身属性和所属店铺信息两大类。

    首先,对于商品本身属性做简单的描述性分析。从图3-12可以看出,样本数据中月销

    量在100~150件之间的连衣裙占比最多,约35.4%。整体而言低价商品更受消费者青睐,月销量随着单价上升而下降。在目标人群方面,市场上以25~29岁女性为目标消费人群的

    连衣裙数量最多,定位于青少年以及中老年消费者的现有商品数量较少,但其平均销量反

    而比其他年龄段高,市场潜力较大。

    图3-12 连衣裙销量分布以及价格对销量的影响

    此外,收集到的数据含有大量的文本(见图3-13),比如商品名称、款式风格、店铺

    所在地等。这些信息往往跟销量有很大关系。对这些文本数据进行词云分析,并提取出现

    频率最高的几个关键词:“新款”“显瘦”“中长款”“印花”“韩版”等。图3-13 文本数据的词云图

    运用箱形图对“显瘦”“新款”“中长款”“韩版”四个关键词进行分析(见图3-14)后,还

    可以得出许多具体的结论。例如,整体来说,“韩版”对连衣裙销量有明显正向影响,35~

    39岁年龄段尤为突出,但是对18~24岁年龄段的吸引力却较弱。

    将连衣裙高销售量的近6000家店所在城市进行汇总可知,分布在杭 州、广州、深圳

    等东南部沿海及江浙一带的数量最多;而分布在武汉、东莞、杭州、嘉兴等地的平均月销

    量普遍较高;成立时间与销量无明显相关关系。图3-14 是否韩版对销量的影响

    作为店铺属性之一,店铺评分会对连衣裙销量产生不同程度的影响(见图3-15)。在

    样本数据中,物流、服务、描述评分为4.8的商品数量最多,评分为4.7的其次,但月销量

    最高的连衣裙三项评分均主要集中在4.7。

    回归分析

    为了量化不同因素对连衣裙月销量的效应,用连衣裙月销量对商品价格、部分关键词

    以及商品目标人群年龄进行了回归分析。图3-15 商品评价对销量的影响

    表3-5回归模型结果

    ,,分别表示在0.01,0.05,0.1的显著水平下显著。发现价格对销量的确有负向影响,符合预期,价格平均增长1%,连 衣裙月销量相应

    减少约0.23%(为了减少异常值的影响,这里价格和销量都取了对数,所以其对应系数应

    解释为弹性)。除“印花”外,“新款”“显瘦”“中长款”等关键词对连衣裙销量均有显著正向

    影响,其中“中长款”特质能明显提高月销量约12.4% (这里只有因变量月销量取了对数,所以对应系数解释为增长率)。而年龄对销量的影响并不显著。

    另外,本案例还基于描述性统计分析结果,考虑加入年龄和各关键词的交互项并进行

    第二次回归,探求关键词在不同年龄段的具体作用。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“女装”,听媛子音频!线性回归——股票投资中的均线策略

    背景介绍

    本案例以量化投资为背景,介绍时间序列分析的内容。时间序列分析在很多领域中广

    泛使用,比如经济、金融、气象、生物等。这里,我们看一个时间序列模型在股票投资中

    的运用案例:移动均线(moving average)策略,这是在股票市场中最经常讨论的投资策

    略之一。

    看到均线这个名字,很自然地会联想到经典的时间序列模型———自回归移动平均模

    型(auto‐regression and moving average model,ARMA)。事实上,均线策略所用的模型

    就脱胎于A RMA模型,只是做了一些简单的修改而已。ARMA模型可以看做过去的一系

    列观测值的加权平均,再加上一个随机的冲击。均线策略作为一种典型的技术分析手段,其假设前提是市场并没有那么有效,有一些趋势是可以预测到的。一旦通过某种手段发现

    一只股票出现了持续上涨(或下跌)的苗头,那就赶紧买入(或卖出)这只股票,可以在

    接下来的继续上涨(或下跌)中获益。基于A RMA 模型的思想,如果发现当天的股票价

    格超过了过去一段时间的平均股价(通常称为向上穿越了均线),这就意味着股票可能进

    入了上涨的势头。而如果当天的股价低于过去一段时间的平均股价,这可能暗示着股票开

    始进入下跌通道。这就是均线策略的核心思想。只要定义好每只股票在过去的平均价格水

    平,然后与过去的平均价格对比,判断是否应该买入或者卖出就可以了。

    策略原理

    一旦发现某只股票当期的价格向上(或向下)穿越过去一段时间的平均价格水平,就

    认为该股票发出了进入上涨(或下跌)通道的信号,可以采取相应的交易行为。这种策略

    称为单均线策略。但单均线策略发现的交易信号可能仅仅是由当天的随机波动引起的,即

    单均线策略所使用的信号并不那么可靠。如何才能提高信号的可靠性呢?本案例介绍两种

    最基本的修正方法:双均线策略和自适应均线策略。

    双均线策略

    为了确认价格确实进入上涨通道,一个简单的想法是,既然超越有可能是由随机波动

    引起的,那么把随机波动平均掉不就可以了吗?统计学的基本常识显示,取平均值是最简

    单有效的处理方法。基于这个思想,可以设计随后的双均线策略。

    具体来说,定义一长一短两个期限,如果发现过去较短期限(N期)的平均价格(短

    期均线价格),向上超过了过去较长期限(M期,M>N)的平均价格水平(长期均线价

    格),就比较有把握判断股票价格确实开始进入上涨通道,应该买入。在买入之后,一旦

    发现短期均线向下穿越低于长期均线,就认为股价开始下跌、不再上涨了,这时应该卖出

    股票。每间隔一段时间(H期,也称为建仓间隔期)就比较所有备选股票的短期均线和长

    期均线的价格,然后决定该买入哪些股票,以及已经买入的股票时是否该卖出。

    自适应均线策略在强化交易信号的可靠性时,还可以使用另外一种思路。在对比当天价格与历史价格

    的平均水平时,如果在过去一段时间内价格的波动很大,即股价走势不那么清晰时,需要

    较长时间的历史数据才能更可靠地测度过去的平均价格水平;而如果股价的走势已经很清

    晰,则只需要较短时间的数据就可以测度过去的平均价格水平,也就是说,在测度过去的

    平均价格水平时,不再使用一个固定不变的期限,而是根据市场状况选用或短或长的期

    限,来更灵活地测度。

    具体来说,在每一期对每只股票先计算一个刻画市场走势是否明朗的指标。最常使用

    的一个指标是市场有效性比率(efficiency ratio),即用一段时间的价格净变动(即当期

    的价格减去最早一期的价格),比这一段时间的累积价格变动(即把每期价格变动的绝对

    值加总)。有效性比率越高,说明市场的走势越清晰,应该用越短期限的平均价格;反

    之,应该用更长期限的平均价格。然后对比当期的价格和历史价格的均线,如果当天价格

    向上穿越了均线,就买入股票。对于已经买入的股票,如果发现当期价格向下穿越了均

    线,就卖出该股票。每隔一个建仓间隔期,重复前述步骤。

    与双均线策略强调提高信号的可靠性略有区别,自适应均线更强调策略的灵活性,以

    便更好地适应市场的不同状况,以期达到提升策略表现的目的。

    策略实施与评价

    数据准备与策略实施

    本案例运用2005年1月1日至2016年9月12日全部A股的周度收盘价(前复权)数据,通过R语言编程,对前述两种均线策略展开实证检验。特别说明的是,为了保证价格对比

    的有效性,需要使用考虑了配股和分红的前复权价格。因为一旦分红或配股,价格必然会

    发生很大变化,简 单地对比原始价格,很容易得到错误的交易信号。另外,本案例使用

    的是周度数据,现实中可能更常用的是日度数据。事实上,运用基于技术分析的策略时,通常使用的是相对高频的数据,很少使用月度等低频数据。但无论何种频率的数据,均线

    策略的逻辑不变。

    对于双均线策略,还需要考虑两种均线期限和建仓间隔期限的选择。具体的数据准备

    工作与初始设定如图3-16所示。这里不考虑做空,因为我国做空成本太高。买入多只股票

    时,采用等权重加权的方式。图3-16

    基于前述准备,双均线策略的实施可以通过图3-1 7来刻画。从图3-17可以看出,策略

    实施在本质上就是持续监测交易信号,根据信号决定是否买入或者卖出股票。

    对于自适应均线策略,其交易流程和双均线策略非常类似,不再赘述。

    图3-17

    策略评价在策略实施后,需要对策略的表现进行评价。直觉上讲,策略的收益越高越好,风险

    越低越好。在本案例中选用了三个最经典的指标,具体如图3-18所示。

    图3-18

    图3-18中的前两个指标———收益率和胜率重点在于刻画收益情况,第三个指标盈利

    因子则综合考虑收益和风险。通常来说,好的交易策略其胜率要大于50%,即平均每两次

    交易中至少有一次交易是盈利的,盈利因子要大于1,即盈利要大于亏损。

    全市场结果

    先看一下双均线策略运用于所有股票的全市场分析结果。不同期限和建仓间隔期的结

    果如表3-6所示。

    表3-6不同期限和建仓间隔期的结果

    以第1行为例,它表示如果短期均线的期限为5周,长期均线的期限为15周,建仓间隔

    为5周,则每5周可以获得的平均收益率为19.34%,胜率为63.79%,盈利因子为5.34。考虑

    到样本区间前后1 2年的时间跨度包含至少两轮股市的暴涨暴跌,这样的表现还是不错

    的。仔细对比可以看出,在各种备选方案中,短期均线为5周,长期均线为30周,建仓间

    隔为30周的策略是最优选择,收益率可以提升到35.33%。

    基于双均线策略的结果,在进行自适应均线策略的测试时,将长期均线的期限设为30

    周,建仓间隔设为30周。自适应均线策略的表现如图3-19所示。图3-19的上半部分显示了逐次建仓的累计收益,可以看出自适应均线策略在早期表现

    相对更好,而在后期表现要差一些。全样本区间的表现如图3-19的下半部分所示,累积收

    益率为21.89%,胜率为55.56%,而盈利因子为10.77。相对于最优的双均线策略来讲,自

    适应均线策略的收益率和胜率更低,但盈利因子更高,也即自适应均线策略的风险更低。

    分市场结果

    将均线策略不加区分地运用于全部股票的结果看起来还可以,但能否进一步改进策

    略、提升策略表现呢?最简单的想法是,应该不是所有的股 票都会在均线策略上表现良

    好,可能具有某些特质的股票会在均线策略上有更优异的表现。基于该想法,接下来根据

    股票的四个重要特征将股票分成几组,分别检验均线策略在不同特征股票上的表现。具体

    来讲,使用图3-20中的改进方法。

    图3-19 逐次建仓累计收益水平图

    图3-20

    特别注意的是,考虑到实际交易中的数据可得性,当期对市场划分时 所使用的数据

    均为上一期的数据。由于市场中有些数据的缺失,导致一些指标无法计算,分样本分析时

    会删除一些股票,导致分市场的结果与全市场的结果会有一定的差距。

    首先看股票的规模(总市值)分组之后的结果(见表3-7)。可以看出,规模小的股

    票其收益率最高,平均累积收益率可以达到77.62%;表现次之的是规模大的股票,平均

    累计收益率为66.94%;表现最差的是中等规模的股票,平均累积收益率仅为37.06%。从

    盈利因子和胜率来看,也是小规模股票和大规模股票的表现要好于中等规模的股票。

    表3-7根据股票规模分组之后的统计结果

    然后看账面市值比,即股票的账面价值比市场价值分组的结果(见表3-8)。从表3-8

    可以看出,分组之后的表现比全市场有所提升。而且,不同于根据股票规模分组的结果,中等账面市值比的股票在均线策略上表现最好,平均累积收益率达到95.62%。账面市值

    比事实上度量的是公司的成长性,这表明均线策略在成长性很好和成长性很不好的股票上

    表现一般,但在有一定成长性的股票上表现最好。

    表3-8回归模型结果再来看根据股票的流动性分组之后的结果(见表3-9)。可以看出,均线策略表现最

    好的股票是低流动性的股票,接着是高流动性的股票,最 后是中等流动性的股票。但对

    比根据规模和账面市值比分组的结果来看,根据流动性分组对策略效果的提升并没有那么

    大,也就是说,对于均线策略来讲,流动性似乎不是那么重要的特征。

    表3-9根据股票的流动性分组之后的统计结果

    最后来看根据股票的波动率分组的结果(见表3-10)。可以看出,根据波动率分组确

    实有助于提升策略的表现。具体来说,随着波动率的上升,均线策略的表现在下降。在波

    动率最低的那一组,均线策略可以获得平均累积收益率6.33%,而波动率最高的那一组,其平均累积收益率仅为18.20%。两组之间的差距非常大。这个结果非常符合对均线策略

    的认知。因为均线策略就是要发现显著异于历史趋势的交易信号,而对高波动率的股票来

    讲,其高波动率的特征很容易导致出现虚假的交易信号,这也就不难理解高波动率的股票

    表现不佳了。

    表3-10根据股票的波动率分组之后的统计结果

    总结与讨论

    本案例将最经典的技术分析方法之一———均线策略,运用于中国股票市场。通过本

    案例可以发现,以时间序列模型为基础的均线策略在中国市场有不错的表现,这证明时间

    序列分析的有用性。通过分市场检验还发 现,对股票进行区分有助于提升均线策略的表现,表明均线策略的盈利性可能依赖于股票的某些特征。

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“均线”,听康爸音频!0-1回归——某移动通信公司客户流失预警分析

    手机客户流失

    手机作为人们日常通信的必备工具,正在发挥着越来越多的作用。通信行业经过了20

    年的发展,现在基本呈现三足鼎立的局势。2011—2016年,中国移动、中国联通和中国电

    信的移动客户数增长十分缓慢,市场已经呈现出饱和状态。如何保有现有的用户、避免流

    失已经成为运营商最关心的问题。

    数据来源和说明

    本案例的数据来自某城市的移动运营商,其VIP客户,每个月有2%左右的流失率。这

    意味着每年24%的高价值客户正在流失。能否提前对他们予以识别、干预,并最终挽留,是本案例关心的问题。

    传统的客户挽留方法是通过数据分析,发现某位用户本月的活跃程度(例如消费金

    额、通话时间、通话个数)跟历史相比有巨大变化,那么客服经理就会打电话进行挽留。

    这一方法有以下缺点:第一,难以界定多大的“变化”算是“巨大”,缺乏科学的依据;第

    二,挽留滞后;第三,所考虑的指标体系有限,主要依赖于用户的消费习惯,辅以人口统

    计学指标。结果就是,传统的方法不仅成本高、准确度低,而且经常打扰正常客户。因此

    希望开发一个系统的客户流失预警模型,帮助企业提前识别高风险流失客户。

    为此,利用月度的基础通信数据和通话详单数据,希望在传统的指标 变量上构建一

    些和网络相关的变量。

    构建的第一变量是通话人数。如果一个人的联系人数众多,那么他换号的成本就会很

    高,因此通话人数可以看成客户在这个网络中的社交资本,并且推断拥有的社交资本越

    高,流失的概率越低。将这个衍生变量定义为个体的度。

    在个体的度的基础上,又定义了两个衍生变量:联系强度和个体信息熵。联系强度是

    指和该用户通过电话的所有人的平均通话分钟数;个体信息熵是指和该用户通话的所有人

    中平均每人通话分钟数的分布情况。由于需要建立一个预警模型,所以建模时所有的自变

    量来自当月,因变量(是否流失)来自下一个月,具体的变量如表3-11所示。

    表3-11变量说明表说明:由于本案例关注的是预警模型,所以在后续的建模中关注的是当月的一些自变量是

    否会对下月的流失产生影响,这样模型可以做到提前预警。

    描述性分析

    在进行回归分析之前,首先对各个自变量进行描述性分析。选取其中一个月份的数据

    进行分析,描述性分析结果如表3-12所示。

    表3-12自变量描述性分析结果

    说明:出于对合作企业数据隐私的保护,无法提供最原始的数据,因此本案例仅提供了两

    个月的自变量数据,并且添加了随机扰动项,形成了本案例的示例数据。所以从描述性分

    析开始,以下分析的结果仅供参考。虽然数据是加了随机扰动项的结果,但变化的趋势几

    乎是一致的。

    从上述描述性分析中可以看到,有些变量存在异常值的现象,例如度的变化中位数是0,而最大值有7.3。对于异常值的确定并没有一个非常通用的客观评价标准,在本案例中

    我们用均值加减3倍标准差作为判断异常值的标准。异常值的存在会极大地影响模型估计

    结果,所以在建模前对异常值的处理是十分必要的,所以本案例经过异常值处理后,用于

    建模分析的样本量为44517。

    接下来选择个体的度、联系强度和个体信息熵这三个自变量进行分组箱线图分析。其

    中1代表流失组,0代表非流失组,具体结果如图3-21所示。

    图3-21

    从图3-21可以看出,对于个体的度这一指标,平均来说流失客户的个体的度要小于非

    流失客户,说明要流失的客户已经基本没有通话行为 了。联系的强度在流失与非流失人

    群中的差异并不大,但也能看到流失组的平均联系强度要低于非流失组。最后是个体信息

    熵,流失组的个体信息熵平均要低于非流失组。个体信息熵越小,说明通话分布越集中,那么意味着客户流失的成本越低,所以流失的概率就越大。接下来将对数据进行回归分

    析,找出对客户流失产生显著影响的因素。

    回归分析

    采取逻辑回归来进行建模,模型结果如表3-13。从模型的结果可以看出:(1)在控

    制其他变量不变的情况下,在网时长越长,流失概率越低;(2)当月花费越高,流失概

    率越低;(3)个体的度越大,说明通话人数越多,此时流失概率越低; (4)联系强度

    越大,说明平均通话人数越多,此时流失概率越低;(5)个体信息熵越大,说明通话分

    布越均匀,此时流失概率越低;(6)个体的度的变化变大,说明通话人数有所增加,流

    失概率变低;(7)花费的变化变大,说明花费有所增加,流失概率变低。

    表3-13回归模型结果为了计算模型的预测精度,给出了覆盖率—捕获率曲线。覆盖率—捕获率曲线的定义

    如下:根据模型给出每个样本的预测流失概率值,按照预测值从高到低对样本进行排序,例如只覆盖前10%的样本,计算对应的真实流失的样本数占所有流失样本数的比例,记为

    捕获率,以此类推。覆盖不同比例的样本,就可以计算不同的覆盖率对应的捕获率,从而

    得到覆盖率—捕获率曲线。

    根据模型得到的覆盖率—捕获率曲线如图3-22所示。其中横轴为覆盖率,纵轴为捕获

    率。可以看出,本模型的精度可以用20%左右的覆盖率获得60%左右的捕获率,这是一个

    相对比较高的精度。建立流失预警模型可以帮助企业更好地进行客户关系管理,对高风险

    客户做好客户关怀,尽最大努力挽留,加强企业抗客户流失风险的能力。企业还可以设立

    一套基于该模型的流失预警体系,根据成本预算来选择不同的覆盖率,对客户进行实时的

    打分预测。一旦预测的流失概率超过了设定的阈值,预警体系就可以发出警告,告诉企业

    需要重点关注该客户。

    图3-22 覆盖率—捕获率曲线

    温馨提醒: 进入狗熊会公众号(CluBear)输入文字:“客户流失”,听静静音频!0-1回归——车险数据分析与商业价值

    背景介绍

    随着道路交通行业的持续发展,我国民用汽车保有量呈现逐年快速增 长的趋势。截

    至2015年年底,我国民用汽车保有量达到16284万辆,比2014年年底增长了11.6%。

    [1]

    汽车行业的繁荣为车险市场提供了蓬勃发展的平台,为车险产品带来了广阔的发展空

    间。车险产品主要通过汽车因素、驾驶人因素和环境因素三个方面衡量被保险人的风险水

    平,从而确定保费。此外,司机的驾驶行为也是衡量风险的重要因素,对车险保费定价有

    指导作用。

    数据来源和说明

    表3-14数据说明表本案例使用了某保险公司提供的车险数据,共4233条记录。数据共包含11个变量(见

    表3-14),其中,因变量为某年度的车险理赔金额,当理赔金额为0时,代表当年没有出

    险;当理赔金额大于0时,代表实际的出险金额。由此,将因变量处理成01变量,即某年

    度是否出险,通过后续建模挖掘影响出险行为发生与否的重要因素。自变量即为相关影响

    因素,分为汽车因素和驾驶人因素两类。图3-23 驾驶人因素统计图

    描述性分析

    驾驶人因素包含4个变量:驾驶人年龄、驾驶人驾龄、驾驶人性别和驾驶人婚姻状

    况。通过简单的描述性分析(见图3-23),可以看出出险和未出险驾驶人年龄的平均水平

    (中位数)和波动水平的差异并不明显;出险驾驶人驾龄的平均水平(中位数)要明显低

    于未出险驾驶人,说明新手司机更有可能出险;女性驾驶人的出险率更高,但样本量远小

    于男性驾驶人;未婚驾驶人出险率略高,但样本量远小于已婚驾驶人。由此得出初步的结

    论:驾驶人的性别和婚姻状况可能对出险行为有影响。然而,这种影响也可能是由于数据

    本身的样本量差异形成的。

    汽车因素包括6个变量:汽车车龄、发动机引擎大小、是否进口车、所有者性质、是

    否有固定车位和是否有防盗装置。首先将车龄变量和引擎大小变量进行离散化处理,即将

    车龄为1年的看作新车,车龄大于1年的看作旧车;将引擎小于等于1.6升的看作普通级,引擎大于1.6升的看作中高级。由图3-24可以看出,新车出险率更高,普通级车出险率更

    高。因此可以初步判定汽车车龄和车辆级别会影响出险行为。图3-24 车龄和车辆级别柱状图

    由图3-25则可以看出,有防盗装置、有固定车位、进口车以及私人车的出险率略高。

    值得注意的是,样本量在有无防盗装置、有无固定车位、是否进口车和所有者性质的不同

    水平之间,分配并不均匀。因此,这种差异是否显著,需要借助后续建模结果进行判断。

    通过对数据的描述性分析,本案例认为汽车本身的属性特征、驾驶人的特征都可能会

    影响出险行为的发生与否。为了深入挖掘影响出险的显著 因素,本案例将建立出险因素

    的0-1回归模型。考虑到模型涉及诸多 ......

您现在查看是摘要介绍页, 详见PDF附件(15982KB,262页)