当前位置: 100md首页 > 医学版 > 医学资料 > 资料下载2021
编号:3960
决战大数据:大数据的关键思考升级版.pdf
http://www.100md.com 2020年3月23日
第1页
第6页
第13页
第30页
第48页
第119页

    参见附件(2190KB,251页)。

     决战大数据:大数据的关键思考,这本书是作者根据自身多年的实战经验写出来的大数据书籍,书中对数据产品规律进行了深入阐述,且构思也非常的流畅,让每个读者能够轻易读懂。

    决战大数据介绍

    在数据无限的时代,我们如何利用大数据实现商业大洗牌?传统行业又该如何通过挖掘隐藏在大数据背后的信息,冲出层层危机,实现行业质和量的飞跃?企业如何才能实现数据化运营,在大数据时代站稳脚跟?大数据实践的先行者、阿里巴巴集团前副总裁车品觉倾力新增8万字纯干货,倾情解读企业在大数据时代顽强生存的答案!只有稳抓趋势中的观战重点,才能在海量数据中挖掘商机!

    随着智能手机的大范围普及、物联网浪潮以及人工智能技术的爆发式发展,大数据在收集消费者*渠道行为、触发商业机遇等方面发挥了越来越重要的作用。而《决战大数据》一书恰恰洞悉了大数据时代商业发展的本质。同时,车品觉根据其在阿里巴巴的多年经验,通过丰富的案例和通俗易懂的语言,从“养数据”到“用数据”,深入浅出地向我们揭开了阿里巴巴数据化运营和运营数据的神秘面纱。通过《决战大数据》一书,车品觉告诉我们,在数据无限的时代,拥有数据化思维,才能改变商业的未来。

    决战大数据作者

    车品觉,畅销书《决战大数据》作者,红杉资本中国基金专家合伙人,全国信标委大数据标准工作组副组长。阿里巴巴集团前副总裁,首任阿里数据委员会会长;拥有十几年丰富的数据实战经验,并在实践中形成了独特的数据化思考及管理方式,对大数据未来趋势有独到的见解。亲自领导阿里数据团队在大数据实践领域取得了一系列重要成果,包括为阿里建立集团各事业群的业务及决策分析框架,开发智能化的数据产品,成立了驱动集团数据化的运营团队,成功发起了公共与专有数据资产管理体系,还发布了数据安全规范等。现担任中国信息协会大数据分会副会长、中国计算机学会大数据专家委员会副主任、粤港信息化专家委员、中国计算数学学会第九届理事、清华大学教育指导委员(大数据项目)、浙江大学管理学院兼职教授等职。

    主目录

    1、从数据化运营到运营数

    2、阿里巴巴的大数据秘密

    3、没有数据,就没有未来

    此书名人点评

    1、品觉的《决战大数据》一书浅显易懂地解释了“大数据”这个今天科技界的热门词。从用数据到养数据,大数据应用的实战故事娓娓道来,是和数据打“交道”的各行各业人士值得一读的好书。

    2、在中国,可能没有其他人比品觉玩的数据多,更没有人像他一样玩转了大数据。在这本书里,品觉以他特有的通俗易懂的语言风格,讲活了大数据,并结合阿里巴巴的实践,揭示了数据化运营和运营大数据的实战秘笈,非常赞!

    3、作为一个企业经营者,说起大数据,怕只见数据不见价值;作为一个互联网产品老兵,焦虑于数据挖掘和分析脱离用户场景。本书好就好在实践了作者书中提出的观点,立足应用场景,聚焦如何让数据产生实际价值。因其实战性和创新的角度,值得所有关心大数据实战者认真一读。

    决战大数据:大数据的关键思考截图

    重磅赞誉

    前 言

    我在阿里的 6年

    引 言

    忘掉大数据

    第一部分 从数据化运营到运营数据

    01 大数据,为什么很多人只会谈、不会做

    大数据从来不是免费的午餐

    人的断层

    模型数据从何而来

    更主动的管理,更多的创新

    02 大数据的本质就是还原用户的真实需求

    识别,让似是而非的行为数据串联起来

    价值,企业价值 VS.客户价值

    场景,你知道当时所有的场景吗还原是一个瞄准器

    03 “活”的数据才是大数据

    “活”做数据收集,抓住相关性

    “活”看数据指标,动态地使用数据

    04 全域大数据,大数据的颠覆者

    数据,决策的瞄准镜

    开启“上帝视角”,做到知觉合一

    05 数据分类与数据价值,什么才是你的核心数据

    数据分类为什么如此重要

    数据分类的 4大维度

    数据的 5大价值

    06 从用数据到养数据

    数据应用因小而美

    把数据放进“框”中

    如何用框架来做决策

    养数据,重要的数据战略

    07 数据的盲点,负面数据的力量

    数据盲点小偷思维

    数据盲点的价值

    第二部分 阿里巴巴的大数据秘密

    08 阿里巴巴的大数据实践

    假定数据是稳定的

    假定数据是可获取的

    09 混、通、晒,阿里巴巴数据化运营的内三板斧

    混,“混”出数据

    通,打“通”“混”的数据

    晒,“晒”出“混”和“通”的数据

    10 存、管、用,阿里巴巴运营数据的外三板斧

    存,数据收集的开始

    管,保护好存储数据

    用,从收集数据到管理数据

    11 大数据,未来商业的利器

    假定数据是脏的

    学会慢慢淡化数据

    数据的标签化管理重要的是数据和数据之间的关系,而不是数据本身

    数据的实时化与实时性分层

    未来是人机的结合体

    第三部分 没有数据,就没有未来

    12 大数据驱动行业大变革

    大数据带给零售业大想象

    金融创新迎合新世代

    医疗业酝酿大数据突破

    物联网,构建智慧城市

    娱乐大数据,定制你的需求

    人心难测,时尚业的机遇

    未来,人人都是数据分析师

    13 未来的趋势,蕴于数据之中

    物联网,让寻找客户靠数据不靠运气

    虚拟现实,以精算模型预估人类行为

    以大数据应对“不测风云”

    情绪计算:相形不如论心

    开扩思维,负面信息也是决策关键14 数据产生的未来洞察力,才是核心竞争力

    大数据变革在数据本身

    任何一个完整的高效服务都离不开 3T

    用数据治理数据

    Datafication,大数据风暴中的指南针与救生衣

    15 2016 大数据趋势

    变是唯一的不变

    跳脱惰性的乘法思维

    稳抓趋势中的观战重点

    结语 开启属于你的个人大数据管理

    数据的积累,从收集到还原

    做好个人大数据管理

    个人大数据管理的挑战

    人人都能成为数据分析师

    后记 像李小龙的格斗一样去思考

    忘掉必杀技

    在迂回中寻找落地点

    衡量每一个变化持续的反馈

    寻找爆发点

    品觉的话 人在修行的路上,不要单打独斗

    本书纸版由浙江人民出版社于 2016年 4 月出版

    作者授权湛庐文化(Cheers Publishing)作中国大陆(地区)电子版发行(限简体中文)

    版权所有·侵权必究

    书名:决战大数据(升级版):大数据的关键思考

    著者:车品觉 著

    字数:198000

    电子书定价:34.99 美元

    关注微信公众号:取金之道

    免费领取电子书

    股票金融,创业,网络,文学,哲学系列等都可以在公众号上寻找。

    公众号“书单”书籍都可以。

    公众号每天推荐书籍!

    我收集了5万本以上的电子书,喜欢看书的人,关注它就对了。目录

    重磅赞誉

    前 言

    我在阿里的6年

    引 言

    忘掉大数据

    第一部分 从数据化运营到运营数据

    01 大数据,为什么很多人只会谈、不会做

    大数据从来不是免费的午餐

    人的断层

    模型数据从何而来

    更主动的管理,更多的创新

    02 大数据的本质就是还原用户的真实需求

    识别,让似是而非的行为数据串联起来

    价值,企业价值 VS.客户价值

    场景,你知道当时所有的场景吗还原是一个瞄准器

    03 “活”的数据才是大数据

    “活”做数据收集,抓住相关性

    “活”看数据指标,动态地使用数据

    04 全域大数据,大数据的颠覆者

    数据,决策的瞄准镜

    开启“上帝视角”,做到知觉合一

    05 数据分类与数据价值,什么才是你的核心数据

    数据分类为什么如此重要

    数据分类的4大维度

    数据的 5大价值

    06 从用数据到养数据

    数据应用因小而美

    把数据放进“框”中

    如何用框架来做决策

    养数据,重要的数据战略

    07 数据的盲点,负面数据的力量

    数据盲点小偷思维

    数据盲点的价值

    第二部分 阿里巴巴的大数据秘密

    08 阿里巴巴的大数据实践

    假定数据是稳定的

    假定数据是可获取的

    09 混、通、晒,阿里巴巴数据化运营的内三板斧

    混,“混”出数据

    通,打“通”“混”的数据

    晒,“晒”出“混”和“通”的数据

    10 存、管、用,阿里巴巴运营数据的外三板斧

    存,数据收集的开始

    管,保护好存储数据

    用,从收集数据到管理数据

    11 大数据,未来商业的利器

    假定数据是脏的

    学会慢慢淡化数据

    数据的标签化管理重要的是数据和数据之间的关系,而不是数据本身

    数据的实时化与实时性分层

    未来是人机的结合体

    第三部分 没有数据,就没有未来

    12 大数据驱动行业大变革

    大数据带给零售业大想象

    金融创新迎合新世代

    医疗业酝酿大数据突破

    物联网,构建智慧城市

    娱乐大数据,定制你的需求

    人心难测,时尚业的机遇

    未来,人人都是数据分析师

    13 未来的趋势,蕴于数据之中

    物联网,让寻找客户靠数据不靠运气

    虚拟现实,以精算模型预估人类行为

    以大数据应对“不测风云”

    情绪计算:相形不如论心

    开扩思维,负面信息也是决策关键14 数据产生的未来洞察力,才是核心竞争力

    大数据变革在数据本身

    任何一个完整的高效服务都离不开 3T

    用数据治理数据

    Datafication,大数据风暴中的指南针与救生衣

    15 2016 大数据趋势

    变是唯一的不变

    跳脱惰性的乘法思维

    稳抓趋势中的观战重点

    结语 开启属于你的个人大数据管理

    数据的积累,从收集到还原

    做好个人大数据管理

    个人大数据管理的挑战

    人人都能成为数据分析师

    后记 像李小龙的格斗一样去思考

    忘掉必杀技

    在迂回中寻找落地点

    衡量每一个变化持续的反馈

    寻找爆发点

    品觉的话 人在修行的路上,不要单打独斗重磅赞誉

    在我眼中,品觉一直是我非常尊敬的国内数据领域的大师级人物,这是他的第一本著作,也是汇聚了他十几年数据行业

    经验,呕心沥血的精髓之作。他一直强调数据是尊重人性的,只有有商业实效性的数据才是有质量的数据;一直强调不

    能只是纯粹地看数据,要用数据还原真实的现实与场景。这些见解不仅对每个企业的未来发展具有极大的指导意义,而

    且对每个普通人建立数据化思维和进行个人数据管理都有很好的启发作用。这本书贵在坦诚和实用,每个人都能从书中

    收获颇多。

    沈 亚

    唯品会创始人,董事长兼 CEO

    我跟品觉相识多年。在大数据还没有流行以前,他就开始关注这个趋势,研究数据应用的意义以及怎样真正读懂数据和

    利用数据。这本书深入浅出,把深奥的大数据讲得生动有趣,非常好读;书里面集中了品觉个人的很多真知灼见,非常

    值得一读。阅读此书是一种享受,正如我享受与品觉的友谊一样。

    林奕彰

    eBay大中华区 CEO

    在中国,可能没有人比品觉玩的数据多,更没有人像他一样玩转了大数据。在这本书里,品觉以他特有的通俗易懂的语

    言风格,讲活了大数据,并结合他在阿里巴巴的实践,揭示了数据化运营和运营大数据的实战秘笈,非常赞!

    刘 星

    红杉中国合伙人作为一个企业经营者,说起大数据,最怕只见数据不见价值;作为一个互联网产品老兵,最焦虑于数据挖掘和分析脱离

    用户场景。本书好就好在实践了作者书中提出的观点,立足应用场景,聚焦如何让数据产生实际价值。因其实战性和创

    新的角度,值得所有关心大数据实战者认真一读。

    张 涛

    大众点评网创始人

    大数据像铺天盖地的洪水一样涌来!由于近年来数字媒体、网络和移动技术的迅猛发展,数据的积累速度已对数据的存

    储、管理、分析和决策应用提出了前所未有的挑战。很多企业、政府机构、学校和研究机构为了能在大数据时代继续生

    存和发展,都在重新定位和寻找新的方向。让我们高兴的是,作为一个先行者,品觉在阿里巴巴已经走出了一条大数据

    运营的路,并又在运营大数据方面总结了很多成功经验。他的《决战大数据》一书尤其为读者提供了“数据化思考”的模

    式和框架。通过讲故事、作比喻,品觉打破了大数据的神秘,然而又能使读者产生丰富的联想,开动脑筋,真正理解大

    数据成功运用的要诀。感谢品觉为“大数据金矿”的探索开发作出的贡献。

    程 杰

    Acxiom(安客诚)前全球副总裁,数据科学家

    “大数据”和绝大多数“新概念”一样,已经成为许多闭门造车者宣扬的主题,而品觉——一个被我视为数据科学家的朋友,将他在 eBay 和阿里巴巴近十几年的实战经验进行梳理和总结,使“大数据”不再是一个人云亦云的概念,而是一个可以

    用心领会和使用的科学方法。

    吴 海

    桔子水晶酒店集团创始人

    品觉的书主要讲的是决战!那么咱们就从兵法的角度来看大数据!只讲三点:第一,对“道”的理解:即分析师对人和事

    物基本规律的诠释。分析问题千万不要从分析大数据开始,而是要从对人、世界、产品或者商业行为最基本的认知着手!

    第二,对“计”的理解:计就是计谋!交战之前用“商业智能”的一个重要作用就是要造成信息情报不对等,然后进一步造

    成了战略优势的不对称,从而造就取得优胜的“势态”。第三,对“胜”的理解:决战的目的是要胜利,兵法上取胜的一些

    基本的要领比如以快打慢、以少胜多、以众击寡,在大数据分析上完全适用,要做到分析得快速而精准、大规模部署以及产品化等。这次为品觉的新书做推荐,既感到非常感激和荣幸,又感到诚惶诚恐。我的水平非常有限,完全是抛砖引

    玉,希望读者们细细品味《决战大数据》!

    张溪梦

    GrowingIO联合创始人兼 CEO

    未来几年将是大数据技术及其应用发展的黄金时期,本书是车品觉老师根据自身在蚂蚁金服以及阿里集团的多年数据实

    践,并结合理论对数据产品规律进行了深入阐述。本书构思流畅,由术入道,深入浅出,既适合初学者以及业务人员了

    解大数据的相关知识,也适合专家级别的读者细细品味,无疑是大数据领域的必读书籍。

    崔晓波

    TalkingData创始人兼 CEO

    大数据领域一直以来都是理论和实作两大山头并立:如果说谈理论是文、卷起袖子实作是武,那品觉兄肯定是这个大数

    据时代文武兼备的一代宗师,因为他不但在实务界有着丰富的操盘经验与彪炳战功,又能透析数据核心、自创理论心法。

    最难得可贵的是,他一直以来都禀持着利他无我的气度,对提携数据后进始终不遗余力。听品觉谈大数据,除了“激动”

    与“热血沸腾”之外,我再想不到更确切的形容词了!

    陈杰豪

    MIGO集团 CEO

    老车是“手艺人”,数据时代解读数据世界奥秘的手艺人;对我来说,亦师亦友、亦火亦水。我们曾若干次品茗促膝、围

    炉夜话,人生的起起伏伏、数据的理解与应用、佛法修行,每个话题都始于数据终于数据,获益匪浅。难能可贵的是,我们对数据的理解与应用,观点出奇的一致,相互平添好感。老车是数据的修行者,我十分期待这位无疆行者的感悟与

    升华之作。一杯清茶、一本好书、一位知己好友,人生幸事。

    徐 雷

    京东集团高级副总裁前 言

    我在阿里的6 年

    回顾我在阿里的 6 年,从经历来说,是先负责支付宝,继而负责淘宝,最终负责整

    个阿里集团的数据工作。实际上,这个过程同样也是我对数据应用的一个历程:第一阶

    段用数据,第二阶段养数据,第三阶段从看数据到用数据。

    我在支付宝

    加入支付宝之前,业内都认可我是一个比较懂得用数据去设计、优化、迭代产品的首

    席产品官。彼时我在支付宝,大胆地把产品与数据分析部门结合,积累了不少经验。

    ● 数据产品化,这个理念随我加入支付宝

    说起加入支付宝,其实有些偶然。当时,支付宝邀请我去分享如何用数据做产品。分

    享会之后,我去了华星大厦的一个会议室,里面坐着 Lucy(彭蕾,时任支付宝 CEO)、Eric(井贤栋,时任蚂蚁金融 COO)。在那个会议室里,他们问了我几个如何能用好数据

    的问题。当时,我反问了 Lucy一个问题:“你每天大概会看多少数据?”

    “大概几十个吧。”

    “不对,你不应该一天看几十个数据那么多,我觉得你应该只看几个数据就够了。”

    或许,他们已经不记得我提出的这个问题了,但是我却记得非常清楚。因为在支付宝

    的两年里,这是我做数据产品时一直遵循的原则。

    正式加入支付宝后,我面对的第一件事情就是着手组建数据分析师团队。2010 年的

    支付宝,公司大部分业务团队对数据团队都不太满意,而且高层对数据能产生的价值也没

    有太多认识。而数据负责人的调职,也导致了支付宝的数据分析和数据技术部门被分开管

    理。面对数据分析和数据技术团队的目标不一致,加上业务部门对为什么要使用数据及如

    何用好数据充满疑问,甚至有人认为数据分析仅仅是门面功夫,所以技术团队有时候会跟

    我的团队“对着干”,因为两个团队的老板不是同一个人,他们也没有义务一定要支持我,所以甚至有时候会撇开我们直接跟业务部门对接。

    但是最后,我坚持的数据分析产品化路线最终得到了双方的认同,技术团队甚至还主

    动过来问我:“我们怎么合作比较好?”所以那时,双方的关系从“对着干”变成了“我们会全

    力支持你”。

    终于有一天,Lucy 走进我办公室跟我说:“你知道吗?你们做的产品让我觉得很爽,我很喜欢这个产品。”而当我在支付宝的第二个产品“地动仪”出来时,她对我说:“这就是

    我梦寐以求的数据产品。”

    同事和老板对结果的支持,让我肯定自己在支付宝走的这条路是对的。如果让我总结

    这其中的精髓,我的秘诀就是:数据分析也要讲求用户体验。

    简单来说就是,别说是数据产品,哪怕一个小小的数据报告,我们都必须要知道以下

    5个问题:

    ● 这是什么问题?

    ● 这是谁的问题?

    ● 这个问题现在必须马上解决吗?

    ● 这个问题我们能解决吗?

    ● 我们有足够的数据来解决吗?

    当我“苛刻”地提出“把月度经营报告当成产品来做,目的是让这份报告像 iPhone 一样

    好用”的要求时,整个团队都傻了:报告怎么能像产品一样呢?!那么,为什么数据报告

    不可以做到行云流水,让人看起来很爽呢?所以,我是这么要求的:首先,报告的前 3 页一定要吸引人,让人有欲望继续看下

    去;其次,当别人看到一个数据,心里在猜测数据背后的各种原因时,我的下一页报告

    就要解答他心中的疑问。

    因此,如果要用产品管理的理念来运行分析团队的话,必须要问“问题是什么”,并以

    此作为切入点。接着,解决用户的问题,得到用户的信任,然后就可以做更多的好产品。

    这是一套做产品的理念,因为产品需要不断迭代,并非一劳永逸。

    那么,我怎么评估报告是否获得成功呢?简单来说,如果一个月度经营报告仅仅 5

    分钟就被pass掉了,那它肯定是不成功的。

    我在支付宝,几乎每一个月度报告都会让管理层讨论三四个小时,一份数据报告居然

    会成为管理层讨论焦点,每次都会有很多高层管理者关注我讲什么,这时我就知道自己肯

    定成功了。

    当然,我也同时会提醒分析师们,千万别以为靠一份报告就可以解决所有事情,你一

    定要让业务部门认为这份业务报告是大家一起探索的,这是我管理团队的一个基本理念。

    ● 用产品化理念管理数据团队,这是推进的秘诀

    总的来说,数据产品化的理念最终得到了 Lucy 及其他高层管理者,以及团队和同事

    们的认可。那么针对这个理念,我是如何在团队内一步步推动的呢?

    首先,我让团队做好基础服务——“白米饭”。为什么叫白米饭?因为对人来说,如果

    “饭”不够就会出大问题。对于公司来说,如果数据基础服务满足不了我们的用户,那么他

    们就会跳起来,那时候再高大上的报告也没用。所以,我要求分析团队一定要跟业务部门

    达成一致,知道什么东西如果我们不提供给他们,结果会很严重。

    但是,长期做“白米饭”的分析部门是没有前途的。所以其次,我抽出团队一部分人成

    立了“突击队”。每当我听到管理层对数据的需求时,就会把信息带到团队,让团队成立两三支“突击队”,让管理层用到有用的、合适的以及具有带探索性的内容。把自己最精锐的

    部队放在“突击队”里,这个决定非常重要。

    但是值得注意的事,“突击队”有一个前提,必须要有人能接触到最高管理层的信息通

    道,否则无法得到高层的信息。而这个角色就是我,我接触最高管理团队,并且把信息输

    送给“突击队”。

    基于“白米饭”和“突击队”,最后一步,我们开始沉淀数据分析的框架。为什么数据分

    析框架如此重要?因为它是数据产品的养分。我用建立数据产品为目标的理念来运营一

    个数据团队,所以数据分析框架才是给到数据产品养分的关键点。

    在支付宝时,基于 Lucy 和 Eric 给我的支持,数据产品都是自上而下推行。我先做了

    “观星台”,这是一个高管的数据仪表盘工具;然后做了“地动仪”,一个给中层管理看的数

    据产品,接着还有客服 360 等。

    所有这些数据产品,都是从数据分析框中提炼出来的。把分析的理念和框架变成数

    据产品,本质上是一个数据泛化的过程。这个过程非常重要,因为数据报告的需求会越

    来越多,如果没有泛化数据给使用数据的人,分析团队将永远被冗杂和重复的工作所困。

    在这期间,我们也做过一个改变。因为“观星台”和“地动仪”还是传统的分析工具,只

    不过让你有更好的“眼睛”看到更好的数据,用我一直强调的理念来讲,这属于描述性的报

    告,用于描述一个公司今天做的怎么样。但由于我们有了分析框架,可能稍微会带一点诊

    断性。所以,这种产品主要是描述性产品,偶尔会做一些诊断,但还未达到探索预测的状

    态。

    在这个看法的基础上我有了个新想法,想法的灵感源于 Facebook。当时 Facebook 已

    经积极地开展探索性的数据产品,可视化及交互功能已经非常灵活。探索和静态报告的区

    别在于,用户可以选择自己的角度灵活地去看数据,真正做到“逛”数据。因此,我们创造了一个产品叫“黄金策”。“黄金策”可以让用户很轻松地在 3 秒钟之内

    就看到不同标签下用户购物行为的异同。比如,30~35 岁的上海女性,有一张信用卡和

    多张信用卡的两种不同群体,看她们的购买行为有什么不一样。或者,看广东和上海的女

    性在购物表现上有什么不一样。用户可以非常轻松地比较不同用户群的购物表现。所以,我认为好的数据产品应该是可以激发用户灵感的。

    在做“黄金策”这个产品的过程中,我深有感触的是:数据行业的人会很容易让技术制

    约产品的发展。当时我提出做“黄金策”时,大部分技术工程师都断言,3 秒钟出结果是不

    可能的。因为以前类似的灵活配置的报告,一般都不能做到即时查询,如果要快速产出的

    话只能找分析师。即便如此,也可能因为资源排期等原因等待很久。

    当时只有一个人站出来说“我可以帮你搞定 3 秒钟”,这个人就是蒋杰(现任腾讯数据

    中心总经理)。于是很自然地,我就跟蒋杰一起合作了这个项目,并且成了好朋友。后来,蒋杰很出色地帮我完成了这个项目。所以,我觉得做技术的人不应该让当前的技术和思维

    限制未来的新产品。

    就用户体验来说,用户之所以不用我们的产品,其中一个很重要的原因是,没有人

    愿意耗时太久等一个报告,因为当报告出来之后,他的问题可能早已经解决了。试想,我们拍下脑袋决定只需两分钟,但等一个报告要两个星期,而且报告的结果还不一定能帮

    上他,你说他会选拍脑袋还是等报告?所以,这也是我们产品人的理念:到底怎样才能解

    决用户的问题?这也是产品人和数据人不一样的地方。

    ● 让用户喜欢数据,就会让团队喜欢自己

    除了以上这些有关数据的工作外,那时我还做了另外一件事。我启动了一个项目叫

    “西湖品学”,每年请公司外的数据牛人来分享经验,这是数据人的一场盛会,当时很受欢

    迎。我做“西湖品学”有两个原因:首先,我认为人们不使用数据不是他真的不想使用;其

    次,没有人推广使用数据的好处。那时,我常在支付宝说一个比喻:“我右手用得好好的,你突然让我用左手,那你就

    要告诉我用左手的好处,不然我无法改变我的习惯。”

    用数据的习惯也是一样,当他知道数据好用的时候,就肯定会用。所以,每一年的

    “西湖品学”,我都请外面很多人来讲数据到底有什么好处,让公司内部的数据人知道数据

    应用的商业场景是怎样的,从而激起更多人对数据的渴望和期待。“西湖品学”就是这样一

    个全新的尝试。

    在数据分析人员中,我们大部分分析员都被戏称为“表哥”“表弟”(因为他们每天都要

    做很多表)。但是,每天仅仅做表的人会有幸福感吗?每天做这么多表,也不知道别人怎

    么用,没有结果肯定就没有幸福感可言。而“西湖品学”让他们知道,他们的责任在哪里、怎样跟业务对接,他们不仅仅是“表哥”“表弟”。所以我的目的就是,不让他们抱怨自己的

    才华被埋没了,而让他们知道自己努力的价值所在。

    当我的分析师看到管理层很激烈地讨论他们做出的报告时,我能看见他们脸上的笑容:

    “不枉我们两个星期不眠不休地把这个报告做出来。”其实,大多数据人都不怕辛苦,怕的

    就是做出来的东西没人看。

    总的来说,我对分析师们要求有些不同。我要求他们对商业有一定理解,这个本身就

    是我在这本书中提到的“混、通、晒”——混在商业场景中,把数据与商业场景打通,将数

    据产品当成载体,把这个东西晒出来,让更多人使用。当你看到你的用户不能没有你,当你看到你的用户满意的时候,你自然就会感到兴奋,整个闭环就会让人感觉很兴奋。

    总结起来,数据产品化的理念是我在支付宝对整个数据分析部门的顶层设计,我一直

    用这个理念去运行一个部门,决定资源如何配置。怎样让我的数据使用者喜欢用我的产品,取悦我们用户的办法就是帮他解决问题。

    然后就是让数据更泛化。我们必须宣传数据的好处,要教育我们的用户如何使用数据。

    我们不能假定用户最终会知道数据的好处,而是要一边宣传理念,一边教授技巧,让用

    户知道怎么用数据、怎么用好数据,知道数据的价值。最后一点就是:让我们部门的员工喜欢自己,喜欢自己的工作。

    我在支付宝的成功,也离不开我的坚持。首先我得益于自己坚持的整个顶层设计的理

    念,我的老板 Lucy 和 Eric 也十分支持我,给我机会,对我很支持和包容;最后就是我有

    很棒的下属,能够把我的理念付诸实践。

    记得当我晋升到副总裁,成了当时阿里巴巴数据领域职位最高的人的时候,Lucy 曾

    经说:“在中国,品觉是数一数二的分析师。”这句话当然是对我个人的偏爱,但如果她指

    的是电商平台数一数二的最好的分析师,我觉得能勉强接受。

    每每回想起我在支付宝的两年,甚至离开支付宝到了淘宝之后很久,公司内外依然有

    很多人对我说支付宝的数据分析团队是最棒的。每当遇到这样的赞美,我都觉得非常欣慰。

    所以,那段经历让我感觉非常幸福。

    我在淘宝

    有一天,Lucy把我叫过去说:“现在淘宝很需要你,淘宝的数据体系需要你去整理。”

    那是 2012 年年底,也是我在支付宝的黄金时代,就这样我来到了淘宝,开始了我在阿里

    后 4年的时期。

    淘宝前两年的经历非常丰富,每每想起来都像过去了 10 年,我的白发基本上也都是

    在这段时间长出来的。

    ● 一样的开始,不一样的数据分析框架

    从支付宝来到淘宝,意味着我要重新打一仗。由于我已经在支付宝打了一场胜仗,所

    以可以照搬很多顶层设计到淘宝使用。但我也不能完全照搬,因为淘宝使用的顶层设计有

    些跟支付宝一样,有些却完全不一样。

    淘宝跟支付宝其相比其实要复杂很多,淘宝本身是个自下而上的组织,是个极其复杂

    的生态圈。有趣的是,当我来到淘宝时,居然面对的情况恍如回到了入职支付宝时的情形:团队的人差不多都走光了,我感觉就像踏上了一块杳无人烟的新大陆——分析师只剩下几

    个人,而且我被告知这几个人还会陆续离开。

    面对这一切,我做了一个今天想起来仍然感觉很勇敢的决定:我说我不会带支付宝的

    一兵一卒过来。所以说,我是在支付宝建了一个完整的团队,然后在淘宝又重新组建了一

    支全新的团队。这段经历其实让我很痛苦,但也是极为珍贵的人生经历。和支付宝时代面

    对的团队不一样的是,我需要同时管理分析及技术团队,所以在淘宝不用经历支付宝前期

    那段业务分析和数据技术目标不一致的痛苦。

    当时,淘宝的数据技术团队很乱,而且是累积多年的乱,所以要整理淘宝的数据体系,只用顶层设计和数据产品的方法来做,肯定是行不通的。

    但还好此时我已经有很多经验,加上当时的总裁三丰跟我的感情非常好,比起我在支

    付宝时,其实办事更容易。比如在支付宝我还不能直接问 Lucy 到底你要什么,但在淘宝

    我可以随时到三丰办公室问他要什么,在支付宝我只是一步步尝试满足 Lucy 的需求,而

    在淘宝我有管理层的绝对支持。所以,我遇到的问题都是来自内部,没有外在问题。

    在淘宝的分析团队中,我也同样分别推出了“白米饭”“突击队”和分析框架。不一样的

    是,我们很难给淘宝定 KPI 去说达到某个程度就是做得好。如果你说这样就好了,你会

    发现另一个指标可能就不好了。

    也正因如此,当我们要建数据产品的时候,我犯了一个错误,我想用一个自上而下的

    方法去做,最终发现这在淘宝行不通。尽管得益于我在 eBay 的经验,对淘宝这样的双边

    市场比较熟悉,但后来我依然觉得淘宝的生态圈非常复杂,其分析框架和支付宝非常不一

    样。

    当我发现自上而下的方法不行之后,我就逐步去做更多能发现问题的数据产品,总体

    来说还是:坚持数据泛化的方向。在阿里淘系这样自下而上的组织来说,因为权力已经

    下放给每个“小二”。泛化一个产品相对来说比较容易,每个“小二”需要数据帮他们做决策

    的时候,如果让他们每个人都用数据产品,这相比在支付宝时期其实更容易。反而因为数据非常零散,我们要决定到底如何做好一个数据产品,知道如何化繁为简更重要,因为虽

    然有资源,但是要用资源的人也很多。

    关于在淘宝所做的数据产品我这里不再一一赘述,值得一提的是,我们当时做了一个

    非常重要的决定,就是移动终端。那时候,很多淘宝的消费者都开始使用智能手机,我就

    决定我们一定要做移动版的阿里数据 App。淘数据这个 PC产品在我来淘宝之前已经存在,只是一直不温不火,不是没人去使用,而是产品的用户体验不好。因此,当我们用移动版

    取代 PC 版之后,发现很多高管及中层管理一下子变成了午夜常客,我就知道自己的决定

    是对的。

    此外还有一件事就是数据服务,当时需求也已经显现出来。因为我们这个部门承担的

    责任不仅是数据分析,还有数据底层的搭建。虽然我的业务分析团队当时只服务淘宝,但

    是数据技术团队要服务天猫、淘宝、聚划算等多个业务部门。这需要我们在数据服务上分

    几个层面去做:一是除淘宝之外的天猫、聚划算事业部的数据产品我们也帮他们做了;二

    是我只建数据中间层,别的部门可以用我们的数据中间层来建他们的数据产品;三是提供

    数据服务,我用早期的数据服务方式把数据输出给其他部门使用。这就是我在淘宝的前半

    部分时间的情况,上半身(分析师)是淘宝,下半身(数据底层)是集团。

    ● 建立数据公共层,是阿里大数据的开始

    进入阿里集团的这几年里,大部分业务部门的分析师都归我管理,同时数据平台和技

    术底层也都在我这边,所以我的业务就演变成了集团数据技术及产品部,内部叫 DT。

    回想淘宝期间,我一直觉得如果我能早一点整合数据底层团队,收获会更大。整合数

    据要花的力气往往跟数据的离散、不规范、各自为政很有关系。有时白纸一张重新开始,比起消耗大量时间在处理老问题更简单得多。

    而对于我们整个 DT 部门,这时候有两个新的使命:一是做对外的数据产品,即生意

    参谋,同时也逐步把集团中其他对外数据产品例如数据魔方及量子报告等综合到生意参谋上;二是建立数据公共层,数据公共层是结合了集团各业务群的共享资源而成的数据

    服务,希望可以成为内部的 DaaS模型。

    数据公共层的起缘是因为当时集团各个部门建了很多自己的数据“烟囱”,重复建设严

    重,导致数据的存储、加工等资源严重浪费。怎么把各个“烟囱”中的数据分为专有和公有,并且把公有的数据放在数据公共层,这是我在这段时间内耗费精力最多的事情。在我眼里,这个数据公共层也是我认为在大数据中最重要的东西,我也在其中学到了很多经验。

    前面提到的那些应用,我们都可以称之为“数据”,而这时才是“大数据”。“大数据”的

    意义就在连结,数据公共层就是跨业务群的精华,让所有人能把其他人的数据冗余利用

    起来,这时“大数据”才算做了起来。

    我这么说,不是说我们以前没有数据共享,而是从前都是零散和没有计划地分享及同

    步数据,有点小打小闹。到了正式建立数据公共层的时候,才有人去整合全集团的所有数

    据,把它当成一个数据资产共建来看待,所以数据公共层后来就被 CEO 定义为公司唯一

    的数据资产的收集与加工的部门。

    ● “混、通、晒”和“存、管、用”,帮我打通数据闭环

    在我淘宝的几年生涯里,一个非常重要的项目让我永远难忘。

    有一年,马云让我们把聚划算自动化,在我眼里其实这就等同于商业版的无人驾驶技

    术——因为,要把聚划算这个部门的品类规划、选品、定价等流程自动化,让机器决定什

    么产品哪天上聚划算。它要求整个链条中的决策都要自动化,而没有人参与其中,这对我

    们数据的收集、加工、提炼等整个链条的能力都提出了非常大的考验。

    而且,这个项目也是真正实验如何在业务运营中使数据技术成为主干的一步,数据能

    力、算法要完全融入到业务流程当中,每个环节中的数据回流等成为闭环的一部分。好在这时我们的部门已经是一个具备全方位支持能力的,能够覆盖数据的准备、加工、收集、分析、整合到使用整个链条的部门了,而且我的数据科学团队也已经开始涵盖集团

    中很多不同业务的项目,甚至连交通这样的政府项目都有涵盖。

    我这段时间的经历,我想说我很荣幸,能够用我的白头发换来亲自经历一场人机大战

    的故事,让我可以在过去 3 年中接触到这么多数据甚至整个数据链路,最终我实现了数

    据应用的闭环。要做好数据,我们首先要在数据使用的闭环中让数据越来越容易使用,同

    时在数据准备的闭环中,让制作数据的成本越来越低(见图 0-1)。

    图 0-1 数据化运营和运营数据的闭环系统

    闭环系统中,虚线以上用户能很简单地使用,虚线以下是让数据制作变得更快更自动

    化。一个是使数据产生价值,如何让多种多样多变的数据原材料很快、很灵活地重组,并

    且使它相对稳定,这就是做数据基础建设天天要去想的问题。如何让而使用数据变得越简

    单越好用,这是两个闭环。

    这就是我曾提到的“存、管、用”和“混、通、晒”。“存、管、用”就是用技术而不是人

    工的方法去做资产或材料管理。怎样评估是不是做的好呢?得看数据有没有、细不细、全不全、稳不稳、快不快。所以,一旦把数据管理好了,我们就会很灵活很快地做出数

    据,并且在使用的时候产生很大的价值,到底我们提炼到的是垃圾还是黄金就取决于此。

    以往用数据要“混、通、晒”,养数据要“存、管、用”,经历了支付宝和阿里集团的 6

    年后,我觉得以上每个环节都已经出现很多创新,比如感知(sense)技术的创新让数据

    收集层面多姿多彩;存储的格式会更适合于数据灵活掉动;人工智能除了直接服务于产品

    外还可以增加数据的识别度;大家都已经意识到数据的互联互通及质量保证是 DT 的基

    础……

    ● 整合和配合,数据团队要学会取舍

    在淘宝的几年,可以说是我在支付宝成功之后的收成期。得到领导的信任,拿到很多

    重要的项目,很多人都想加入我的团队,人才也不再是一个问题。

    从我进来淘宝到现在,数据团队一直是急速奔跑的团队。我进淘宝时,团队仅仅 7

    个人,如今已经发展到 700 多人,规模扩大了 100 多倍。与此同时,数据部门承载的管

    理层的期望也越来越高,也越来越在聚光灯下。

    团队发展时,我一直比较纠结员工配合的问题,工程师和分析师的合作是数据部门的

    一个“死门”。因为分析师总是想把脏活给技术的人做,而技术的人觉得这是个苦差事,总

    是想做一些比较偏业务的事情。这两者之间常常都不满意各自所在的位置,想跳出自己的

    圈圈。此外,分析师也有一些配合的问题,比如决策分析和业务分析两种分析师到底该怎

    么区分,怎么让大家一起合作一直是个难题。

    这样的配合我认为是数据和业务团队的整合。中央部门的数据团队一定要面对一个很

    残酷的问题:什么东西是我们该做的?什么又是当时机成熟之后要放手到业务部门的?

    简单来说,就是谁做得好就应该谁来做。2014 年时,我也曾想把商业分析团队放回

    到各个业务部门中,结果业务老大都不同意,认为我管更好,谁做得好归谁。在很多项目中,我发现只要业务部门一旦看到数据能帮上他的忙,而且是非常重要的

    东西时,他们就会把应用的东西拿回去。所以中央部门不用强求,只能做小项目。在大项

    目中,大部分业务团队都有自己比较好的应用场景,都能更好地进行试验。所以,中央部

    门慢慢要形成好的数据中间层,这是关键。

    中央部门很难做好应用,分析师也一样。应用和分析师都需要对业务场景非常理解才

    能做好。而底层的数据怎样更灵活、更快、更容易给用户使用,肯定是中央部门需要做的。

    但划分不是完全绝对的,而是你中有我,我中有你。决策分析肯定最好放在中央,因

    为决策分析是服务整个公司的,帮助 CEO来看大盘,肯定不能用业务部门的视角。

    数据则分公有数据和专有数据,专有数据要回到离应用比较近的地方。公有数据是公

    司最有用的资产,在中央部门集中管理,让它成为很重要的材料以供别人使用。那么,边

    界怎么分?我只能说:只要大数据的情况越泛化,中央部门所需要承担的责任就越重,也越集中、越具体。

    这些年来,我觉得现在阿里的数据依然没达到我理想中的蓝图,主要有两个原因:一

    是整个大环境还未形成,二是阿里的数据环境才刚开始,演变是循序渐进的过程。这个过

    程,是急不来的。

    我看数据科学

    在 2010 年年底,我就意识到有大数据的出现,所以当时就跟 Lucy 提出,支付宝要

    有一些数据科学的人才储备,但可惜的是,我虽感觉到了新时代即将来临,却未能正确地

    指出机器学习的趋势,所以没有大力引进。

    而到了淘宝后,我是第一个在管理层力推大量招聘数据科学家的,当时还有其他高管

    质疑我的做法。但在当时淘宝总裁的大力支持下,我终于如愿。记得我招到第一个数据科

    学家后,我们每周都会在我办公室约谈,用非技术的语言聊数据科学家是做什么的,以便

    很快加深我对数据科学的理解。传统的数据科学家常常是博士或博士后,研究的方向是机器学习。数据科学家的出现

    其实是个演变的过程,几年前企业的数据应用都是看多用少,不够直接,也很少涉及机器

    学习、算法等领域。

    从数据科学家进来的那天开始,我就认为他们是不可缺少的,他们的工作不是今天的

    数据分析师和数据挖掘工程师能做得了的,虽然数据分析团队中也有数据挖掘的人,但数

    据科学和数据挖掘是有所分别的。

    我认为合格的数据科学家应该是有产品意识的,为了解决问题会更偏重于找到问题的

    原因,然后寻找最好的方法来解决它。所以可以说,区别就在“科学”这两个字。

    数据科学是科学不是工程,工程追求效率,科学追求真理。如果数据科学家做得太

    实操,就会变成一个数据挖掘工程师。如果他“飘”在空中,便没办法在企业中生存。

    企业想要找到既能上天也能落地的数据科学家很难。在我眼里,一个企业如果有这样

    的人,就像三国时期刘备有了关羽。但可惜的是,这世上的关羽少之又少。

    在这种情况下,企业应该把事情分为长中短线来看。顶层设计要比较清楚,让数据

    科学家能做一些比较有难度的事情,让能落地打仗的工程师去做落地的事情。这两者如

    果没有好好区分,他们之间就会“打架”,这样企业耗不起。此外,从企业环境来说,一个

    公司到底有没有科学精神,也会非常影响数据科学人才的落地。

    经历过对数据科学的理解后,回想我在支付宝做的最后一个“黄金策”,如果今天让我

    重新做这个产品,我不会用以前的方法,因为今天的技术和曾经的技术已经不一样了。

    “黄金策”给人的感觉是可以发现很多东西,但同时能发现的东西也是有局限的。虽然

    有 600 个或 800 个用户变量给你自己组合,但数量还是只有 600 个或 800 个,能不能有

    6 000 个或 8 000 个呢?从今天的技术来讲,用深度学习的方法,有些环节机器会比人做

    得更好。6年来我所做的工作都是人用经验提出一个假设,然后用数据来证明哪个假设更可能。

    到今天为止,让数据告诉我们新的发现,而不是人的经验,还是少数情况。但数据带来的

    这些新发现,是人类以前的逻辑中所没有的。换句话说,数据重组了这个世界的“可能”。

    这是人类为什么要花很多资源去做大数据的原因所在,因为人类的思考本身是有局限

    性的,如果使用集体智能,用深度学习的方法来找出人都提不出来的假设,然后通过人机

    协作找出未来的新世界、新智慧,这就是数据科学要走的路。

    数据科学如果不是每天都在进步,每天不满于今天的状态去 PK

    以前的理论,就不是数据科学,而是死工程。数据科学每天都在突

    破以前的理论,因为以前的理论只能解决某个点,以前的顶层设计只

    适合于以前的情况,未来的顶层设计怎么样,需要我们不断去探索,而科学就是探索。 扫码关注“庐客汇”,回复“决战大数据”,观看车品觉最新演讲视

    频。引 言

    忘掉大数据

    我们正处在历史的转折点上,数据技术在快速变革。大数据成了人们竞相议论的热词,但鲜有人提及这场巨大变革中人们需要具备的能力。无数的企业及个人望“数”兴叹:“大

    数据与我何干?”未来是大数据的时代,未来的竞争就是数据的竞争。也许,我们早该忘

    掉那些华而不实的喧嚣,让大数据真正从“看”到“用”,真正“活”起来。

    大数据的力量来自触类旁通的关联。我们以前总是用数据来证明或企图说服工作上的

    盲点,而如今的数据不再是一加一的依据,而是具备了预测和开创新机的能力。

    用数据找机会

    我第一次见证大数据的魅力是在 17 年前,只是当时的我并不知道那就是“大数据”。

    20 世纪 90 年代初,我结识了一些以博彩为生的朋友,这些人组成了一个团队,每年通过

    赛马就能盈利数亿港元。我非常惊讶,要知道很多人在赌马场上可是血本无归的,而他们

    却能把这种概率游戏变成稳定的盈利工具。原来,他们的秘密就是使用了一套“养数据”策

    略——将每一场赛马比赛的过程都录下来。当时我觉得这个做法很奇怪:“电视上已经在

    播放录像了啊,还另外录制比赛干什么?”后来我才得知,他们居然在每场比赛中都会录

    制赛马不同角度的录像。通过这些录像,他们会分析出骑师、马匹有哪些失误动作、这些

    动作会带来怎样的后果,然后再把这些数据“清洗”出一个更准确的数据(Smart Data)。

    赛马过程中有许多意外,而他们利用数据来还原——如果在没有意外发生的情况下,马匹

    在不同场地与不同骑师配合中的应有速度。就这样,他们可以更准确地判断出每匹马的实

    力和获胜的机会;通过悄无声息的数据收集,每年入账数亿港元。

    令我最为震惊的是,他们竟然不看表面数据,而是从无限数据的机会中寻找核心数据。这正体现了大数据与传统数据之间最大的不同。以前,我们是“有问题找数据”,而在

    大数据时代,其最核心的特质则是“用数据找机会”。我们做大数据,必须要有一个预判,那就是哪些数据是你必须要提炼出来以解决盲点的。赛马的结果其实充满了“意外”,新的

    数据角度帮助我们一窥真实的结果,那就是“用数据来还原真实”。

    只有实效的数据才是正道

    现在,大数据的概念纷繁复杂,媒体上充斥了各种关于大数据的报道,但其中不乏牵

    强附会、滥竽充数的言论,某些媒体甚至把简单的统计也冠上了“大数据”的头衔。

    作为一个跟数据打了十几年交道的人,我深深地知道从“看”到“用”,再从“用”到“养”

    的数据运营,本身就是一个复杂的过程,而我们目前最应该做的,就是暂且忘记大数据的

    概念。行胜于言,只有具备实效性的数据才是正道。我希望从实用的角度来拨开大数据的

    “面纱”,告诉每个人大数据的具体运作应该是什么样的。而且,数据量不是最重要的问题,我们要的不是数据的量,而是有“质”的量,这正是我写作本书的目的。

    数据,决胜未来的商业利器

    在这个风云变幻的数据时代,只有让数据成为商业的利器才能决胜千里。

    首先,我们需要拥有一套具有商业敏感度的数据决策框架,可以使企业“看”得更准,并能够对近期所做哪些是对的、哪些是错的进行判断。这样一来,快速的数据反馈可以让

    每个决策误差得到及时修正。其次,让数据真正从“看”到“用”,让用数据成为构建企业生

    产力的重要部分。再次,让 DT战略深入到企业的每个角落,使数据从生产、收集、使用、分享到反馈变得简单易用。最后,让 DT 战略落地还要特别注意数据的稳定、准确、时效

    和有效实施。

    在阿里巴巴,我学习到一个很重要的经验——人和事是分不开的。企业要想成为一家

    数据化的企业,文化的培养必不可少。“混、通、晒”及“存、管、用”两套内功是让企业的血液(数据)流动起来的关键。数据流动得宜,则神清气爽;相反,数据如果出现停滞或

    质量问题,企业则性命不保。

    锻造数据力和思考力的合力

    大数据时代的到来,让我们第一次遭遇了数据化带来的机遇和滚滚红利,也让我们的

    思维方式出现了重大改变。很多时候,我们欠缺的不是解决问题的方式,而是定位问题

    的能力。我们应该思考,有没有数据可以改善我们的盲点;我们该如何学会用“假定数据

    是可获取的”来重新思考周围的一切。当数据化思维成为你的直觉式思考时,就能够把数

    据的力量和思考的力量融合在一起,产生新的无与伦比的合力了。到那时你会发现,周围

    的一切都将因此而焕发出新的生机。

    最后,衷心感谢帮助我完成这个看似不可能完成的任务、写完这本看似不可能完成的

    书,并最终付诸实践的老师及朋友们:

    感恩给予我写这本书勇气的雪谦寺拥珠扎西仁波切;

    感谢一直帮助我推动这本书前期工作的林君君;

    感谢用业余时间协助我完成写作及案例工作的赵军、李江、吴慧敏、欧吉良、张大红;

    感谢湛庐文化专业的策划和编辑团队;

    更感激家人一直容忍着我的忽视……

    正如数据是一种信仰,万法唯心,每一刻的进步都来自真诚的对待!

    品觉

    于西子湖畔

    特别说明1.本书观点乃作者十几年经验心得的分享,只代表个人立场。

    2.本书所有版税收益作者将赠予上海美丽心灵社区公益基金会桑珠利民专项基金会作

    助学用途。第一部分

    从数据化运营到运营数据数据十诫

    1 一切从定义问题开始,问题问好了,答案就在里面。

    2 在万物皆数据的年代,要以“假设数据都能获取”为前提去思考问题。

    3 数据助力企业的“四部曲”:描述现况、深入诊断、预测趋势、指挥行动。

    4 “快+准”的数据,让我们可以从已知规律中寻找价值。

    5 “广+乱”的数据,给予我们从发现中获取颠覆过去规律的能力。

    6 大数据不是独奏,而是不断连接无处不在的数据。

    7 数据技术就是加速和积累(数据、分析、服务)的能力。

    8 大数据生态的连接需要建立标准与规范。

    9 大数据是诸多小数据的组合。

    10 数据是一种信仰。01

    大数据,为什么很多人只会谈、不会做人说,大数据就像国王的新衣,每个人都在国王面前说着动听的话,国王信以为真,其实他并不知道自己在裸奔。

    的确,网络上有很多人在谈大数据,但是他们只会谈,不会做,因为他们根本就没有

    做过,包括那些所谓的“大数据专家”,他们真的做过吗?没有。事实上,这些人对大数据

    内在的问题一点儿都不了解,更别说知道大数据的水有多深了。

    目前,在大数据方面,无法深入应用的原因在于,从收集到使用的大数据价值链出现

    了问题。从理论上来说,从收到用的螺旋式循环是一个巨大的涡轮,只有先数据化运营,然后才能运营数据。而现在的情况是,用数据的人不知道大数据从哪里来,做数据的人

    不知道大数据如何使用。想用的人不敢用,因为担心大数据的真实性;做的人不知道怎

    么用,因为大数据的复杂性。这一问题造成的结果就是,数据量变得越来越大,而且越

    来越无法有效地使用。

    大数据从来不是免费的午餐

    大数据从来不是免费的午餐。大数据的来源是多渠道的,偏倚、随机的误差总是存在。

    我先问一个数据管理上最现实的问题:“大数据如何备份?”毫不夸张地说,大数据已

    经这么庞大了,如果再备份一次,你的成本起码会增加一倍。

    做大数据基本上都要从大量收集数据开始,因为这些数据在未来会大有用处。但是,你是不可能无止境地收集下去的。在这里,你已经看到了一个再清晰不过的伪命题:大数

    据的确能够备份,但是成本会增加两三倍。然而,“以前重要的数据肯定都需要备份啊,”

    你自然会问,“如果不能备份,我该怎么办?”而这就是大数据管理中必然会遇到的一个问

    题。

    我再问一个问题,如果你在数据使用方面一直得心应手,整个商业链条和数据紧密相

    关、相辅相成。但是,现在数据链忽然断了,或者不再有效了,此时你该怎么办?

    有需要注意的是,这一问题说的不是你有没有使用好数据,而是说曾经你可以得到的数

    据现在无从获得了;或者说这些数据不能再在线上收集,只能从线下获取,成本也就相应

    升高了;抑或说,这些数据存储在其他地方,你不能使用了。在诸如此类的情况下,你该

    怎么办?

    当然,如果你对数据的使用本来就很生疏,而且也觉得无关紧要,那么数据链消失了、断裂了、失效了,你也不会有太大烦恼。但假如正当你将数据使用得风生水起的时候,出

    现这样的问题,那你也只能束手无策,眼睁睁地看着机会溜走。

    大数据从来不是免费的午餐。伴随着大数据热潮的到来,关于大数据的一些新问题层

    出不穷——大数据会夹杂着虚假信息;大数据的数据量很大,但有用的信息不一定多,甚

    至还会破坏核心信息;大数据的来源是多渠道的,偏倚、随机的误差总是存在。

    但是,我们也需要客观地认识到,大数据现在面临的这些问题,其实就是把小数据中

    的一些问题放大了。小数据中难道就没有噪音会破坏我们的核心信息吗?当然也有,只不

    过当大数据把数据量放大和变多的时候,噪音的破坏性也会相应变大。小数据中难道就没

    有渠道偏倚和随机的问题吗?当然也有,但是在大数据的背景下,问题被更明显地放大了。

    人的断层

    断层才是大数据所面临的最严重的问题。收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据运用的一

    大关键命门。

    说了这么多,事实上还没有触碰到如今大数据面临的最大问题:人。

    很多人都会问,大数据能带来什么价值?怎么衡量大数据创造的价值?事实上,最直

    接的衡量标准就是,在经营上它为你赚了多少钱,带来了多少实际的利润提升。

    对于这一问题的解决,现在很多人倾向使用的方法是计算“在用了大数据之后,前 30%)拿出来,调查根据这些关键词登录网站购物的消费者在三个月后是否还会来买

    东西的问题。

    事实证明,这些用得很好的广告关键词,有一半只吸引了用户的一次购买行为。因为,这些公司买的关键词都是“最便宜的××”,这些关键词对某些消费者来说有着很大的吸引力,但是并不总会产生巨大的效用。

    也因为这样,企业吸引来的用户都是一般消费者,却不是真正做批发的人。企业管理

    者完全不知道当时掌控 ROI 的部门其实是在做赔本生意。所以,机械式地使用数据的结果就是,企业会因为“只看狭义 ROI”死得很惨。ROI 只

    能体现广告关键词在当天使用的效果,并不能反映出这个关键词以及其吸引来的用户对网

    站的长期价值。当时,公司把所谓的自己最“好”的广告关键词删掉之后,管理者发现 3个

    月内企业的业绩没有受到任何影响。

    “活”用数据,就是你是否能看出这个数据本身的局限是什么。一方面,是我们的数据

    为用户体验改善了什么;另一方面,企业在使用数据时,对活数据的运用解决了什么问

    题或者开创了什么机会。要牢牢记住,活用数据很重要。

    “活”的数据是“活”用数据的精髓所在。《孙子兵法》曰:“兵无常势,水无常形,能因

    敌变化而取胜者,谓之神。”这句话在数据应用方面同样适用。如果企业能够基于场景和

    相关的“活”数据将数据应用发挥出最大的价值,那么新的商业模式的开创也就会在不远的

    将来成为可能。数据化思考

    别再做“碰巧游戏”

    在开始之前,我先讲一个有趣的故事。有一天,全球最大的职业招聘网站忽然发现从雷曼

    兄弟公司登录的来访者多了起来,但是并没有深究原因。第二天,雷曼兄弟宣布倒闭。原来,前一天雷曼兄弟的员工都到职业招聘网站找工作了。

    谷歌宣布退出中国的前一个月,我在 LinkedIn 上发现了一些平时很少露面的谷歌产品经理

    在线,这也是相同的道理。

    试想,如果 LinkedIn 能够针对某家上市公司选择性地分析数据,会不会挖出其中潜在的商

    业价值呢?我相信,很多网站现在还停留在“注册用户数”这种简单的数据收集上,而不知道还

    要收集上述有价值的数据信息来使企业获得发展。

    好的分析师相当于市场解码器

    我常常会说,今日的数据分析师,需要有点军师的味道——从枯燥的数据中看到解开市场

    发展密码的本事。简单来说,就是具有商业意识的数据分析师,如果监测到网站上拥有 6 岁之

    下孩子的用户群在增加,那么他基本可以预测出奶粉的销量也可能呈现上升趋势。

    从更深一层来看,和传统卖场一样,网站中商品丰富性的作用大不相同。有的产品为了赚

    钱,有的产品为了促销,有的则用来吸引流量,这也就解释了不同商品在网站上摆放的位置不

    同的现象。同理,只有具备了商业敏感度的数据分析师,才会懂得用什么数据来驱动公司实现

    经营目标,而绝不会单凭交易量就决定商品策略。

    评估一个新生电商平台的竞争力,你会观察什么数据

    交易量?不对,因为平台是双边市场,不同于单边的 B2C 卖场,除了买家流量之外,对于

    一个需要活力的商业平台来说,每天有多少新的优质卖家加入进来也至关重要。比如,他们卖

    了多少东西和卖了什么东西,这对新生的电商的竞争力来说都起到了不可或缺的作用。因为,此阶段商业竞争最核心的影响因素是人气,而非实质交易量。如果新加入的卖家卖不出东西,只是老卖家的交易量在增长,即使最后的交易量每天都呈增长趋势,也无法极大地提升其竞争

    力。

    换个场景看,一家刚踏入市场的 B2C 和已经占领大部分市场的 B2C,它们的关注点会一样

    吗?当然不可能,因为前者看的是流量,赚的是人气;但流量对于后者的意义就没有那么大了,因为它们更关注交易率、转化率和回头率。

    组装你的数据仪表盘

    我把数据信息的梳理过程,理解为数据世界里的“仪表盘”。比如,在开车时,如果水温过

    高,仪表盘就会亮灯提示;同样,网站的关键信息也可以监控,在电子商务交易中,行为数据

    和商业模式之间的逻辑关系组成了“仪表盘”——好的仪表盘,对于商业活动中的好现象和不好

    的现象都会有敏锐的反应。

    为了方便理解,我想出了两个名词:前端行为数据和后端商业数据。前者指的是访问量、浏览量、点击率及站内搜索等,是反映用户行为的数据;而后者更侧重于商业数据,比如交易

    量、投资回报率、客户终生价值(LTV, Lifetime Value)。

    分析数据“走火入魔”的人会明白,数据就像散布在夜幕里的繁星,它们彼此之间布满了关

    系网,只要轻轻按动其中一个亮点,就会驱动另外一个亮点产生变化,而这个动态的网,就是

    “仪表盘”。

    将行为数据与商业数据对接起来时,我们可能都会比较关心网站的用户群,以下就是一个

    相关的例子。

    某天,某网站发现自己的前端注册量增加了不少,访问量也提高了,但交易量却未见大幅

    度的提升。原因是什么?估计数据分析师们每天都在思考这个问题,那么,在这里我们就将这

    个问题进行分解,以寻找相应的答案。处在网站前端的人只知道点击量等数据,比如,谁一直在重复购买?谁影响了 5%~15%

    核心用户群的购买行为?谁在给网站做正面或负面传播?但却很少有人会关注后端的商业数据。

    如果网站后端交易环节的操作人员只知道卖东西,却不知道提出这几个问题:一个客户登

    录网站平均停留时间是 15 分钟还是 30分钟,会对将来重复购买的影响大吗?一个客户登录了

    网站社区和没登录社区,对产生交易量有影响吗?此时,却很少有人会关注前端数据。

    你发现这中间的问题了吗?行为数据与商业数据没有对接起来!

    于是,前后端数据出现割裂,没有人知道它们的内在关系;作为网站的决策者,不知道网

    站核心用户群的行为特征,也不知道怎么去刺激核心用户的增加,更不知道从一个用户登录网

    站之后到离开哪些环节需要疏通的话,不死就真的是万幸了。

    当然,这个例子也只是管中窥豹。一个平台运营商,反映用户行为的前端数据与后端的商

    业数据千千万万,卖家和买家也是万万千千,但是在了解前端哪一个数据对整个网站后端的交

    易量有最大影响后,就只须针对这个前端数据猛出力,必然会刺激后端数据的增加;反过来,后端哪一个交易数据比较高,弄清楚是从哪一个渠道收集的、主要贡献用户是谁,网站的产品

    设计就要向他们倾斜,如此才会使渠道前端“转化率”等关键数据得到提升。

    如果一个网站的核心用户群每月以 10%的速度在增长,不火也是怪事。

    遗憾的是,今天许多电子商务公司,每天都在做“碰巧”游戏:今天推荐 A 家的产品,明天

    撤下 A 家的产品;今天做低价促销,明天又做线下活动。这些决策的改变,没有“仪表盘”的指

    示或良好的监控,都是闭着眼睛在“碰巧”。

    世上哪有这么多“碰巧”,还是快睁开眼睛,认真看路吧!04

    全域大数据,大数据的颠覆者概三五年前,我们还在为移动化兴奋不已;而今天,我们已经开始面对全域大数据、面对来自四面八方的传感器。大数据已经完全不是“移动化”这么简单了。

    数据,决策的瞄准镜

    随着无处不在的终端及应用所收集的数据越来越多,将来有一天,无论你去哪儿,都会留下“脚印”。全域大数据带来的

    变革不限于数据本身,而是从全新的角度去思考社会和商业模式将如何被改变。

    在移动化的初始阶段,我们觉得手机是一个结合了媒体、沟通、互联应用的超级终端

    传感器。渐渐地我们发现,离开手机一会儿就觉得不自在,而从数据收集的角度来说也出

    现了一个新挑战:PC 端和手机移动端这两个终端上出现的是否为同一个人?这个现象引

    发的问题在未来会变得更明显。在未来,除了用手机,智能电视、智能家居、物联网汽

    车……我们将和所有的东西实现联结和互动,已经不存在一个能完全满足我们需求的终端。

    随着无处不在的终端及应用所收集的数据越来越多,将来有一天,无论你去哪儿,都会

    留下“脚印”。我们接收到的数据会越来越全——这是令人兴奋的消息,但从伦理道德的角

    度来看,却可能是很危险的。

    我们应该清楚地认识到,商业的基础正是因为众多终端(包括物联网)所带来的全域

    大数据而发生了改变。全域大数据带来的变革不限于数据本身,而是从全新的角度去思

    考社会和商业模式将如何被改变。在全域大数据的大潮之下,每家公司都要学会重新思

    考。当互联网的场景从单一的桌面转移到多源多终端,形成每时每刻的全域数据时,不仅

    带来了丰富的空间维度,还增加了更多从前匪夷所思的新场景所产生的数据。这么多零散

    数据和维度叠加在一起,那么接下来的难题就是:如何保证数据能有效地被存储、刷新、识辨和链接,然后灵活地被使用?

    有这么多的数据能做什么?从古至今,每当人们遇到麻烦和困难时,都会从自己或别

    人的经验中寻找解决办法,然后决策执行。不论成功或失败,所得到的经验和积累会成为

    衡量下一个类同决策的基础。这样的决策循环往复,使我们的预测能力越来越接近真实,而数据就像是我们这个循环之中的瞄准镜一样。

    大开启“上帝视角”,做到知觉合一

    知是 Sensing,觉是 Knowing,知是觉的基础,新知新觉!

    以前,当一些结果不在我们的预期判断之中时,我们就会明白,原因是我们知道的信

    息不全。但这种现象在未来会越来越少,因为全域大数据会让我们更“见多识广”。

    你每天开车回公司的途中到了某个路口习惯性左拐是最快捷的选择,但偶然有一天你

    发现,很多同事都在同一路口右拐。好奇心让你询问了多位同事,最后才发现原来有一条

    路比你原来的左拐选择更加便捷。在这个例子中,你有沒有注意到,个人智慧与集体智慧

    的融合体现得淋漓尽致,同时也暴露出过去我们获取信息的意愿或方法的条件的不充分。

    再举例一个购物的场景。顾客 A 在朋友的推荐下搜索某品牌护肤品,被引导去了社

    交网站并了解到产品的品碑不错,接着去品牌官网查询商品价格,但嫌价格太贵;然后去

    了 B2C 网站,可是又觉得物流太慢;顾客 A 还未下定决心购买时,又到了下班时间;于

    是,当顾客 A 偶然路过专卖店时,才最终产生了购买行为。这是个常见的购物过程,我

    们可以理解顾客 A 想要购买一个产品经历的诸多流程。如果现在把你放在 B2C 网站负责

    人的位置上,你发现顾客 A 浏览了你的网站,但你并不知道她其实已经经历了前面的种

    种流程,更不知道之后的情况,所以你获得的只是一个很片面的数据。如果你是这款化妆

    数据分析

    实例品专卖店的负责人,也不要太过高兴,你不过是比 B2C 的负责人好运一点儿。顾客每天

    都在和你擦肩而过,你要有多少运气才够用啊。

    在以上例子中,单独了解每个环节的数据可能结果都是片面的,但如果每个环节的数

    据都可以打通的话,你就会开启“上帝视角”,发现一个“完整的故事”——只不过今天还没

    有人能够做到数据完整。数理想的状况是,我们能够像蜘蛛网一样把数据深入到各个环节,这样才可以即时响应很多用户的想法。这种多场景、多终端、多应用的全域大数据将会是

    一个里程碑。

    随着移动互联网时代的到来,不在预期之内的大数据不断地进入我们的视野,人类对

    周边环境的感知(sense)能力伴随着传感器数据的加强,开始发挥极大的作用。这些都

    造就了今天的人工智能的发展进入新纪元。明白了以上的前提后,我们就会更明白大数据

    整合和分享的重要性,以及不要唯利是图地胡乱买卖数据的重要性。

    我们眼前的数据相对离散,终端和传感器(例如智能电视、智能家居、智能汽车等)

    的变化多端,这些都导致我们所讨论的全域大数据越来越像庞然大物:我们每秒钟收集的

    数据比前一秒更庞大,结构和标准也各不相同。例如,我们用的手机终端有苹果手机、安

    卓手机、黑莓手机等,而安卓系统下面还有小米、魅族、华为、三星等,不同型号的手机

    数据都会对数据的准确性产生影响。在我看来,开启“上帝视角”是未来趋势,上帝视角下

    的应用场景会越来越多地出现。对于我这样一个从事数据科学的人来说,这无疑是令人

    激动的。

    这些数据都可以沉淀,复杂的数据环境给我们带来巨大挑战,但同时又伴随着前所未

    有的机遇。在机会面前,目前来说,我们还不够明智,还只是“各自为政”。首先,每家公司、每个参与数据处理的“参赛者”,都想独自画出“数据链”路上的全景

    图。我就曾经看过同一家公司内各事业部都在做自己的软件开发工具包(SDK)来做数据

    收集,他们没有分工、也没有讨论标准化,所得数据之乱可想而知。

    其次,我们忽略了数据一体性。如果我们现在不重视数据的一体性,之后想要利用

    好数据的时候,就会发现自己已经被这些微小数据牢牢卡住了。的确,当公司规模生态还

    很小时,你会觉得这些数据影响不大。传统上,我们对多元化、多终端异构数据的产生,以及数据的质量问题等,往往不够重视,但一旦我们想要实现突破,想精准地应用数据,就会发现曾经的“差一点儿”已经成了云泥之别。对数据使用的高手来说,数据质量就是生

    命之源。

    知是Sensing,觉是 Knowing,知是觉的基础,新知新觉!数据化思考

    样本的偏见

    假设你想买一款新手机,于是去询问 3 位朋友的建议——到底是买 iPhone,还是买三星。

    如果我们把这种经历当作一次抽样调查的话,我确定,它绝对不可能告诉你真实的结果。

    我们在做抽样调查的时候,样本往往从一开始就有最常见的“偏见”——谁愿意反馈我的问

    卷,谁的建议就被反映在调查结果中;而不愿意给我反馈的人,他的意见就不会反映在调查结

    果里。有趣的是,被我们忽视了的那些没有反馈的样本,很多时候却是我们最需要知道的结果。

    比如,今天淘宝做了一项调查,问:“你爱淘宝吗?”在收到 1万份回复为“爱”时,我们的调

    研报告就得出了“大家都爱淘宝”这一结论。但事实上,我们总共发出了 10万个样本,这一结果

    说明有 9 万个样本对这个调查保持了沉默。此外,我们在做调研时,会向被调查者赠送礼物,有些人是因为收到了礼物才觉得应该“说点好话”。在了解到这样的情况后,你还会轻易得出“大

    家都爱淘宝”的结论吗?所以,当我们分析一份数据的时候,一定要问自己:“样本的背后有什

    么是我们不知道的。”

    我们经常会看到易观、Comscore、艾瑞等机构公布某一事物的调研数据。在看到这样的数

    据时,我常会问,他们的样本是怎么挑选的?据我所知,他们有一个第三方监控软件,它会以

    每月数百元的费用“购买”样本,并把监控软件置于后台。试想,如果你想做一个高端样本的调

    研,那么这种做法可行的可能性很小,就算有可能,结果也不会准确。因为他们即使出每月 1

    500 元的资金也无法获取准确的数据。缘由显而易见,让月薪为 5 万元以上的用户把软件放在

    后台,然后监测自己每天做了什么,他们自然不会答应。所以说,在这种取样结果中,注定有

    一部分数据缺失而最终导致结果不正确。

    在现实生活中,我们往往不会去想采样的问题,这就造成我们对很多调查结果深信不疑,我们的决策就会有对号入座的嫌疑,而这种嫌疑非常常见。比如,某人告诉你说他身边的很多

    朋友也是天秤座,这是因为他心里能想到的朋友很多都是天秤座,事实上其他他未能想到的人也可能是别的星座。再举两个现实中的例子,解释一下样本的偏见。比如,某人说他开了 2

    000 次的汽车从没有出现过意外。今天,他喝酒了,但那 2 000 次里并没有酒后驾驶的样本,所以 2 000 次这个数据在今天是没有参考意义的,因为它并不能证明他喝完酒之后还能安全驾

    驶。而如果这 2 000 次中有 200 次喝了 3 瓶多白酒,而且喝完之后开了 50 公里回家的经历,那么,这 2 000个样本就有参考性了。

    样本数量是否足够与平衡的问题,是另一个常见的“偏见”。某杂志对用户们偏爱的手机操

    作系统做了一项调研,结论是现实中的人更多地在使用安卓系统。但是,这本杂志的读者群主

    要是 IT 界人士——这个取样一开始就存在偏见,而抽样又是来自读者群,再加上 IT 界人士本

    身也比较倾向于接受安卓系统,所以样本的不平衡就造成了结论的失真。

    另外一个影响样本的因素是时间。阿里有一个 360 度调查用于反馈员工对部门的评价。如

    果我想拿高分,我会在调研前请大家吃饭,给大家培训……我做好所有调查中出现的项目。你要

    相信,短时记忆力是十分强大的,这就是一个典型的时间样本。这样的抽样是典型的“似是而

    非”。那么,假如想消除时间因素对结果的干扰怎么办?其实很简单,你只要随便抽取一天来询

    问员工:“你的部门好吗?”这往往才会得出有价值的答案。

    此外,偏见还会因为我们抽样时的询问方式出现。这里有一个很好的例子,亚马逊的调研

    就很让人信服,它的问卷第一句话就是:“你的亲戚好友里,有没有亚马逊员工?”如果你回答

    “是”,那么很可能你的意见就不会在这份样本结果里出现。亚马逊的员工、亲友和普通亚马逊

    消费者的观念是很可能存在差异的。亚马逊的问法,使得调研出的数据更加精确,让有“偏见”

    的样本也存在了意义,因为它能区分双方的用户层次有多少不一样。

    在调研过程中,如果这个样本在你调研前就是有目的的,那么这份有偏见的数据也是有价

    值的,比如可以通过交叉信息来验证结果是否准确。这在我们身边很常见,比如,你问三个朋

    友,我是买 iPhone还是三星。但首先你得问:“你用的是什么手机?”如果他买了 iPhone,却推

    荐三星,你就要追问为什么了。同样,我现在去询问淘宝“小二”:“你会选择在哪里购物?”他们熟悉淘宝,肯定会受到影响。

    而如果对“小二”们调研,结果显示更多人愿意去京东、当当购买商品时,这就证明京东和当当

    确实不错——起码就某些类别来说是不错的。此时,有偏见的样本对企业仍然存在价值。

    值得注意的是,样本跟大数据不同。大数据相信全量数据,而非样本;是分析得出,而不

    是抽样获得。05

    数据分类与数据价值,什么才是你的核心数据大数据时代,企业首先要做的是收集大量数据,但收集数据并非仅是把收集过来的

    数据放到硬盘里面那么简单,更重要的是对数据进行分类、存储及管理。不然就如

    同一个杂乱的储藏室——放东西进去的时候很轻松,等到要找东西出来的时候就会浪费大

    量的时间,甚至可能再也找不到。如今,数据在企业中已经充当了一种生产原材料的角色,而既然是原材料就要被估值。

    从数据角度来说,估值就是通过不同的维度去思考数据的价值。只有基于对数据的

    分类和对数据价值的不同认识,才能去对数据做筛选。如果连有多少种数据都不知道的话,我们很难描述数据被收集后到底如何进行筛选,也不知道哪一个数据更有价值,更不知道

    哪一个数据需要更安全的处理,甚至不知道在它的生命周期中做备份的策略是什么。

    对于数据的认知,完全取决于我们是否拥有认知自己所拥有数据的能力,是否能够筛

    选出到底什么是我的核心数据,到底什么数据会被我们频繁地使用。

    数据分类为什么如此重要

    数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境

    下甚至会呈现出不同的价值。

    在大数据时代,每做一件事情我们都要知道确切的目的是什么。从自我的角度考虑,当我们给数据分类之后,真的就能更容易理解大数据吗?

    “数据”本来就是一个既清晰又模糊的概念。之所以说“清晰”,是因为每个人对数据都

    有概念,而且每个人每天都会接触到各种各样的数据;而说“模糊”,则是指数据本身包含

    了各种不同的类型,能够产生完全不一样的价值。

    至于数据到底应该怎么进行分类,则需要视不同的场景而定。就好比“人类”一样,如

    果拿人类和动植物来做比较,人类整体必然有不同于其他物种的特性,这时,“人类”就是

    一个非常“清晰”的概念。但是,如果要对“人类”进行更深层次的分析,显然需要对不同类

    在型的“人”进行比较和分析。在很多场合下,可能还要对不同种族和不同年龄层进行分类和

    分析。

    数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境下甚至会呈现出不同的价值。就好比衡量黄金和铁这两

    种金属的经济价值,同样重量的黄金其价值必然远胜于铁;但是如果用来做刀剑,那柔软

    的黄金显然就不是合适的材料;而黄金和铁的合金可能又能够在另一个场合有一定的应用。

    对于数据而言,不同的场景也会产生不同的价值,有些数据可能会变成一个运营指标,能够让管理者更好地对业务进行决策;有些数据可以对未来进行很好的预测,而不同的数

    据进行有机结合之后又能够对用户做出更好的商品推荐。一个好的工匠必然对各种材料

    的性质及使用方法了如指掌,而一个好的数据从业者则必须要对各个数据的价值和稳定

    性洞若观火。

    遗憾的是,并不是每个数据从业者都能够很好地对数据进行分类和估值。很多时候,我们可能只看到了数据的一些应用场景,却不能够更加深入地进行数据的管理和应用。

    当我们将焦点放在一组数据“能产生什么价值”上时,往往会忽略其生产过程,因为我

    们的很多数据是经历了加工才产生这个价值的,而往往其中整个加工链条的中间数据并未

    被区分出来。就好像我们在吃一盘西红柿炒鸡蛋,“好吃”是结果,但如果你问西红柿给

    “好吃”贡献了什么,鸡蛋又贡献了什么,你可能就回答不出来了。

    古语有云:“治大国若烹小鲜。”其实做数据也要有这样的感觉,尤其是在大数据时代,更是要做到精细化。还是拿西红柿炒鸡蛋这个例子来解释。

    我们这次做的可能是这样的一盘,那么下次是不是还能保证

    做的口味完全一样呢?如果要做到口味完全一样,那我们应该怎么做呢?当然,你可以说这个过程已

    然成了一种习惯,是一种感觉,但是一旦需要做到标准化或者所有的人都要做到一样,与这样的“习惯”相

    比,就不如找出当中的规律了。这个过程是一个定量分类和管理的过程,也是一个标准化的过程——多少西红柿和多少鸡蛋。如果再

    精细一点,就要看哪里种植的西红柿、哪一个养殖场的鸡蛋、西红柿的成熟程度怎么样、鸡蛋一个要多少

    克,等等,所有这些内容都要有精细化的规定。

    那么在运用数据上,这样一个精密的过程就更加必不可少了。比如说,这次可能运用

    了一个模型,效果不错,这次用的这组数据效果也不错,那下次是不是还能保证有类似的

    效果呢?或者说,场景变换了还能保证类似的效果吗?这些都是需要去认真思考的问题。

    数据分类的 4大维度

    在观察与分析数据中,我们要从中间抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。

    今天,我们多数人把自己关注的焦点放在结果上,忽略了过程,而事实上这些过程其

    实也蕴含了数据管理的过程和数据分类的过程。有些关键数据必须做好保护,若这几个数

    据变了,或者被污染了,前面的价值也就无法保证了。有人肯定会问,管理数据是一个过

    程,能不能分解?能不能区分哪些元素是比较重要的?哪些是有替代品的?哪些是无可取

    代的?哪些是不可或缺的核心?其实,这些问题就包含数据战略。

    所以,我们不可以含糊地应对,要从中间抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。我们可以从不同维度将数据分为以下 4种。

    维度1:以是否可以再生为标准

    按照是否可以再生的标准来看,数据可以分为不可再生数据和可再生数据。不可再生

    数据通常就是最原始的数据,比如用户在访问网站时,浏览记录会追踪用户的行为,如果

    当时没有被记录下来,就没有其他数据来还原用户的行为了。这个有点像拿着相机拍闪电,抓拍很重要,一旦错过,闪电就不可能再重复刚才那一瞬间的光影了。因此,对于用户日

    志类等不可再生数据而言,必须要有很完善的保护措施和严格的权限设置。现在,很多系

    统都有备份多份数据的功能,理想情况应该是,因为磁盘损坏而造成数据丢失的案例应该越来越少。但是,因为系统升级失败和误操作等失误造成的数据丢失在各家公司都屡见不

    鲜,见怪不怪了。

    可再生数据就是通过其他数据可以生成的数据,原则上,指标类数据的衍生数据都是

    可再生的——只要原始的不可再生数据还在,就可以通过重新运算来获得。不过千万不能

    因为“可再生”这个词语的存在,就对可再生数据掉以轻心。有些可再生数据是通过很长时

    间的积累不断加工而成的,是长时间从海量数据中计算出来的,比如对某个用户在数个月

    内的连续购买行为产生的规律,如果未做保护,虽然仍然可再生,但是再生的时间却会给

    企业带来问题。因为即便对于有顶尖计算能力的公司来讲,都可能是数日,甚至是数周、数月,而这个时间过程可能就会对公司的某一项核心业务造成毁灭性的打击。

    对不可再生数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收

    集。举个例子,很多电子商务网站是不关注客户在商品详情页面有没有做滚屏操作的。

    如果这一类型的数据没有被记录下来,企业就无从知道详情页的有效性。当商品页面进行

    改版,需要对此类数据进行参考时,就没有办法来获得相应的数据支持,最后能做的就只

    能是等待在页面上进行布点开发,等待数据收集到之后再进行决策,这就造成了决策的延

    误。

    对可再生数据而言,要及早做好业务的预判和数据处理的规划,这样一来,数据在需

    要的时候就能够快速地获得应用,我们把这一数据叫作数据中间层。

    维度2:以数据所处的存储层次为标准

    按照数据所处的存储层次来看,数据可以分为基础层、中间层和应用层。从数据的存

    储角度来说,数据有很多层次。基础层通常与原始数据基本一致,也就是仅仅存储最基本

    的数据,不做汇总,以尽量避免失真,从而用作其他数据研究的基础;中间层是基于基础

    层加工的数据,通常也被认为是数据仓库层,这些数据会根据不同的业务需求,按照不同

    的主体来进行存放;应用层则是针对具体数据问题的应用,比如作为解决具体问题的数据

    分析和数据挖掘的应用层的数据。在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。尤其是对于一些拥

    有海量数据的大公司而言,数据的冗余问题尤为严重,由此造成了大量的浪费。在大公司

    中,进行数据分析、开发、挖掘的人可能有数十甚至是数百人,这些人可能归属于不同的

    业务团队,为了满足不同的业务各自分析数据应用。这样一来,不同的人可能都从头开始

    建立起了一套包含基础层、中间层和应用层的数据,而彼此之间又没有合适的交流方式,也就造成了工作的浪费。那是不是应该把所有的数据进行更好的归纳或者管理呢?我认为

    这也不是绝对的。任何管理方法,无论是集中式管理,还是分散式管理,都各有利弊,而

    且人和业务多了之后,企业也很难进行集中式管理。

    我给出的建议是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始

    数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好

    的元数据管理方式,就能极大地降低成本。而对于中间层和应用层而言,则要视具体情

    况而定。如果公司的业务相对单一且成本压力比较大,则建议集中式管理;如果公司的

    业务量非常大,则可以由多个数据团队来进行分散式管理和应用,以保证基础层单位有最

    高的灵活性。

    维度3:以数据业务归属为标准

    按照数据业务归属来看,数据可以分为各个数据主体。按照业务归属分类的意思就是,将数据按照不同的业务主体分门别类地进行归纳。就好像仓库一样,将不同的物料进行分

    类存放,可以提高其使用和管理的效率。按照业务归属分类的数据在不同公司可能体现出

    不同的内容,在平台型电商可以分为交易类数据、会员类数据、日志类数据等。交易类数

    据是指平台型电商的订单流水,其中包含了买家、卖家在什么时间成交了什么商品;会员

    类数据记录了买家、卖家的身份信息,比如注册时间、身份证号码、信用等级等信息;日

    志类数据则更多的是指用户的行为,即哪个用户在什么时间段访问了平台的什么页面、点

    击了什么按钮等。对于数据的分类主体,则要根据业务特点进行归类,并没有一个特别的硬性规定。总

    体的原则就是让数据的存储空间更少,分析及挖掘的过程更简单、快捷。

    维度4:以是否为隐私为标准

    按照是否为隐私来区分,数据可以分为隐私数据和非隐私数据。顾名思义,隐私数据

    就是需要有严格的保密措施来保护的数据,否则会对用户的隐私造成威胁。用户的交易记

    录属于隐私类数据,对于一家有着良好数据管理机制的公司而言,通常的管理方法是对数

    据的隐私级别进行分层,数据从安全的角度可以进行两种类型、四个层次的数据分层。两

    种类型就是企业级别和用户级别。企业级别的数据,包括交易额、利润、某大型活动的成

    交额等;个人级别的数据就像是刚才提到的身份证号码、密码、用户名、手机号等。四个

    层次是对数据进行分类,分别有公开数据、内部数据、保密数据、机密数据。

    当然,也有隐私数据保护得不好的企业,之前很多隐私泄露的案例都对用户造成了很

    大的损害。比如,某些网站几十万的开房信息泄露、数百万的密码泄露等都是类似的事故。

    随着拥有大量数据的网站和公司越来越多,数据安全就越来越成为一个核心的点——需要

    投入专门的人和专门的团队来进行数据安全的管理。而数据安全工作的推动,初期往往会

    受到一线员工的反对,因为任何一个安全系统都意味着已有的权限被收回,也会因为改变

    工作方法而降低效率。所以,拥有大数据的企业高管必须要关注数据安全,否则数据越大,对“恶人”的吸引力就越大,最终用户和公司的损失也就越大。

    数据的 5 大价值

    能够辨别关系、身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原用

    户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

    如果说数据分类的目的是为了对其有更好的认知和管理的话,那么,对不同数据价值

    的认知就是让数据更好地被应用的前提。对于数据来说,如果仅是将数据收集起来不进行

    运用,那除了占用存储空间、加大存储成本之外没有任何价值。但在实际运用中,也需要认清数据到底能够产生什么价值:有时候,同一组数据可能会在不同场合产生完全不一样

    的价值;有时候,单一的数据没有什么特别的价值,需要组合起来才能产生价值。

    数据价值 1:识别与串联价值

    顾名思义,识别的价值,肯定是唯一能够锁定你目标的数据。最有价值的比如身份证、信用卡,还有 E-mail、手机号码等,这些都是识别和串联价值很高的数据。在前面我多

    次提到的搜索 T 恤的例子中,电商网站识别“你”的方法就是你的登录账号。千万不要小看

    这个账号,如果没有这个账号,网站就只能知道有一些商品被用户浏览了,但是却无法知

    道是被哪个用户浏览了,更不可能还原出用户的购买行为。

    当然,识别用户的方法不止登录账号一种,对用户进行识别的传统方法还包括

    cookie。cookies 是在你浏览器里面的一串字符,对于一个互联网公司来说,这就是识别

    用户身份的一个标记(当然也可以选择禁止被追踪),所以你就会发现你在搜索引擎上搜

    索过一个词语,在很多网站都看到相关的资讯或者商品的推荐,就是通过 cookies 来实现

    的。很多互联网公司都非常依赖 cookies,所以会采用各种 cookies 来记录不同的用户类

    别,单一的 cookies 没有价值,将用户登录不同页面的行为串联起来才产生了核心价值—

    —串联价值。

    然而,现代社会已经不再是一个单纯的“PC+浏览器”的时代了。2013 年被很多人认为

    是移动互联网元年,之后这几年,用户接触互联网的方式快速地向“PC+手机+pad”的形式

    转移,互联网已经进入了多屏时代。在信息多元化时代,单纯运用 cookies 来识别用户

    行为的方式已经过时了。为了解决这一问题,企业开始使用一定的账号体系对用户进行

    设限,在各种场合提醒用户使用手机号注册或者用手机号来换取更多的权益,本质上就是

    希望能够在多屏时代把用户“认”出来。

    网络是一个自由开放的社会,很多用户可能会出于不同的目的去注册多个账号,如果

    简单从账户的角度去看的话,可能会被认为是多个用户;但是,从现实的角度来看的话,他又是实实在在的同一个人。在一般的场景下,有多个账号可能不会是什么特别的问题,但是一旦涉及反欺诈等需要识别到“人”的场景时,则必须要将之识别出来。所以,在这种

    场景下,识别用户的时候要对串联数据做灵活处理,比如一些隐秘的识别和串联数据——

    密码。密码不能让企业完全认定两个用户是同一个人,但是,当企业怀疑这两个账号是同

    一个人的话——他们的密码往往很类似或一样,由此可以判定这两个账号肯定是同一个人,为了方便很少人会给自己不同的账号设置不同的密码。当然,作为用户的你大可以放心,因为在大公司中你的密码都是被加密过的,没有人知道你真正的秘密是什么,对比密码的

    方式也仅仅只能是对加密后的一串字符做比较。

    在美国,另一项非常重要的数据——车牌号,也对用户的识别具有重大意义。据说,美国 FBI对人和车的跟踪是分开的,他们认为车牌号很重要,和人有着非常高的相关性,能串联起来用户的很多信息。

    如果你想知道日常生活中哪些是很有价值的识别和串联数据,那么可以回想一下你的

    银行卡丢失后,你打电话到银行卡中心时对方会问你的问题。一般来说,对方会问你“你

    哪天发工资”“你家里的固定电话号码是什么”等类似问题,而这一系列问题就是在把你的

    个人数据做一个识别和串联。因为在银行怀疑某个人是不是你的时候,生日、固定电话号

    码是有权重的。有可能在有了两三个这样的数据后,即使你没有密码,银行还是会相信你,为你重新办卡。

    我在运营数据的时候,经常观察这样的数据,有时候能够直接识别,有时候需要间接

    识别。电话号码、生日这些都是非常重要的数据,因此,我认为有些人把自己的生日放在

    社交网络上,是非常不妥的做法。

    所以,千万不要小看识别数据的价值,我的经验告诉我,能够辨别关系和身份的数据

    是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原

    用户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

    数据价值 2:描述价值还用 T 恤的例子来分析。你搜索 T 恤,搜索的是什么品牌、材质、尺码等类似的数

    据,而这些都是描述数据,可以用来刻画研究对象。研究对象可以是商品,可以是企业,可以是用户,而反过来,描述数据也可以帮助我们更好地理解研究对象。

    在网络上,我们经常会听到很多关于“好男友”标准的段子,比如“身高 170~180 厘米、体重 60~75 千克、月收入 5 000~10 000 元、不抽烟”等,这其实就是将“好男友”这样一

    个感性的指标数据化了,这里用到的数据就充当了描述研究对象的作用。

    在通常情况下,描述数据是以一种标签的形式存在的,它们是通过初步加工的一些数

    据,这也是数据从业者在日常生活中做的最为基础的工作。一家公司一年的营业收入、利

    润、净资产等数据都是描述性的数据。在电商平台类企业日常经营的状况下,描述业务的

    数据就包括成交额、成交用户数、网站的流量、网站详情页的流量、成交的卖家数等,我

    们就可以通过数据对业务的描述来观察交易活动是否正常。

    但是,对企业来说,数据的描述价值与业务目标的实现并不呈正比关系,也就是说,描述数据不是越多越好,而是应该收集和业务紧密相关的数据。比如一家兼有 PC 平台和

    移动平台业务的电子商务公司,在 PC 上可能更多地是关注成交额,而在移动平台上更多

    关注的应该是活跃用户数。

    描述数据对具体的业务人员来说,能够使其更好地了解业务发展的状况,让他们对日

    常业务有更加清楚的认知;对于管理层来说,经常关注业务数据也能够让他对企业发展有

    更好的了解,以作出明智的决策。

    描述数据最好的一种方式就是分析数据的框架。在复杂的数据中抽象出核心的点,让使用者能够在极短的时间里看到经营状况,同样,又能够让使用者看到更多他想看的细

    节数据。分析数据的框架是对一个数据分析师的基本要求——基于对数据的理解,对数据

    进行分类和有逻辑的展示。通常,一般优秀的数据分析师都具备非常好的数据框架分析能

    力。数据价值 3:时间价值

    如果你不是第一次在电商网站上买东西,你曾经的历史购买行为,就会呈现出时间价

    值。这些数据已经不仅仅是在描述 T 恤了,还展示出在这一时间轴上你曾经买过什么,以便让网站对你将要买什么做出最佳预测。

    在考虑了时间的维度之后,数据会产生更大的价值。对于时间的分析,在数据分析中

    是一个非常重要,但往往也比较有难度的部分。我们可以通过以下两个案例来做更好的分

    析。

    第一个案例是电商 A 首页的焦点图,是一个关于茶叶的广告,但这个广告并不是对

    每一个人都显示,对我显示的原因是我之前在电商 A 上买过茶叶。这个数据的价值就是

    广告系统通过对我历史数据的判断,将我识别成一个可能会买茶叶的人,并通过广告系统

    的内在竞价机制,将这一款茶叶推荐给了我。

    第二个案例是关于一个类目的演进路线,其中存在一些很有意思的现象。比如烘焙用

    品会有一个明显的演进路线,黄油、模具、芝士、包装盒等用品会随着烘焙产品周边产品

    数据分析

    实例的演进而不断呈现出新的需求。这就是在大数据的基础上,基于用户的时间来对产品的演

    进进行分析,以让消费者更加快捷地找到所需要的商品。

    大数据一个非常重要的作用就是,它能够基于大量历史数据进行分析,而时间则是代

    表历史的一个必然维度。数据的时间价值是大数据运用最直接的体现,通过对时间的分析,能够很好地归纳出一个用户对于一种场景的偏好。而知道了用户的偏好,企业对用户做出

    的商品推荐也就能够更加精准。

    时间价值除了体现历史的数据之外,还有一个价值是“即时”——互联网广告领域的实

    时竞价(RTB, Real Time Bidding),它是基于即时的一种运用。实时竞价就是当用户进

    入某一个场景之后,各家需求方平台(DSP, Demand Site Platform)就会来进行竞价,对

    用户现实场景进行数据推送。比如,用户正在浏览一个和化妆品有关的页面或者正在商场

    逛街,在这个场景中就会出现和化妆品有关的信息。这个化妆品的广告不是预先设置好的,而是在这个具体的场景中通过实时竞价出现的。

    数据价值 4:预测价值

    数据的预测价值分成两种。第一种是对于某一个单品进行预测。比如在电子商务中,凡是能够产生数据,能够用于推荐的,就都会产生预测价值。比如,推荐系统推荐了一款

    T 恤,它有多大的可能性被点击,这就是预测价值。预测价值本身没有什么价值,它只是

    在估计这个商品是有价值的,所以预测数据可以让你对未来可能出现的情况做好准备。推

    荐系统估计今天会有 10 个用户来买这件 T 恤,这就是预测。再问一个追加问题:“你有

    多大的信心今天能卖出 10 件 T 恤?”你说有 98%的可能性,那么这就是对未来的预判及

    准确度的预估。

    互联网的很多场景都会对单品的预测进行运用——在电商 A 中,哪些商品能主推,哪些商品不能主推,都是可以通过数据的预测价值来体现的。又比如电商 A的团购活动,每天有大量的卖家和商品想要报名上团购,那到底该如何进行选择呢?在这个过程中就要通过这个卖家和商品的历史数据,来预测它的某个商品是否能够卖到一定的交易额,如果

    能卖就能上,如果无法卖到一定的交易额,就不能上。

    预测价值的第二种价值就是数据对于经营状况的预测,即对公司的整体经营进行预

    测,并能够用预测的结论指导公司的经营策略。在今天的电商中,移动端是一个重要的

    部门,对于新的移动业务来说,核心指标之一就是每天的活跃用户数,而且这个指标也是

    对移动团队进行考核的重要依据。作为移动团队的负责人,到底怎么判断现在的经营状况

    和目标之间存在着多大的差距呢?这就需要对数据进行预测。通过预测,将活跃用户分成

    新增和留存两个指标,进而分析对目标的贡献度分别是多少,并分别对两个指标制定出相

    应的产品策略,然后分解目标,进行日常监控。这种类型的数据能够对公司整体的经营策

    略产生非常大的影响。

    数据价值 5:产出数据的价值

    从数据的价值来说,很多数据本身并没有特别的含义,但是在几个数据组合在一起或

    者对部分数据进行整合之后就产生了新的价值。

    在电商中,这样的场景很常见。比如,在电子商务开始初期,很多人都关注诚信问题,那么如何才能评价诚信呢?于是就产生了两个衍生指标:一个是好评率,一个是累积好评

    数。这两个指标,就是目前在电商平台的页面上经常看到的卖家的好评率和星钻级别,用

    户能够基于此了解这个卖家的历史经营状况和诚信状况。

    但是,仅以这两个指标来对卖家进行评价,会显得略微有些单薄,因为它们无法很精

    确地衡量出卖家的服务水平。于是,又衍生出更多的指标,比如与描述相符、物流速度等,这些指标最终变成了一个新的指标叫作店铺评分系统(DSR),可以用之来综合评价这个

    卖家的服务水平。

    当然,某个单一的商品在电商网站上可能会出现几千条评价,而评价中又是用户站在

    自己的立场描述的,但是推及到某个用户上,每次买一样东西都要阅读几千条评价显然是不太可能的,因此就需要把这些评价进行重新的定位,以产生出新的能够帮助用户做出明

    智购买决策的数据,这些数据就是关键概念的抽取。我们可以看看图 5-1,就知道怎样让

    评价的数据来产生新的数据了。

    图5-1 电子商务网站中会对用户购买行为产生影响的几大关键概念

    在认识了数据的分类和明确了数据的价值后,我们就能更好地识别出哪些是我们想要

    的核心数据,从而更好地发挥数据的作用。精细的数据分类、严格的数据生产加工过程,将让我们在使用数据时受益匪浅。数据化思考

    用傻瓜的视角去观察

    有一次,我在广东看舞狮子,突然有人跑来问我:“老师,中国有狮子吗?”是啊,中国并

    没有狮子。中国有老虎,没有狮子。在日常生活中,我们对石狮子和舞狮子已经司空见惯,所

    以并没有人会去考虑这样的问题。那么,中国是什么时候开始舞狮子和门口放石狮子的呢?于

    是,我到处去查证。

    事实上,换一种视角去观察,我们会避免理所当然的盲点。这让我想起微信创始人张小龙,他曾经说在做微信的时候,自己有一个秘密武器——他可以一下子把自己变成傻瓜,从傻瓜的

    角度去研究产品的设计方法。我们每一个人,即使是成天在嘴上说自己不聪明的人,多少会有

    些自恋,也会认为自己是聪明的。其实,许多惯性思维会让我们变成真正的傻瓜,因为你永远

    不会去思考“中国有没有狮子”这个问题,也不可能会设计一个自己才懂得如何使用的产品。

    比如,我给你一张白纸,命题的关键词是“贝壳”,你会很快速地把与命题相关的东西填满。

    这是因为从小老师就教我们背书,背得越快越好,谁快谁聪明——在这里,快速填满相关的东

    西就是聪明。

    如果我们从思考这个角度来讲,这种做法虽然看起来聪明,但其实很笨。因为从反向的角

    度来看,你填满得越快、越熟练,你或许会越快成为了一个只会复制的机器,最终失去自主思

    考的能力。

    有意思的是,如果我们用傻瓜的视角观察问题时,我们又应该用何种视角去做判断呢?此

    时,我的建议是不要以短期利益为重,眼光要放长远,利及众生。

    一个为了当前利益而与身边人斤斤计较的人,长此以往如何会有真正的朋友呢?这是我们

    经常会经历的事情,虽然视野的宽窄影响着帮助我们做出判断的信息,但决策时也不应该只以

    短期利益作为考虑标准。像傻瓜一样去观察,用利及他人的眼光去判断,用一句话总结来说就是:“大智若愚。先是

    若愚,后是大智。”

    在此,我举一个例子,我觉得“若愚”的意思就是:我知道“我不知道”。记得我的前老板,有

    一个习惯,他在提问前总会说:“我很笨,刚刚我没有听懂,你能够再重复一遍吗?”现实中,把自己放在一个很低的位置去提问,这是很聪明的做法,但这对于很多人来说其实很难做到,特别是在拥有一定的地位、一定的能力后,他们更不愿意去承认“我不知道”。但你要知道,只

    有你知道“我不知道”,才能理所当然地说:“对不起,我不懂,你能再重复一遍吗?”

    在我所在公司的高层里,还有一位非常聪明的人。有一次开会,某个同事在讲他的规划,说到一半,我们的 CEO 就打断了他说:“等等,你说的是什么?是说我们的服务器不够用,还

    是说有很多服务器不能用?”总之,后面会有一堆后续的问题等你解答,这让很多人觉得我们的

    CEO 是一个令人“讨厌的人”。但他坚持的理念是,让问题清晰的思路下去做执行,这是依托在

    非常仔细的观察和解答完所有疑问后才做决定的“傻瓜习惯”。

    另外,当我们看得长远以后,许多东西就公平了许多。同样的道理,在人生里,有大爱。

    学会帮助别人,你会发现,整个世界的时间仿佛都被拉长了,很多东西都变得公平了,而选择

    就变得容易了。06

    从用数据到养数据去,有一些问题一直困扰着我:“现在的企业获取数据如此容易,数据的增长速度

    如此之快,那么对于企业来说,到底要收集什么样的数据?收集多少数据?收集数

    据的边界在哪里?”后来,我在美国遇到一位高人,他认为,过去收集数据很难,而现在

    获取数据资源变得越来越容易,但是如果收集数据的出发点不是为了解决问题,那么收

    集再多的数据也没有什么意义。

    同时,许多企业还有一个疑问:“现在收集数据不难,成本也不高,为什么不先收集

    了数据再说呢?等以后需要数据来解决问题时,再拿出来用不是也可以吗?”这位高人同

    样也给出了这个问题的答案,他对此持否定观点,并指出用这样的理念来设计数据应用注

    定会失败。

    数据收集是没有边界的,我为此也痛苦了好一段日子,比如,收集一个人的生日,虽

    然可以精确到几分几秒,但这么精确的数据又能用在什么领域,又能产生什么价值呢?

    事实上,数据是有生命周期的。比如,某网站的母婴频道在主动收集用户的宝宝信息,包含宝宝生日、性别、小名、身高、体重,这里我们就要清楚这几个数据的用途和生命周

    期,如宝宝的身高和体重。图 6-1 就为我们展示了这几大内容。但是,妈妈们填写的是宝

    宝当前的数据,我们知道宝宝的身高、体重变化非常快,也就是说这两个数据的生命周期

    很短,在当时的推荐中可能有用,但过了一段时间后,这两个数据就失效了;而宝宝生日

    和性别这两个数据的生命周期就很长,可以从生日的年份中推算出宝宝的年龄,而性别则

    基本是终生稳定的。

    过图6-1 某电商母婴频道宝宝档案创建页

    保存数据及其收集时的背景,也是一件不容易的事情。还是以收集宝宝的年龄作为例

    子来阐述,我们可以通过用户购买特定的商品集合,如几段奶粉和尿不湿的型号等,知道

    宝宝所处的大概年龄段,以推算出宝宝当前的年龄。但如果仅仅是保存宝宝几岁这个数据,那么这个数据很快也会失效,因为人的年龄是在动态变化的。同时,你还需要保存宝宝几

    岁这个数据获得的时间,即在哪年哪月计算得知这个宝宝的年龄,而这个信息就是背景数

    据。另一种做法更加聪明一些,即通过宝宝现在的年龄反过来推算宝宝是什么时候出生的。

    所以说,在收集数据时,我们必须知道这些数据未来可以用来做什么,如果今天都想

    不出来的话,日后就更不可能了。如今很多电商高管会询问数据分析师商品的重复购买率是多少。于是,工作人员收集

    数据来计算重复购买率,却很少想到高管们需要重复购买率是来做什么决定的,这就好比

    “刻舟求剑”。事实上,在世事多变的大数据时代,我们不能只是机械地套用方法或指标。

    重复购买率有不同的定义,而做不同的决策需要考虑经过不同定义的重复购买率。如

    果一家投资公司想收购 A 公司,那么会从重复购买率来看 A 公司的运营良好程度或用户

    质量等;如果从 A 公司本身运营的角度来看重复购买率,那么它更应该关注的是日、周

    级别的重复购买率的变化趋势,或者当月新增客户有多少人在三个月后进行了重复购买,从而可以衡量出每个月新增及存量客户的忠诚度和质量,进而找出改善的空间。在知道了

    以上的背景之后,再去选择使用什么数据不是更有的放矢吗?

    数据应用因小而美

    “小”不是指数据量,而是指应用的目标很具体。

    2011年年底,作为一名数据分析师,我开始思考怎样从“用数据”转变为“养数据”(即

    从数据化运营转变为运营数据)。这段时间我为收集什么样的数据而特别烦恼,而且,我

    也曾经试图做出一个特别大且适合多数人使用的数据应用,可是后来发现这在数据应用的

    起步阶段几乎是不可能的:一是找到可以解决大部分人需求的数据应用并不容易;二是当

    时公司的数据非常丰富,需要考虑的因素很多,因素之间的联系又很复杂。

    所以,当开发数据应用的时候,数据就等于原材料;当原材料一直处于变化的情况下,做出来的产品就很容易出问题。体会到数据和应用的关系之后,我最后决定从小角度切入,先把小应用做出来,这就是很好的瞄准器。

    “小”不是指数据量,而是指应用的目标很具体。许多人在没有获取足够的数据,并且

    缺乏对数据理解的情况下做出决策,其实是在“享受”自己的无知。打个比方来说,对于一

    款数据应用,如果我的目的是分辨两种决策谁更好以及差异在哪里,这就是一个很具体的

    问题;但如果我的目标是想知道如何让公司赢利,这就是一个空泛的目标。经过这样的一番周折后,按照小角度切入的想法设计数据应用,就可以做得具体而快

    速,而且可以避免因原材料的变化而导致数据缺失的问题。

    把数据放进“框”中

    在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,要把数据放在一个“数据框架”(场景)

    中,才能看出存在的问题。

    为了把这个问题说得更明白,这里我拿一家电商公司找我讨论的问题来举例。

    A公司问我,要不要撤去导航网站的广告?因为它怀疑许多老客户是从导航网站访问

    官网,而不是直接访问官网。把这个问题说得再直白点,就是他们想弄清楚在导航做广告

    与公司业务之间的关系。那么,接下来就要观察用什么“数据框架”有助于其作出决策。

    1.公司当前的投入产出比

    ● 明确导航网站引进的新老用户占比如何?

    ● 引入的新老用户的投入产出比和转化率如何?

    ● 推断撤去导航网站,对流失新老用户的影响如何?

    数据分析

    实例2.与竞争对手的博弈

    有一个问题可能会被忽略,那就是你不做导航网站广告,你的对手就会立马投放此广

    告。做数据框架的时候,要特别注意框架不是静态的,而是存在博弈的,需要把竞争对手

    的因素考虑进来。

    3.考虑时间因素

    ● 用现在、过去和未来的眼光来审视导航网站,看看导航的质量是不是越来越好。

    ● 需要注意的是时间有延迟性,引进来的流量会有一些延迟,在两三个月后才能知道新用户的价值。

    总之,“数据框架”是商业分析师的灵魂所在,可以让其从框架中找寻问题的关键因素

    及答案。不同的问题有不同的框架,不能完全在此进行阐述。

    如何用框架来做决策

    想要解决的问题越复杂,框架也就越复杂。但是,决策最重要的前提是要从小角度切入,从“小”做起。

    对此,我总结了 4步走的方法:

    首先,确定有什么问题,从解决问题的角度出发去收集数据。

    其次,把收集到的数据整理好,放入一个“数据框架”内(这个框架是用来帮助决策者

    做决定的)。让决策者用框架更清楚地看到数据与决策之间的关系,比如 A 公司在框架

    内要知道竞争情况、新老客户的比例情况等因素以及多种因素之间的关系。再次,看框架与做决策的关系。比如,A公司与导航网站有 3 种选择——完全不合作、部分合作和全面合作。数据分析师就可以根据数据框架告知 A 公司该怎么决策。如果发

    现数据框架与决策不能匹配,就必须返回到第 2步。

    最后,根据决策行动,然后检查行动是否达到目的。如果行动后发现根本没有达到

    目的,就要检讨整个链条,寻找问题出在哪里。是数据有问题吗?还是因为框架不对?或

    者是决策不对?是否还有数据没考虑进去?

    所以,想要解决的问题越复杂,框架也就越复杂。对于现在多数还没有开始做数据应

    用的电商公司来说,框架一开始千万不要过于复杂,一定是要针对某个需要解决的具体问

    题开始搭建框架,令框架与决策紧密相关。所以,在搭建框架前问问自己:“我目前的问

    题是什么?我的决策是什么?我的框架又该怎样搭建?”虽然你的回答可能多种多样,但

    是,最重要的前提是要从小角度切入,从“小”做起。

    养数据,重要的数据战略

    “用数据”更多的是一种方法论,而“养数据”则是一种数据战略,是基于深入业务理解的更高层次的商业决策。

    “养数据”还有一个重要的含义,就是要决定收集哪些数据。这个决定不容忽视,因为

    这可能是公司数据战略中非常重要的一个环节。因为,很多公司的做法,是有什么数据就

    收集什么数据,完全没有主动性,但这样做遇到的一个核心问题就是,公司自主思考的能

    力开始缺失,对该收集什么样的数据不甚了解。事实上,在我看来,被动收集数据的行为

    是“收集”,而主动收集数据的行为则是“养数据”。再拿上面讲到的某电商母婴频道的例子

    来说,如果收集主体是一家医院,那么宝宝的姓名、性别、出生年月和妈妈的姓名等数据

    的收集,就是收集数据,因为在住院档案和出生证明上,这些都是必不可少的。但是,如

    果是母婴用品要针对家庭进行营销,那么这些信息显然是不够的,宝宝奶粉的品牌、家庭

    收入、职业等信息则需要企业自己主动去收集,而这些数据也就是“养”出来的数据。养数据通常有两类,一类是网站自身没有的数据,需要用户主动提供的;另一类是

    公司拥有的,但没有进行收集的数据。

    若要收集公司没有的数据,在“养数据”时通常需要花费更多的精力和技巧。举例来说,现在国内外有很多个性化的手机购物应用,他们会根据用户的偏好进行商品的推荐,让每

    个人都有完全不一样的购物体验。具体的运作原理是,当用户第一次使用这些应用时,界

    面中会弹出一些问题,通过互动的方式来收集用户的信息数据,比如会出几款衣服,让用

    户挑选哪一款是更喜欢的。这样,在几个问题之后,应用就知道用户的喜好了。这类应用

    通常还会有另外一个特点,就是会让用户点“赞”,这个点赞的功能,就是让用户明确地告

    诉应用自己喜欢什么,这样用户就可以在过程中,不断地告诉应用自己的偏好。这样一来,应用就可以“养”出用户的核心数据。

    对于公司有数据但没有收集的状况,则更多的是因为内部资源协调的问题和公司决策

    的问题。很多提供餐饮和团购类信息服务的网站,通常会有一个功能是“把信息通过短信

    发送到手机”,这样就不需要用户进行特别的记录,不过有些网站会记录用户的手机号,而有些网站则不会。那么,这些手机号需不需要企业保存下来呢?这就是一个与业务决定

    和资源协调相关的问题,如果决定是记录,则必然会需要开发人员在后台进行功能的优化,如果不记录,那就会丢失这部分信息。我的观 ......

您现在查看是摘要介绍页, 详见PDF附件(2190KB,251页)