玩数据
日常工作中,我需要运用概率统计的基础知识,以及机器学习、深 6park.com度学习等人工智能算法,通过一则又一则复杂的公式、一次又一次烦琐 6park.com的计算,从大数据的海洋中萃取价值、获得认知、解决问题。 6park.com我相信很多理工科的学生应该和我一样,和电脑打交道的时间远远 6park.com超过和人打交道的时间。像我们这样以某项硬技能为生的人,有必要提 6park.com升自己的软技能吗? 6park.com我的答案是,很有必要。下面我就以目标管理和学习能力为例,带 6park.com你看看这两项软技能是怎么为理工科学生的工作赋能的。 6park.com2022年,有一则新闻在全网引发了热烈讨论,就是“新国标红绿灯 6park.com标准出台”。这款新方案中有三组红绿灯,对应三个方向,同时取消了 6park.com红绿灯的读秒倒计时。很多网友吐槽这种“九宫格”的设计过于复杂, 6park.com也有人对取消红绿灯的读秒倒计时提出质疑。后来是公安部发公告说: 6park.com你们都搞错了,这不是新方案;“九宫格”只是红绿灯特殊组合的一 6park.com种,仅适用于极少数复杂路口。 6park.com虽然“新国标红绿灯标准出台”是误读,但假设你是公安部交通管 6park.com理科学研究所的研究人员,或者第三方咨询机构的数据工程师,你会怎 6park.com 6park.com 6park.com么看待网络上对红绿灯新旧方案的讨论呢? 6park.com你肯定不能依据自己的喜好,拍脑袋下结论。你得有依据,依据就 6park.com是数据,下结论得靠数据分析。 6park.com具体怎么做?是去抽样调查,听听大众对新旧红绿灯方案的意见? 6park.com或者是去咨询专家,听听他们的意见?又或者是去调研一线交警的感 6park.com受? 6park.com都不是。这个讨论里,专家说了不算,大众吐槽也不算,一线交 6park.com警的感受也不重要。真正决定红绿灯方案好坏的,是十字路口通过的 6park.com效率,以及交通事故率。 6park.com 6park.com好,一旦明确红绿灯改版的目标是提高十字路口的通过效率、降低 6park.com交通事故率,你就知道接下来该怎么做了-随机对照试验啊,随机选几 6park.com个路口,部署新版红绿灯,比较在旧版和新版红绿灯下,通过效率和事 6park.com故率的变化,再进行相关性检验。 6park.com 6park.com如果新版红绿灯确实能提高通过效率、降低交通事故率,那么要不 6park.com 6park.com要全面实行新标准呢?这时候,问题的目标就变成提高投资回报率了- 6park.com缓解交通拥挤、减少交通事故带来的收益,能不能覆盖更换全部红绿灯 6park.com 6park.com的成本?是不是只更换重点路口的红绿灯产生的效益更高?那么应该选 6park.com哪些路口呢?······ 6park.com你发现了吗?在数据分析看似“硬核”的工作里,目标管理这项软 6park.com技能起到了非常重要的作用。没有正确的目标,你会再多硬技能,也只 6park.com能是在错误的道路上越走越远。 6park.com 6park.com在职业生涯一开始,你通常只是负责执行某项具体的任务。比如, 6park.com公司要计算复购率,你就要按照部门提出的要求采集数据、进行计算、 6park.com出报表。但如果你已经成长为一名资深数据工程师,你最核心的工作就 6park.com不是采集数据、进行计算,也不是出报表了,而应该是选择正确的数据 6park.com指标。 6park.com所以,在计算复购率之前,你至少要问自己两个问题。 6park.com 6park.com第一,复购率是不是公司、部门或者你最重要的目标? 6park.com在不同发展时期,公司、部门追求的目标是不一样的。比如在开拓 6park.com市场时期,提高流量和转化率是核心指标,因为要吸引更多新用户嘛。 6park.com同理,不同类型的公司,追求的目标也是不一样的。比如,如果公司是 6park.com卖婚纱的,提高复购率就不现实,总不能指望客户们不停地结婚吧?所 6park.com以你要考虑,从公司当前的发展情况看,复购率是不是你应该追求的指 6park.com标。 6park.com 6park.com第二,如果这是你应该追求的指标,复购率定在多少才是足够好 6park.com的? 6park.com所有工作都要有明确的可量化的目标,那么现阶段复购率达到多少 6park.com才是一个好目标呢?20%、50%,还是80%?这就和公司、产品的类型 6park.com密切相关。比如,在垂直电商和综合电商之间,在低频产品和高频产品 6park.com之间,复购率的差异会非常大。 6park.com这两个问题直接决定了你的工作方向和工作成果。在整个数据分析 6park.com行业,目标管理的产物经常被称为第一关键指标,或者目标函数。在人 6park.com 6park.com 6park.com工智能领域,那些首席数据科学家最主要的任务就是构建一个当下最 6park.com合适的目标函数。有了目标函数,整家公司或者整个数据部门才能开 6park.com始业务优化,才能通过数据指导决策。 6park.com今天我们都在讨论数字化,而数字化本质上就是从现实世界到数字 6park.com的一种映射。我认为拨开现实世界问题迷雾的,不是概率,不是统计, 6park.com不是公式,也不是计算,而是目标管理这项软技能,它搭建起了从现实 6park.com问题到概率统计的桥梁。 6park.com在找到核心目标后,影响数据分析质量优劣的,是你的学习能力。 6park.com这里说的学习能力,不仅仅是要掌握本领域、本行业的知识;事实 6park.com上,职场中判断一个人是优秀还是卓越的一项很重要的标准,是对常识 6park.com和逻辑的学习、应用。 6park.com举个例子。20世纪90年代,有一种“抚触疗法”,号称能通过控制 6park.com人的能量场来治疗疾病。具体做法是,治疗师将手悬停在患者身体上 6park.com方,然后闭上眼睛,发力,让能量从手掌喷涌而出,从而缓解患者的不 6park.com良症状。 6park.com这在当时引起了很大的争议。如果你是一名研究者,你会怎么证明 6park.com这种“运转能量”的治疗方法是一场骗局呢? 6park.com如果你能想到大规模的医学试验,说明你非常专业-大规模的随机 6park.com对照试验可以说是解决这类问题的唯一手段。但问题在于,要招募数百 6park.com名志愿者,对他们进行随机对照试验,再比较结果,工程量非常大。更 6park.com重要的是,治疗中的几项指标,比如精力提升、情绪变化等,评价的主 6park.com 6park.com观性很强,那么,你要如何设计试验方案,来剔除安慰剂效应造成的影 6park.com响呢? 6park.com这个看似烦琐的问题,被一个9岁的女孩艾米丽解决了-还在读小学 6park.com四年级的她通过一个小试验,揭穿了“抚触疗法”的骗局。两年后,11 6park.com岁的艾米丽在著名医学期刊《美国医学会杂志》上发表了她的成果论 6park.com文,继而她被吉尼斯世界纪录认定为在医学期刊上发表论文的最年轻的 6park.com人。 6park.com艾米丽没有找接受过“抚触疗法”的治疗对象,相反,她在两年间 6park.com找到了21名声称掌握“抚触疗法”的治疗师,并发起了一项试验。 6park.com首先,艾米丽用竖立的纸板将自己和那些治疗师隔开,保证彼此谁 6park.com也看不见谁。其次,纸板上有两个小洞,治疗师的左右手要分别盖在洞 6park.com口。然后,艾米丽会通过抛硬币的方式,决定把自已的手放在医生的左 6park.com手或者右手上方,并与其保持一个固定距离,让医生感知自己的能量场 6park.com是来自左手上方还是右手上方。 6park.com是不是很简单?这21个人通过280场独立测试来感知艾米丽的能量 6park.com场,结果正确率只有44%,和瞎猜的随机波动相似。 6park.com艾米丽在这起试验中使用的专业知识,随机对照、简单抽样、双盲 6park.com等,学过数据分析的人应该都知道。但它们都不是关键,试验的关键其 6park.com实是一条简单的逻辑推理:如果治疗师连病人的能量场都感知不到,就 6park.com不要谈控制和治疗了。 6park.com《美国医学会杂志》评论,他们被这起试验的简单性、结果的清晰 6park.com 6park.com性迷住了。这就是对常识和逻辑的灵活应用。 6park.com基于常识和逻辑的数据分析,在我们的工作中其实很常见。比如, 6park.com淘宝当初评价商家信用,用到的相关性最好的指标之一,不是很多人以 6park.com为的好评率,而是旺旺的活跃度。你想想,一个人如果对自己的客户有 6park.com问必答,不厌其烦地处理每一笔交易,那他的还款意愿和还款能力就没 6park.com有理由比其他人低。 6park.com再比如,美国一家数据分析公司分析大型超市和商场在某季度的销 6park.com售收入时,没有采用大规模调查的方式,去看上下游供应链数据、仓储 6park.com或信用卡消费记录之类的,而是去看停车场的卫星数据。原因很简单, 6park.com在美国这种“住在车上”的社会,通过停车场的卫星数据,看看商场停 6park.com车数量的变化,就能推断出大型超市和商场的经营状况。 6park.com你可以看到,通过对常识和逻辑的学习、应用,提升自己的洞察 6park.com力,也能在自己的专业领域做到四两拨千斤。 6park.com以上就是我对目标管理和学习能力这两项软技能的理解和分享。没 6park.com错,让数据工程师之间拉开差距的,不仅仅包括对统计方法的掌握程 6park.com度,还包括他们软技能的实力差异。毫不夸张地说,真正决定一名数据 6park.com工程师能走多远、走多高的,是他的软技能。 6park.com不仅仅是数据分析行业,绝大多数工作都是如此。很多时候,软技 6park.com能本身就是复杂问题的解决方案。 6park.com 6park.com 6park.com无论是哪一种硬技能,都有大学专业教育、职业教育等多层次的培 6park.com养路径,也有各类专业书可以学习。而软技能呢?
|