寒冬被裁，看小白如何逆袭拿名厂推荐策略offer（下）

时间 2020-08-30

原文原文链接

是新朋友吗？记得先点蓝字关注我哦～面试

hi，你们好，这里是有温度的pm——小诺。
今天我来为你们讲述那场面试准备的后半部分，同时也会简单讲述那场面试的通过。
下篇包括：
引言
6、推荐策略和算法
7、AB测试实验设计和策略效果
8、数据指标、标签可视化
9、运营分析与迭代
10、面试通过
结语算法

引言

首先咱们来看三道逻辑推理题，这是18年我参加x狗搜索产品pm面试时，一面的笔试题。数据结构

1.屋外三个开关控制三个灯，只有进屋才能看到灯泡亮灭状况，如何只进屋一次，肯定开关控制状况。
2.两个10升的试瓶中分别盛装了5升蓝墨水与红墨水。用一个5毫升的勺从红墨水试瓶中舀出5毫升的红墨水，将其到入到蓝墨水试瓶中，搅拌后再出蓝墨水试瓶中舀出5毫升的墨水，将其到入到红墨水试瓶中。问:红墨水试瓶含蓝墨水多，仍是蓝墨水试瓶含红墨水多？
3.有3顶红帽子，2顶黄帽子。测试人员共3位。裁判让3我的从矮到高纵向站成一一队，给他们每一个人头上戴一顶帽子。
每一个人都看不见本身戴的帽子的颜色，却只能看见站在前面那些人的帽子颜色。
裁判问最后一位:“你是否知道本身带的帽子的颜色?”回答:“不知道”。
而后问中间这位一样问题，回答仍然是不知道。
最后问最前面的那位，这位说:“知道”。
(注：全部的问答，3位测试人员都能听见)
问:最前面这位所带帽子颜色是什么，为何?架构

机智的你，来解答一下呗，欢迎在留言区评论~app

6、推荐策略和算法

当咱们有了标签体系，采集到了用户的数据，咱们要从这些数据中“读”出有用信息从而为用户打上标签，这里会涉及到数据挖掘，天然语言处理，语义理解，机器学习等技术。机器学习

分词方法
好比一个用户看了一篇新闻发表了一个评论，咱们想要了解他说了什么，提取出对咱们有用的信息。
这里就涉及到了分词技术，好比“若是真是计算机就行了”这句话。说几种比较简单的分词方法，好比按照字典分词，字典一般采用前缀树或者后缀树的数据结构存储，进行正向最大匹配。以上面的为例“如”后跟“果”，“若是”是一个词语，再看第三个字“若是真”不是一个词，继续向下，发现都不是一个词组，那么就在“若是”这里进行切分。“计算”是一个词，继续向下“计算机”也是一个词语，“计算机就”不是一个词语，再往下发现到最后依然组不成词组，那么在“计算机”这里切分。
以上句子存在的交集型歧义也须要解决，“若是”和“果然”都是词语，语义理解时计算机语言读懂句子用到的是“若是”而不是“果然”。这里还有一种分词方法是基于统计的分词方法，即咱们常说的贝叶斯分词，即经过大量语料积累进行机器学习，统计出一个字后面跟另外一个字的几率，从而进行分词。ide

语义理解
语义理解中还要进行情感的理解，以及逻辑推理。情感理解，举个例子，若是是在ota上定了一个旅店，住了一晚而后给出了评价，比较明显的情感评价是“环境太好了”“热水器真糟糕”。
不易发现的情感如“提供了早餐”，其实咱们能够看出提供早餐是用户的褒义评价，但可能通常的算法读不出来。
再好比若是网购的地址填写的是学生宿舍，那么算法也须要大量学习，进行推理，从收货地址是学生宿舍推理出用户是学生，这就像百度的知识图谱。工具

用户画像
接下来我想聊一下用户画像的几个分类，好比基本信息，如姓名，性别，年龄，生日，星座，设备号，职业，学历，手机号，邮箱等。这类特征是能够长时间不进行更新的，比较固定。
但对于这个新闻app有个问题，好比对于社交软件，用户乐于填写我的信息，但对于新闻app，可能100人，有30我的填写了信息，另外70我的不去填写。这里咱们为了给这70个用户打标签，就须要用这30我的作为样本集，进行学习。好比经过学习，了解男性用户和女性用户的特色有什么不一样，好比男性用户早晨更喜欢看时事新闻，晚上喜欢看玄幻小说，女性用户早上喜欢看娱乐热点，晚上喜欢看言情小说。经过得出的这些特征，进行“标签扩散”，为那70个未填写性别信息的用户打上性别标签。学习

接下来咱们说一下兴趣爱好和行为特征，这类标签是常常变化的，具备时期时效性。好比咱们为了知道一个用户对哪类新闻感兴趣，设计了一个打分加权模型，每点一个分类的新闻就加一分，线性增加。好比用户30天点了156次军事新闻，就156分，点了45次历史文章历史就是45分，咱们能够看出用户最喜欢看的是军事，其次是历史。因而咱们主要给他推荐军事，其次是历史。
但这里有个问题，若是某一天开始，用户开始对娱乐新闻感兴趣了，即他目前更想看的是娱乐新闻，但由于历史数据积累军事新闻权重过高，短时间内算法没法推送娱乐新闻给他，那么线性打分模型是不合适的。
我想这里能够采用指数模型，好比对某个类别的兴趣权重满分是10分，前9次每次1分，第10次开始每次在以前基础上，加9*10的-（n-9）次方，第10次就是9.9，第11次点击军事就是9.99，以此类推，让权重不断逼近10。固然咱们还要经过其余特征调整权重，好比打开频率，如三天看1次军事的，仍是一小时看3次军事的。这样当用户开始对新的类别感兴趣的时候，能够更快的获得推荐。测试

经常使用算法
这里咱们来讲一下推荐算法。首先咱们会把用户和新闻分别标签化，来说一下协同。
好比甲用户喜欢军事和娱乐，乙用户喜欢科技和文学。甲乙用户标签化后类似度很高，达到了必定阈值，那么咱们能够认为乙用户喜欢的分类，甲用户可能也喜欢，因而咱们把科技和文学推荐给了甲用户。这是基于用户的协同。
若是甲喜欢a文章，a和b文章标签化后类似度很高，那么咱们猜想甲也会喜欢b文章。
若是有甲乙丙三个用户，甲乙喜欢a文章也会喜欢b文章，丙喜欢a文章，那么咱们根据“全部喜欢a文章的用户都会喜欢b文章”能够猜想丙用户也会喜欢b文章。

基于类似度的推荐涉及到一个公式，这个公式来源于搜索引擎，由于搜索引擎的查询系统要根据用户输入的关键词对抓取到的网页按照相关度进行排序，从而展示在用户面前。这个模型就是向量空间模型，余弦类似度公式。
咱们给用户打上不一样的标签，分配不一样的权重，好比abc三个标签，权重分别是λ1λ2λ3。每一个标签量化到一个坐标轴，这样咱们在一个三维坐标系能够惟一肯定一个向量。同时咱们把众多的新闻也进行向量化，得出和用户标签向量的类似度，推荐排序按照类似度从高到底排序。就实现了推荐。
但这里也会有一些常见问题，好比若是咱们标签打的不少，也就是向量维度不少，其中有一些维度就由于数据空白太多而影响准确性。好比若是“转发”是一个维度，100个用户只有5我的转发，那么在转发这个维度上只有5我的有数值，其余95我的此维度就会被置为空，若是这种维度过多，就影响类似度计算。
面对这样的状况，我认为是否能够把这样的标签不单独设置维度，而是以加权的形式加到前面维度的权重上，从而解决这个问题。

一些思考
这里还有一个问题在于，好比仍是在旅店，甲旅店评价标签是环境好5分，设施齐全5分，有早餐3分。乙旅店环境好5分，设施齐全5分。咱们显然知道甲旅店更好一些，由于甲旅店还提供早餐，虽然不是5分满分，但多了一个服务。可是若是按照打分模型给标签分配不一样的权重，由于早餐这个标签甲旅店不是5分满分，因此总评分反而没有乙旅店高。会存在这样的例子，因此甲乙旅店标签可能须要进行统一化。

最后咱们来讲一下地理信息，好比个人常驻地是北京，app天天给我推荐北京本地的新闻，有天我去威海旅游了，那么app本地新闻的版块应当作到灵敏反应。

再来谈一下高级标签的模型搭建，好比用户流失模型，是一天登一次，三天登一次，一周不登一次，一个月不登一次等等，划分abcd等流失级别。以及活跃度等标签。这种模型更常见的是天气预报app，里面的穿衣指数，洗车指数就经过构建模型创建。

7、AB测试实验设计和策略效果

ab测试
当咱们设计了一个策略方案，咱们须要分组来测试效果。
好比咱们针对通勤场景，从用户角度出发，感受在有线环境下，与无线环境相比，用户更少点击视频或者纯图的资讯。
所以咱们提出假设，设计策略，即在有线环境下，减小信息流上视频和纯图资讯的比例。
将同质用户分组，控制惟一变量，对照组为目前状况，实验组几组分别在有线状况下，减小视频和纯图资讯30%，40%，50%，60%，70%。
同时咱们要多加一组和对照组相同的组，进行aa测试，以保证没有其余因素带来天然波动。后期看数据时方便查看。
效果思考
咱们设计好了标签体系，为用户进行了画像，还作了新闻推荐，那么咱们的标签打的如何呢？须要进行评估，评估的话就涉及到了量化的指标。
好比咱们在一批同质同标签用户中，给其中一部分推送他们喜好的新闻。咱们来看他们的点击次数和浏览时长是否相对另外一组用户要大。若是大，可能咱们的标签体系就建设的不错。
分析思考
若是一个用户咱们断定他喜好娱乐-国内-xx明星，咱们推送了这个明星的另外一篇报道给他。他点进去没怎么看就出来了，这必定是咱们标签打错了吗？
我认为不必定，可能他前面看的文章和推荐文章内容类似，也可能前面看的文章内容篇幅高度文笔都高于后一篇。那么若是咱们推荐一篇和他看过的文章内容不一样，质量至关的他感兴趣的明星的文章，他依然点进去就出来，会是什么缘由呢？我认为可能会是观点相反，好比第一篇文章是褒奖此明星的，推荐的是抨击该明星的，因此用户跳出。

这里我认为文章应该有分级机制，好比分一类二类三类，我从面试官处了解到公司确实有。我继续问好比同一篇文章是否只有一个通用级别，仍是说它是军事一类，同时属于历史三类文章。面试官说是通用的，尚未细分。
同时这里也会有个问题，就是没有做者喜欢本身的文章被分级，而是喜欢让更多的用户看到。
还有目前在内容标签体系中也会存在内容交叉的问题，好比军事下面的历史和历史下面的军事，这也是须要解决的问题。

同时关于内容标签体系的创建，我认为像我开始说到的，关键词提取和标签体系分开。结构化标签和非结构化标签合做。
提取文中能表明本文内容的关键词，这里我来讲一下搜索引擎中的一个tf-idf加权技术，这个技术说的是，若是一个词语再本文中出现的越多，在其余文章中出现的越少，则这个词语具备很好的表明性。tf是这个词语在本文中出现的频率，好比分词后本文有100个词，产品经理出现了5次，则5/100获得的0.05就是词频。
我认为内容标签关键词体系的设计，除了产品，算法，同时也须要运营支持，采用机器+人工的方式。

8、数据指标、标签可视化

上面有谈到数据指标体系建设，按照业务线分开，按照高低优区间分开。
接下来应当按照查看要求，用合适的图形绘制，好比若是是看数据的趋势能够用点线图，若是要看数据占比能够用扇形图，若是要看数据离散程度同时为数据拟合作基础，能够用散点图。咱们把每一个须要的指标图形绘制出来。
而后咱们须要了解业务上的目标或者咱们的目的，再按照用户的业务逻辑或者分析逻辑进行组合。
好比负责vip商户的部门想看上个月每一个城市vip商户的销售额和毛利。咱们能够用柱状图横向列出各城市的销售额和毛利，上面用扇形图集合分布展现，好比用扇形图的面积表明销售额，面积越大销售额越大，用颜色深浅表明毛利的大小，颜色越深毛利越多。
若是a和b两个城市扇形图面积差很少大，可是a城颜色更深，那么咱们须要进一步分析a城毛利高的缘由，从而指导b城盈利。因而咱们下钻到下层页面，下层页面能够具体显示ab两城米面粮油四个品类的毛利，咱们举例简单点，好比经过对照，发现米面粮ab两城毛利差很少，油这个品类a明显高于b，那么业务人员能够定位到是那个品类的问题，再从也许场景去找到根本缘由。

关于指标和标签我认为应该根据实际状况组合或者分开设计。好比能够把报表，图形，运营工具，标签画像，接口分开。
当咱们的原型图设计好后能够找需求方确认，并邀请研发，业务一块儿开评审会，确认没问题后开发测试上线。
从本质上来讲作产品的过程都是发现问题——分析问题——给出方案——落实方案——评估迭代。
但数据产品经理和其余产品经理仍是有些区别的，好比通常的产品可能更注重交互，页面美观度，用户感知等。但数据产品更注重逻辑。再好比普通产品若是有问题或者bug若是不是特别紧急能够放在下一版本解决，可是数据产品一旦有问题，须要马上解决从而保证数据准确性。
但不管如何咱们都要考虑，用户是谁，他们有什么特色，产品价值有多大，目前的知足程度。同时考虑成本与收益的关系，好比考虑人力成本，资源成本，沉没成本，用户成本等。

当产品开发后，咱们能够先为部分用户开放权限进行内测，好比跑一周的数据若是没有问题再进行公测。同时这里应该也要作好用户权限的设计管控，能够把用户岗位职级——系统模块角色——具体模块三者联系起来，让不一样部门不一样职级不一样职责的用户看到不一样的内容。

若是有数据质疑须要排查。能够分为三步:对口径，查代码，导明细。
好比一个业务人员说在业务系统看到a指标的数值和bi系统上的不同。那么咱们首先要肯定数据源和指标口径统计方式是否相同。通常第一步能够解决绝大多数的问题。
若是第一步不行，咱们能够叫两个系统的研发对代码，看是否代码有问题，是否用的不是一个数据表。
若是第二步依然不行，咱们能够导出两个系统指标的明细数据进行核查。

9、运营分析与迭代

在运营中咱们可能须要经过分析来发现问题。好比能够经过指标逻辑，好比看到销售额暴跌，影响销售额的子指标是下单商户数和客单价，而后再分析这俩指标，按照指标逻辑看看哪里出了问题。
也能够按照aarrr模型（获取，激活，留存，支付，分享）或者漏斗模型（访问，抵达，浏览，咨询，收藏，下单，支付）或者用户操做路径等模型一个个环节分析。
还能够按照业务场景分析，好比采购，运送，仓储，分拣，配送，售后等环节一步步分析。

再好比有个问题，说一家商场中天天的总营业额都差很少，某一天其中一家商店的营业额骤降，商场总得营业额仍是差很少。
那么咱们首先应该了解这个商店往日占到商场总营业额的比例，若是比例较高，则表示可能客户流失到其余商店，因此致使商场营业额不变而此商店骤降。
若是此商店比例较小，不对商场有什么影响。那么咱们考虑内外部因素，外部因素好比受到某个事件影响。
内部因素可从客户体验流程分析，好比商店是否装修，服务是否下降，货品是否过时或缺失，价格是否升高等等。
问题都须要在运营中发现，用户的增加也须要运营去针对性的作精细化运营。

10、面试通过

那日下午，我去参加面试，那是我第一次应试策略岗位，面试官是个很年轻的大哥，后来成了个人领导，入职后才知道他也是从那家搜索大厂出来的。
面试开始，他先让我作自我介绍，再介绍下以往的经历和作过的项目。而后问到我在那家搜索大厂的经历，虽然当时我作的不是核心策略，可是懂不少的策略知识，我当时也写在了简历上。他以为个人经历不是很匹配，但看到我简历上所写，就让我说说本身知道的知识，以及若是让我作新闻资讯的画像和推荐我要怎么作。简而言之，就是作一场产品思路的陈述。
我以为这是个机会，就把前文中提早学到的知识，串起来在面试官面前一步步讲解，说出本身的思考和想法。后来面试官问了几个发散的问题。持续了一个小时，再后来涉及到了算法，因而喊了算法工程师来面我，
算法工程师问了我对一些算法的基础了解，以及说出一些算法面临的问题该如何调优，让我发散性的考虑下，我作了陈述。又过了半小时，就是hr的面试。一周后我收到了offer。

对于此次经历，我总结一下吧。我是个普通高校的毕业生，由于大厂对作策略的门槛比较高，要么有经验，要么本科985 211或者硕士毕业，因此以前我会被一些大厂卡。
当决定必定要向本身热爱的策略努力的时候，我先本身买书学习，在网站上看文章学习，而后作笔记，每次面试前都会过一遍笔记，直到本身能够把那些内容背出来。我也买了一块白板，当本身的一块知识有了架构后，给我作研发的朋友试讲一次，让他也能听懂。表示我掌握了。
我深知策略须要很强的实践，只有实践才能有经验，那些策略的结果和数据，不是看书或者想象就能获得的。但在没有入行以前，咱们惟有不停的学习，拓展知识面，扩充知识储备。等待每一次面试机会的来临。
入职后，个人老板也挺喜欢我，带我一块儿作了一些策略，我终于转方向成功了。
以上所有就是我此次面试的通过和所作的准备，但愿对你们有用。

结语

春已至，生活虽是曲折前进的，但每一个追求梦想的产品人，都在深情的坚持着。
我走过不少路，才有机会和尽是硕士海龟的同事们坐在一块儿办公。
我相信执着过才知道机会的难能难得，祝你们都能作到本身喜欢的方向。

这里是
一个数据人的自留地。
一个有温度的产品社区。

一个数据人的自留地是一个助力数据人成长的你们庭，帮助对数据感兴趣的伙伴们明确学习方向、精准提高技能。扫码关注我，带你探索数据的神奇奥秘