做者介绍
@edanpython
前商业数据分析师,现 TMD 数据产品经理。面试
指望和数据小伙伴一块儿作些有意思的事情~正则表达式
01 什么是消费者洞察?session
随着社会的发展,中国消费者所处环境在变,消费观念也在变:你们从应付生活转变为经营生活、享受生活。在急剧变化的市场环境下,影响消费品牌成长的因素不少,其中深入理解消费者,并对消费者心理、行为变化作出及时的反应是关键的一环,这也就是一般你们所说的 “消费者洞察”。数据结构
咱们能够借用 Laddering 模型理解消费者洞察:“从产品属性、功能性利益、情感性利益、价值观等不一样层面来分析消费者的不一样层次的偏好和动机,了解赢得他们好感的因素”。框架
在互联网领域,消费者洞察(即用户调研)是产品工做中重要的一环。只有深刻理解用户的行为习惯及背后的的诉求,才能为用户带来好的用户体验。机器学习
一样在营销领域,消费者洞察也是全部营销动做的起点,产品定位环节须要挖掘目标群体在不一样场景的诉求,产品推广环节须要找到匹配消费诉求的沟通话术触达消费者,已经投入市场的产品须要经过口碑分析来诊断产品的健康度。ide
02 基于文本大数据的消费者观察学习
在互联网时代来临以前,消费者洞察基本都是经过问卷结合用户访谈的形式展开,这种形式的好处在于,想问什么就能够问什么。可是问题也很明显,样本量少,用户表达不必定真实。大数据
而在互联网时代,网上已经有大量消费者的表达,如微博、电商评论、论坛帖子(好比宝宝树),甚至是一些像医疗专业领域,也有如好大夫等问诊平台承载用户表达。这给消费者洞察提供了更优质的 “土地” :
1)样本量更大。不像过去问卷调研,几百个样本都已经很大,线上可供研究的消费者是亿级别;
2)场景更丰富。好比消费者用薯片来炒菜这样的场景,是很难在问卷中被问出来的;
3)表达更真实。不是被问题引导出来的回答,而是消费者本身说的。
因此围绕着线上文本展开的消费者洞察已被品牌方普遍承认。
03 从文本数据到洞察结果
下面以母婴行业的纸尿裤品类为例,给你们介绍介绍如何基于文本大数据作消费者洞察。
1)肯定目标群体,抓取相关数据
在纸尿裤市场,虽然用户是 0-3 岁的宝宝,但真正的消费者是妈妈群体,并且妈妈们从孕期开始就会关注纸尿裤,因此孕期妈妈到宝宝 1 岁的妈妈是咱们的目标分析用户。为了获取目标用户的线上言论,笔者经过爬虫技术从相应的母婴论坛去抓取妈妈们的数据,这些数据包括基础信息的数据、文本相关数据(帖子、问答)、妈妈关注关系的数据,以下图。
2)经过打标签,把文本数据结构化
好比 “花王纸尿裤实在有点厚”,这句话中包含 “花王纸尿裤”、“有点厚” 两个信息维度。如何提取这两个信息维度呢?因而笔者就构建了包含不一样维度信息的关键词词库,若是句子中有相应的关键词,那么这个句子就有对应的维度标签。
举个例子:假设已经构建好的词库中【纸尿裤品牌-花王】维度包含三个关键词:花王、kao、妙而舒。由于 “花王有点厚”、“kao 的纸尿裤有点厚”、“妙而舒有点厚” 这三句话都匹配上了花王维度中某个关键词,因此都包含花王品牌这个信息点。具体如何实操,下面咱们详细展开~
(1)构建词库
(a)经过专业信息初步搭建词库框架。好比构建纸尿裤领域的词库,能够先经过电商网站抓取商品相关的信息。如下是京东上能够抓取的帮宝适的品牌信息、功能特色信息。结合一些行业经验,笔者初步梳理出点词库框架,并将这些官方的表达做为初步的词库维度内容。
(b)应用 NLP 分词技术,对词库作扩展补充。随机选取必定量的文本,可采用 python 软件中的 jieba 包对每一个句子作分词。按照词频的顺序从高到低,把关键词放入到对应的维度中。已有的分类作关键词补充便可;若是没有的维度则添加新维度,造成相对完成的词库。
为了更灵活的适配消费者表达,能够采用正则表达式的模式替代普通的关键词。词库落地后的具体形式以下表,其中,tagname 表示词的维度名,keywords 是关键词的正则表达。
(c)人工抽查样本数据,审核词库覆盖率&准确率。随机抽取 1000 条文本,遍历看完每一条文本,并对其中没有命中的关键词作补充,匹配错的关键词作限定修改(小技巧:借助软件高亮已经匹配的词,可大大提高审核效率)。
覆盖率=文本中全部关键信息点被覆盖/抽查的文本数量;
某维度准确率=对应维度正确标注的文本数量/命中该维度的文本数量。
当覆盖率>90%,词库总体准确率>90%,便可将词库投入使用。
(2)经过词库对文本打标签;
写一个 python 小脚本,输入词库,输出打标后的数据。基本步骤以下:
输入文本文件 -> 基于必定的规则对每一个独立的文本作短句切分(好比按照句号/分号)-> 基于词库对每个短句作打标 -> 造成标签数据。
具体结果形式以下表(sessionid 即切分的短句 id),基于标签数据就能够作维度的交叉分析。
(3)情感识别
识别情感主要经过机器学习模型作情感分类。基于词库打标,已经能够从文本中捕捉出对应的「实体-特征」(好比「花王-透气」),咱们进一步抽取必定量的数据作情感人工标注(负面/正面/中性)。最后再交由模型去训练,并对更多的文本数据作情感预测。
3)数据分析
文本数据结构化后,笔者就能够对消费者进行挖掘分析。下面以品类市场的需求分析、品牌认知的差别分析为例子展开说明。
(1)品类市场的的需求分析
分析纸尿裤品类文本对不一样需求的说起量,和不一样需求的正向言论比例,能够发现 “红屁屁/过敏” 是如今消费者认为很是重要,且并无很好被知足的需求点。根据需求重要度、需求满意度两个公式,得出相应结果,以下图。
需求重要度=某需求的关注用户数/说起纸尿裤品类或品牌的用户数;
需求满意度=某需求的正向表达言论数/某需求的说起言论数。
(2)品牌认知的差别分析
从有品牌认知的消费者中看,不一样品牌的说起量具备显著差异(以下图)。
花王、好奇、帮宝适是最受关注的 TOP3 品牌,其中,好奇和第一名花王的差距很是小;
好奇的系列辨识度要远高于帮宝适,其中,帮宝适品牌中仅 3% 的用户会明确说起产品系列。
品牌关注度=说起某品牌的用户数/说起任意品牌的用户数。
从消费者的正面评价中不一样需求点的分布看,用户选择各品牌的缘由主要是(以下图):
「不红屁屁/过敏」「好用」是品牌都被消费者承认的点;
好奇更被消费者承认的是「不红屁屁/过敏」、「柔软」、「透气性」;
花王更被承认的是「产地」;
帮宝适更被承认的是「吸水性」、「价格」。
04 总结
本文的目的在于以案例的方式让你们理解如何经过文本数据进行消费者洞察,若是工做中有相关数据场景的可按照文章的思路进行基础实操。因篇幅有限,相关知识点没法更全面的为你们展开(好比,如何经过更多天然语言处理方法来高效构建词库),感兴趣的童鞋记得留言探讨哟~
一个数据人的自留地是一个助力数据人成长的你们庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提高技能。关注我,带你探索数据的神奇奥秘
一、回“数据产品”,获取<大厂数据产品面试题>
二、回“数据中台”,获取<大厂数据中台资料>
三、回“商业分析”,获取<大厂商业分析面试题>;
四、回“交个朋友”,进交流群,认识更多的数据小伙伴。