移动舆情分析 MMA(Mobile Media Analysis)做为 mPaaS 对移动端产品覆盖上是一个有力的补充,在需求、发布、分析、运营等阶段都发挥着不可或缺的做用。算法
• 需求阶段,辅助市场调研、竞品分析、产品决策。
• 发布阶段,监控新版本用户反馈,第一时间了解用户的新版使用感觉,收集需求;收集用户使用bug。
• 分析阶段,经过平台提供的指标趋势、事件分析功能,进行产品的监控和分析。
• 运营阶段,提供运营活动的传播效果和运营倾向监控。
复制代码
结合 mPaaS 的其余组件,可以更好地完成产品开发。下图为移动舆情分析(MMA)与 mPaaS 平台提供的功能在产品开发生命周期中发挥的做用示意图:sql
本文将从如下三个方面帮助你们了解移动舆情分析(MMA):数据库
• MMA 是如何诞生的
• 现阶段 MMA 都提供了哪些功能
• MMA 的技术架构是怎样的
复制代码
随着互联网的迅速发展,互联网已经成为了人们传播和获取各类信息的主要手段,天天都有大量舆情经过互联网进行传播,发酵,甚至构成舆情灾难。安全
网络舆情具有如下几个特征:服务器
一、信息量大,数据分析困难微信
二、传播速度快,人为监控难以及时发现、遏制网络
三、我的观点情绪化,容易一边倒,引起公信力危机架构
移动舆情分析(MMA)源于支付宝内部的 Anteye 舆情平台,对内服务了支付宝、蚂蚁财富、口碑、网上银行、AlipayHK 等重点产品在内的 100 多条业务线,及上千名阿里小二。并发
支付宝做为国民应用,天天在 App 内进行意见反馈的用户上万个,这上万条应用内反馈,包含了用户使用时遇到的问题,对体验的吐槽,以及用户辛苦写下的对产品的建议,为了让这些有价值的信息获得充分重视,更好地服务用户,因此诞生了 Anteye 舆情平台。框架
Anteye 致力于将各种反馈信息正确地分发给对应的角色,好比将产品问题按业务线分发给各业务 Owner,将有价值的用户体验的吐槽和产品建议分发给产品经理,将安全相关信息分发给安全同窗等,并支持在平台上进行反馈的处理,处理结果能够选择性的回复给提交反馈的用户。对应用内反馈数据的分发、处理,拉近了用户和产品开发人员的距离,帮助改进产品,提高用户体验。
用户除了在 App 内提交反馈,还可能在各大应用市场对 App 进行评分,发表使用感觉。因此后来接入了各大应用市场评论的数据,用于监控产品各版本在应用市场(部分应用市场等同于手机厂商)的评分表现,情感倾向和吐槽的话题。
后来 Anteye 增长了外部媒体舆情的采集、分析、监控能力。Anteye 关注的外部媒体主要分为三部分数据来源:微博、新闻媒体文章、微信公众号文章。对外部媒体舆情数据的分析,重点集中在负面事件的预警,以及重点事件的分析(趋势、情感、传播路径等)。预警机制帮助及时发现潜在舆情风险,争取到宝贵的处理时间,重点事件分析帮助了解事件从萌发到爆发的过程和重点渠道、链路。
MMA 将支付宝客户端反馈组件和 Anteye 舆情平台两部分融合成一个组件,提供了完整的数据采集、分析功能。
MMA(Mobile Media Analysis)经过采集应用内、应用市场反馈及外部媒体等内容,通过机器学习、天然语言处理等大数据技术,为企业的产品迭代升级、运营、营销、公关提供实时、有效的“舆情监控-分析-预警-处理”的闭环能力,帮助企业发现并追踪产品问题,收集产品建议,危机公关,辅助市场调研、产品营销与竞争分析。
舆情分析平台 MMA 做为蚂蚁金服移动开发平台 mPaaS 的组件之一,致力于帮助用户开发、运营出更好的移动端产品,因此主要解决的问题包含了两个方面:
一、来自使用者的反馈分析:
数据分类:
数据特色分析:
二、来自社会舆论的反馈分析:
数据分类:
数据特色分析:
下图为 MMA 主要针对的业务场景:
一、相较通常舆情平台,支持应用内反馈、应用市场评价这两个和 App 密切相关的数据来源
二、支持“舆情监控->分析->预警->处理”的完整闭环
三、支持公有云部署和私有云部署双重部署方式
四、历经多年打磨的适用于舆情分析的天然语言处理技术
mPaaS 移动舆情分析 (MMA)系统总共包含 3 个部分:
一、舆情分析平台:对数据进行分析,整合后进行数据显示、订阅和预警
二、客户端反馈组件:提供用户在客户端提交用户反馈的功能
三、爬虫系统:爬取应用市场、微博、新闻媒体等数据
下图为三个模块的关系图:
下图为系统总体的功能模块图:
舆情分析平台为 MMA 的核心组件,将客户端反馈组件和爬虫系统采集来的数据进行存储、清洗、算法打标、模型计算、数据整合分析后,将有效的信息展现给用户。整个流程以下图所示:
舆情分析平台将采集来的数据持久化到 Mysql 和 Mongo 数据库中,经过数据清洗模块进行数据的转换、垃圾过滤等清洗工做,而后转存入 Elasticsearch,以知足高效查询的要求。
算法服务主要对数据进行天然语言处理, 对数据进行更贴合人类使用习惯的打标,方便数据分析、统计。
首先经过垃圾过滤技术排除无效数据,而后根据数据的各自特色分别进行处理。对于应用内反馈和应用市场评论数据,平台基于其文本短、表述意图单一的特色,使用新话题发现技术,将数据按照话题的维度进行分类,使用短文本情感算法进行情感标注。对于外部媒体舆情,平台基于其文本较长、表述方法多样的特色,使用类似度计算和文本聚类等算法,将同一事件的相关舆情筛选出来,同时使用长文本情感算法进行情感标注。
简单罗列上述提到的相关技术采用的基础算法:
以上相关算法,如感兴趣可自行查阅相关资料,MMA 虽在通用算法基础上作了特殊化处理,但基本原理不变。下面咱们主要介绍下短文本情感和**长文本情感****算法:
短文本通常表述的核心主题只有一个,因此只须要抓住核心词和核心情感词进行情感判断便可。MMA 平台的短文本情感算法经过构建情感极性词典(包含积极、消极、中性等情感词),结合语句的否认、反问等语义解析,造成情感公式去判断文本的情感偏向。该过程的难点在于情感词典需足够丰富、准确,及情感公式中权重系数的选择。
长文本在表达方式、中心思想上可能都比较复杂,核心词多是多个,每一个核心词对应的情感偏向也不同,因此短文本情感算法不适用。MMA 平台使用基于 Tensorflow 深度学习框架的 LSTM(Long short-term memory)长短时间记忆神经网络,训练大量的外部媒体舆情信息,进行情感的预测。首先进行数据清洗,去除垃圾文本和文本中的特殊符号、表情符号等,而后经过 Word2vector 模型转换为词向量,再经过截断或者补全的方式转换为等长的句子序列做为 LSTM 的输入进行训练,最后使用训练后的模型进行情感预测。该过程的难点在于数据清洗、模型的选取和模型调参,这里再也不展开讨论。
数据计算模块经过使用自定义的评分模型完成对单条数据的评分度量,经过自定义的热度模型实现对单个事件的热度度量,经过预置的规则或者用户定义的预警规则实现舆情预警。
舆情分析平台按照数据类型进行指标展现,其中应用内反馈和应用市场评论数据,主要按照话题、情感、数量等维度进行趋势、分布分析;而外部媒体舆情以事件为切入点,分析该事件的热度、情感、重点原声、传播等。
客户端反馈组件自带了一套集反馈收集、展现、处理完整流程的反馈模块,以便于用户从零开始快速构建应用内反馈的舆情分析体系。
若是客户 App 已经自带了反馈模块,MMA 也提供了接口来接收现有反馈模块收集的数据,从而快速使用 MMA 的舆情分析功能。
内容采集系统采用分布式架构,将各重要功能服务化,提升系统的稳定性、扩展性和吞吐率。用户只须要进行简单的配置,便可完成数据采集功能。
调度中心会定时读取规则库,将须要采集的配置和微博更新的配置放入消息中心 MQ 中,采集服务和解析存储服务会持续监听 MQ,各自取出对应任务进行处理,最后将结果存入数据库中。监控中心负责整个系统的稳定性监控,采集数据的变化监控和新规则的配置。
采集服务支持基于 HttpClient 的同步请求获取和基于 Phantomjs 的 HTML 页面异步渲染结果获取,且为了应对反采集策略,支持 IP 代理,帐号、Cookie 的切换。该服务对所在服务器的带宽要求较高。 采集服务和解析存储服务都支持横向扩展,能够经过简单的添加机器知足业务快速增加的需求。
本文重点讲解了 mPaaS 移动舆情分析(MMA)在“舆情分析平台”、“客户端反馈组件”、“内容采集系统”三个方面的具体架构设计。同时 MMA 也在开发更多可以帮助用户更快发现、解决问题的功能,好比当前在研发中的基于日志分析的舆情问题快速定位功能:用户在应用内作了反馈,若是平台断定为是系统 bug,则会触发日志管理平台拉取用户设备日志,分析反馈上报期间的日志,并结合分析用户当时的网络情况、手机情况,快速给出该系统 bug 的可能缘由。
在产品整合上,移动舆情分析产品一样支持和 mPaaS 产品体系以及企业内部系统实现深度打通与整合。
首先,舆情产品能够直接和 mPaaS 体系中的研发协同平台对接,由后者缺陷管理模块处理舆情问题并同步结果给舆情平台。其次,舆情产品还能够和智能投放产品结合,在投放前,经过舆情分析产品分析目标受众,使投放过程更具备针对性,在投放后,又可经过舆情产品监控活动在全网的传播状况。相似地,舆情分析也能够和企业内部的办公系统、营销系统等实现打通。
若是你对 mPaaS 移动舆情分析(MMA)感兴趣,欢迎进一步交流。
往期阅读
《蚂蚁金服 mPaaS 服务端核心组件体系概述:移动 API 网关 MGS》
《蚂蚁金服 mPaaS 服务端核心组件:亿级并发下的移动端到端网络接入架构解析》
《mPaaS 服务端核心组件:消息推送 MPS 架构及流程设计》
钉钉群:经过钉钉搜索群号“23124039”
期待你的加入~