云音乐舆情平台建设

背景介绍

通用舆情分析概念和局限

通用的舆情分析是指通过收集、整理和分析公众对某一特定话题或事件的言论、观点和情感，从而了解公众对该话题或事件的态度和情绪的方法。舆情分析可以通过监测社交媒体、新闻媒体、论坛、博客等渠道上的信息来获取公众的声音和反馈。

通用舆情分析的局限

通用的舆情分析由于数据来源广泛，内容格式宽泛，仅能基于特定主题进行情感分析或趋势分析，无法深入挖掘信息，这意味着企业可能无法获得关于产品的详细反馈和建议，无法了解消费者对产品的具体需求和改进方向。因此，为了满足企业内部对产品提升的需求，可能需要采用更专业、更定制化的舆情分析工具和方法，以便更全面、深入地了解消费者对产品的态度和期望。

云音乐舆情平台建设

1. 数据特征：数据来源丰富

云音乐舆情分析的数据来源不仅包括外部公众渠道上的信息（比如社交媒体、新闻、博客等），还有许多内部的数据来源，例如通过APP提交的反馈数据，在歌曲下方的评论数据，或者是通过七鱼客服人工反馈的数据等等。这些数据为精细化的舆情分析提供了基础。

这些数据具有如下特点：

相关性更高：反馈内容都与产品密切相关。
馈更加及时：反馈消息实时推送，具有高时效性。
更加结构化：除了反馈内容，还包括用户信息、设备信息、系统信息等。

2. 分析诉求：精细化分析诉求

云音乐的舆情分析平台与通用的舆情分析不同，它需要支持更多维度和更细致的分析能力，以满足不同业务和场景的监控需求。

聚类分析

云音乐拥有多个产品，每个产品都有各自的功能模块，而每个功能模块还可以进一步细分为子功能。可以将这种结构理解为每个产品都有一个功能树（聚类树）。聚类分析是指将舆情数据归类到聚类树上的某个具体的聚类节点，以便更好地了解用户对不同功能模块的态度和需求，从而针对性地进行改进和优化产品。

反馈类型分析

在确定舆情所属的功能模块之后，还需要进一步分析用户的反馈类型，不同的反馈类型需要不同的角色关注。包括：

问题反馈：反馈产品或功能问题，开发人员需要关注
产品建议：反馈产品或功能改进建议，产品经理需要关注
使用咨询：用户咨询产品的使用方法或者相关问题，客服需要关注
投诉举报：反馈产品或功能的不良问题或违规行为，合规人员需要关注

摘要提取

摘要提取是指提取舆情消息中的要点和关键信息。通过对原始消息进行提炼，摘要识别可以帮助用户快速了解舆情消息。另外，可以对大量舆情消息进行摘要分析，以便发现整体问题和趋势，并发现新的热点问题。

情感分析

情感分析类似于传统的舆情分析，主要是识别用户情感，包括正向、负向和中性。可以帮助我们了解用户对特定功能的态度和情绪，从而指导产品的改进和优化方向。

3. 智能监控：监控和报警

舆情监控和通用的监控系统存在一些区别：

有些渠道的舆情消息是定时爬取的，实时性要求不高
舆情消息量一般都比较大，一般是对整体趋势、热点问题的监控
舆情变化趋势是随机的，和内部产品和外部环境都有关系，没有特定的规律

这就要求平台制定更加智能的监控策略，当舆情消息超出预期时，可以通过短信、邮件等方式向指定人员发送报警通知，以便相关人员及时处理。

舆情流转链路

云音乐舆情平台更加专注于舆情数据的分析、洞察和监控，通过定义标准化的数据结构快速接入不同来源的数据，下面是核心的舆情流转链路：

舆情流转链路图

舆情数据来自第三方平台，包括：反馈平台，七鱼私信平台、大数据平台；上报支持包括MQ协议和http协议；输出原始舆情。

适配器：原始舆情先经过适配器处理，标准化各数据源模型结构，补充设备、产品等元数据信息。输出标准舆情。

分析器：对标准舆情进行内容分析，根据舆情所属空间，获取该空间的聚类树，并进行聚类分析、情感分析、意图分析、摘要分析、关键词分析。输出标准舆情+分析标。

存储器：将标准舆情和分析标存储到Elasticsearch，供后续在线查询和分析。

报警计算器：根据平台内的报警规则（系统报警+用户报警），判断当前舆情是否满足报警规则并触发报警。

在线查询&分析：查询、趋势分析、聚合分析等。

舆情大盘：发现热点事件、各分析维度的排行榜等。

舆情消息模型

平台数据来源渠道广泛，而且每个数据源都有独立的属性，既要支持针对每种渠道的精细化分析，也要支持在全局视角对多种渠道数据进行整体分析。为了解决这个问题，平台设计了通用的舆情消息模型，在数据接入层和产品展示层，都是面向这个数据模型进行设计，这样设计的好处有：

在数据接入层，可以快速接入新的数据源
在产品层，可以复用舆情查询、分析、报警等功能

舆情消息模型图

一条标准化的舆情消息有下面一些属性：

数据源

数据源是指舆情的数据来源，比如来自App的用户反馈，来自七鱼私信的客服对话等。平台会根据不同的数据源，在产品层做动态的功能展示。比如在舆情查询页，会根据数据源展示相应的属性，在报警配置页，会根据数据源展示相应的筛选条件。

基础属性

每种数据源都有一些基础属性。这些属性是在舆情上报时能够识别并携带上来的，例如用户信息、设备信息、App信息、操作系统信息等。平台支持按照所有基础属性做筛选、聚合分析，在报警的时候也可以按照所有基础属性做筛选，提供了灵活的查询和监控能力。

分析属性

除了基础属性，分析器（包括平台内置的分析器和用户自定义的分析器）还会为舆情添加额外的分析属性。不同的分析器会生成不同的分析属性，例如情感分析器会生成情感属性，聚类分析器会生成聚类属性等。和基础属性类似，所有分析属性都支持筛选、聚合分析。

扩展属性

支持业务方自定义一些扩展属性，以满足不同业务方差异化的查询和分析需求。

技术架构

技术架构图

数据接入：原始舆情数据，有来自反馈平台、七鱼平台、数据平台等；协议支持MQ和http协议。

处理层：

适配器：将各种来源的数据源整合成标准文档结构，并补充元数据：如产品、设备信息、用户信息等。
分析器：对舆情内容进行多维度分析，包括：聚类、情感、意图、关键词、摘要提取，分析之后会打上分析标

数据管理：数据管理主要是配置处理层的处理规则以及报警规则

分析&可视化层：提供对分析之后的舆情数据的查询和分析能力；

监控&报警：对接通用监控和统一报警实现舆情监控；同时提供定时分析和舆情洞察能力，提供舆情大盘和日报功能。

分析引擎

分析引擎负责对采集上来的数据做分析，生成对应的分析属性。平台会内置一些分析器，比如情感分析、聚类分析、反馈类型分析等。分析器的选择是灵活的，可以根据舆情的数据特征（数据源和基础属性）和分析需求，选择相应的一个或多个分析器进行分析处理。同时，平台也可以方便地添加自定义的分析器，以满足不同场景的分析需求。可以通过GPT提示词开发、SDK插件、服务接入等多个方式接入自定义的分析器。

分析引擎

内置分析器

平台内置的分析器都是基于GPT开发的，相比传统的机器学习、NLP等分析方法，使用GPT分析具有以下优势。

首先，GPT模型能够更好地理解和处理自然语言，在语义理解和文本生成方面表现出色，更好地理解语言的上下文和含义，从而析过程中能够更准确地捕捉到细微的语义差异。
其次，GPT不需要人工标注训练数据，根据需求调整提示词后即可立即生效。传统的机器学习和NLP方法通常需要大量标注数据来训练模型，需要耗费大量人力、机器和时间成本，无法满足快速变化的业务需求。
另外，GPT模型还能具有总结归纳、发现新问题的能力，而传统的机器学习和NLP方法则则无法完成这一任务。

GPT成本优化

与传统的机器学习、NLP等分析方法相比，GPT分析会产生费用，并且随着分析文本数量的增加，成本也会增长。在某些情况下，成本可能会很高，例如在进行聚类分析时，需要将聚类树和文本一起输入给GPT。然而，聚类树本身（包括节点和节点的描述）可能非常庞大，这将消耗大量的Token。平台也针对性的做了一些成本优化措施：

优化1 缓存

基于常见文本的分析结果缓存
基于文本+聚类树版本的分析结果缓存

优化2 精简聚类树

聚类分析场景中，聚类树本身消耗了大量的Token，可以在分析之前通过文本相似度算法先筛选出"可能归属" 的聚类，在分析的时候只需要分析这些聚类即可，这可以大大减少聚类树的大小，有效地降低分析成本。

在线查询&聚合分析

舆情消息经过分析引擎分析后会保存在 ElasticSearch 数据库中，以便支持实时地在线查询和分析。舆情查询页设计如下：

查询页

舆情查询

舆情查询的主要场景：在限定上下文中，查询和某个关键词相关的舆情。限定上下文支持全属性（包括基础属性和分析属性）；关键词也需要支持逻辑运算，通配符匹配等能力。

例如：查询用户反馈数据源、iphone端、负面情感的和『黑椒播放器』相关的舆情消息。

趋势分析

平台支持灵活的趋势分析能力。在给定查询条件后，您可以查看数据的变化趋势，并指定不同的聚合粒度。此外，平台还提供一些趋势指标，如平均值、最小值、最大值、P80和P95等数据，以满足不同的分析场景。

例如：在新建监控和报警时，希望根据历史的舆情数据趋势和指标，制定合理的报警阈值。

聚合分析

平台支持全属性的聚合分析能力。在给定查询条件后，平台会计算所有『可聚合维度』的分布情况，给出每个维度的不同取值的消息总数和占比。『可聚合维度』是根据当前搜索的数据源动态识别的，不同的数据源可以配置不同的聚合分析维度。

例如：查询某个时间范围内的Top聚类问题，或者分析和某个主题相关的所有舆情消息的情感分布、App版本分布等。

监控和报警

平台支持灵活的监控和报警策略。一条监控或报警规则包括3个部分：

1. 数据筛选

数据筛选指定了希望监控的舆情消息范围，支持全属性（基础属性和分析属性）的筛选，每个属性支持指定多个值。

例如：指定监控范围为：用户反馈数据源中，iphone端、改版相关、负面舆情。

数据筛选

2. 报警条件

平台支持常见的报警条件，例如检测周期、每次检测的时间范围，以及按照阈值、环比增长触发等。同时，平台对阈值的设定经过优化，可以根据历史数据的趋势指标来指定动态阈值。当趋势发生变化时，报警阈值也会相应地动态改变，以确保阈值始终与当前趋势匹配，从而更准确地反映问题。

报警条件

3. 报警接收

当满足报警条件后，会通知相关的接收方。支持指定接收人、IM群组，发送方式也支持IM、短信、电话、邮件等。

智能报警

舆情报警具有一定的特殊性，首先舆情消息本身数据量较大，数据有一定的滞后性，通常会关注整体的变化趋势，而且趋势会随着产品功能迭代和外部环境发生较大的变动。在这种场景下，报警的监控策略和阈值设置就难以确定，如果设置固定的报警阈值，很容易出现误报或者漏报的情况。如果都是靠人工定期维护报警，成本又会很高，而且及时性和有效性也难以保障。

针对这个问题，平台提供了一种智能报警的解决方案。平台会根据不同的监控场景自动创建报警规则，报警阈值是根据历史数据动态计算并定时刷新的。

例如，在聚类问题反馈类监控中，希望监控每个聚类的问题反馈情况，平台会为每个聚类创建一个智能报警规则，监控与该聚类相关且反馈类型是问题反馈的舆情数据。同时根据在该数据筛选条件下的历史的舆情趋势，动态计算阈值和环比增长值，以确保阈值和环比值与当前舆情趋势相匹配。为了保证阈值的时效性，平台还会定时刷新这个阈值。这样可以有效保证报警的有效性和时效性，同时不需要人工参与，大大降低了人工成本。

智能报警流程