1.用户画像平台该如何建设?
根据上一篇文章我们讲到用户画像其实就是用户的标签或者特征,首先要明确就是要完成标签的生产和加工,那么,涉及到的内容就包括数据的接入、清洗、和最后标签的加工入库。
👇整体流程如下:
(1)线上日志数据接入和处理
数据分层
(2)标签的加工和挖掘
a.标签加工根据标签的加工方式分为三类:事实类、统计类、算法类
事实类:主要是基于原始数据同步过来即可,比如:最后一次登录时间
统计类:在原始数据上做一些简单的统计规则,比如:最近一个月活跃天数
算法类:根据用户的行为和交易信息利用算法挖掘出来,比如:工作位置、家庭位置(根据gps信息采用聚类算法挖掘出来)
b.标签加工根据标签的时效性分为三类:离线(T+1)、准实时(T+H)、实时
(3)标签存储和应用
为了应对不同的应用场景,使用不同的数据库作为存储方案
(4)标签权限管控、标签字典、标签质量
标签权限管控:业务只能使用申请权限了的标签权限,标签权限配置存储在MySQL
标签字典:标签内容数据只存储字典枚举,而不实际存储实际内容(比如:性别标签男女存储为0、1)
标签质量:对于标签的数据质量进行监控、波动告警,包含:标签的覆盖率、标签分布的监控告警
2.用户画像建设过程中会用到哪些技术?
(1)大数据相关的一些技术
Java、MySQL、Python、Hive、Spark、Flink、HBase
(2)服务开发
rpc服务
(3)标签挖掘算法
聚类、逻辑回归等,Python、Spark
3.用户画像建设过程中会遇到哪些问题?
(1)降本增效大环境下,用户画像侧如何做好存储和计算性能优化?
a.KV存储采用Protobuf存储,Protobuf编码性能好且压缩比高。因为画像的数据类型一般比较固定、单值或者多值,对序列化反序列化性能以及数据压缩效果有较高要求
b.标签内容字典化
c.画像特征抽取自定义抽取,资源占用低
目前特征抽取主要有单特征抽取和批量特征抽取
单特征:优点,控制灵活。缺点,每个特征都会启动各自的拉取任务,执行效率低且耗费资源。
批量特征抽取:成本可控,但较依赖上游Hive 表数据
因此考虑自定义特征抽取方案,根据标签优先级策略配置抽取策略,既能做到成本可控又能做到满足时效性。
d.冷热数据分级存储
热数据考虑用更好的硬件设备进行存储(SSD、独立集群等)、冷数据考虑用一般的硬件设备进行存储(HHD、公共集群)
无论你将来进入什么行业,“用户画像分析”是永远绕不开的。它可以帮助企业更好地理解其当下以及未来的目标客户,方面企业提供更加精准的个性化产品、服务和营销信息。而谈到用户画像,那就绕不开——大数据!通过大数据的处理、存储、应用,才能帮助我们获取更精准的用户画像,定位到精准用户。
所以,学姐今天给大家带来的是该作者在蓝桥云课上的实战课程——《大数据:用户画像案例实战精讲》,无论你是计算机专业的大学生,还是对 Spark、Apache Doris、Apache Zeppelin 等大数据技术栈感兴趣的在职朋友,这门课程会非常适合你!
点击下方二维码
🔥直达课程主页学习🔥
同时,如果你是蓝桥云课的学习会员,那么,此课程你可以免费学!!
作为学习会员,除了能免费看云课的新课之外,你还将享受以下权益:
更多学习会员权益了解,请点击文末“阅读原文”
点击阅读原文
了解更多学习会员权益
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...