数年之后，我们还是止步数据仓库，不懂“用户画像”（上）

很多公司在大数据基础建设上投入很多，也做了不少报表，但业务部门觉得大数据和传统报表没什么区别，也没能体会大数据对业务有什么帮助和价值，究其原因，其实是“数据静止在数据仓库，是死的”。

而用户画像可以帮助大数据“走出”数据仓库，针对用户进行个性化推荐、精准营销、个性化服务等多样化服务，是大数据落地应用的一个重要方向。数据应用体系的层级划分如图所示：

标签类型

用户画像建模其实就是对用户“打标签”，从对用户打标签的方式来看，一般分为3种类型（如图1-3所示）：①统计类标签；②规则类标签；③机器学习挖掘类标签。

下面我们介绍这3种类型的标签的区别：

① 统计类标签

这类标签是最为基础也最为常见的标签类型，例如，对于某个用户来说，其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。

② 规则类标签

该类标签基于用户行为及确定的规则产生。例如，对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中，由于运营人员对业务更为熟悉，而数据人员对数据的结构、分布、特征更为熟悉，因此规则类标签的规则由运营人员和数据人员共同协商确定；

③ 机器学习挖掘类标签

该类标签通过机器学习挖掘产生，用于对用户的某些属性或某些行为进行预测判断。例如，根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。

在项目工程实践中，一般统计类和规则类的标签即可以满足应用需求，在开发中占有较大比例。机器学习挖掘类标签多用于预测场景，如判断用户性别、用户购买商品偏好、用户流失意向等。一般地，机器学习标签开发周期较长，开发成本较高，因此其开发所占比例较小。

在整个工程化方案中，系统依赖的基础设施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除去基础设施外，系统主体还包括Spark Streaming、ETL、产品端3个重要组成部分。

下方虚线框中为常见的数据仓库ETL加工流程，也就是将每日的业务数据、日志数据、埋点数据等经过ETL过程，加工到数据仓库对应的ODS层、DW层、DM层中。

中间的虚线框即为用户画像建模的主要环节，用户画像不是产生数据的源头，而是对基于数据仓库ODS层、DW层、DM层中与用户相关数据的二次建模加工。在ETL过程中将用户标签计算结果写入Hive，由于不同数据库有不同的应用场景，后续需要进一步将数据同步到MySQL、HBase、Elasticsearch等数据库中。

Hive：存储用户标签计算结果、用户人群计算结果、用户特征库计算结果。

MySQL：存储标签元数据，监控相关数据，导出到业务系统的数据。

HBase：存储线上接口实时调用类数据。

Elasticsearch：支持海量数据的实时查询分析，用于存储用户人群计算、用户群透视分析所需的用户标签数据（由于用户人群计算、用户群透视分析的条件转化成的SQL语句多条件嵌套较为复杂，使用Impala执行也需花费大量时间）。

用户标签数据在Hive中加工完成后，部分标签通过Sqoop同步到MySQL数据库，提供用于BI报表展示的数据、多维透视分析数据、圈人服务数据；另一部分标签同步到HBase数据库用于产品的线上个性化推荐。

本篇介绍了用户画像的标签类型和数据架构，下篇我们将分享开发主要覆盖模块及应用落地。

文章部分素材源自：《用户画像方法论与工程化解决方案》

展开阅读全文

页面更新：2024-04-29

标签：画像数年数据仓库用户虚线建模报表透视活跃规则机器加工标签人员业务

1 2 3 4 5

数年之后，我们还是止步数据仓库，不懂“用户画像”（上）

标签类型

回观2020 DevOps在中国深推开发运维一体化（下）

市值超过900亿美金，“数据云”何许人也？

2021达摩院十大科技趋势预测新鲜出炉

5月手机性价比排行榜，华为一个第一都没有，iQOO却拿了两个第一

红米10X售价1599元，5G手机价格再次下沉，这是跟华为杠上了？

100倍双目变焦，这次能拍月亮了吧，7988元起售的华为P40Pro+来了

麒麟990再爆新款，红外测体温，方便又实用，了解一下？

定价最便宜的5G手机，1699元华为畅享Z火爆来袭

三星，你可长点心吧。这次不会又凉了吧？

iQOO Z1，红米10X，荣耀X10会形成三足鼎立之势吗？

最薄5G手机来袭，看架势连华为拍照榜的第一也要易主了

天猫618强劲开局，苹果成交额再破记录，还是逃不过真香定律

这几款手机你真的不打算了解一下？虽说是4G，但是性价比是真的高

240Hz刷新屏，却搭配3130毫安电池，售价5200元合理吗？

144Hz超竞屏，5100mAh大电池+4800万高清四摄，2499你还等什么？

Incaseformat病毒致大批用户被格盘，速转发防护

爆拥有500万个用户，德国警方捣毁全球最大暗网市场

水下机器人天团来了！哈佛大学机器鱼登上Science子刊封

真真千里眼中科大潘建伟团队实现1.43千米外隔墙透视

水下10900米运动自如，浙大软体机器人成功挑战马里亚纳

每小时“搬砖”800块，最大化释放动力仓储机器势能

8小时洗200万条数据贝叶斯「数据清洗」机器人或将击

用户关注度最高的五个领域，你属于哪个？

碧桂园再闯机器人"蓝海"，为何传统企业都开始"不务正业"

小米用户的重大福利来了：手机坏了坐在家即可叫人上门维