⽤户画像第⼀章(企业级360°全⽅位⽤户画像_项⽬安排:)企业级360°全⽅位⽤户画像 项⽬安排:
企业级360°全⽅位⽤户画像
⼀、⽤户画像概念、设计构建⽤户画像及项⽬演⽰说明 -2天
⽤户画像概念发展
如何构建⽤户画像
标签Tag
项⽬核⼼功能:
深⼊剖析(最关键)
项⽬⼯程初步搭建
⼆、基础知识:数据导⼊ETL和应⽤调度 -2天
a)、数据采集与ETL
如何将业务数据采集导⼊到⼤数据平台上(HDFS、Hive、HBase)
b)、标签 -> 模型 -> SparkApplication
Oozie
===============================================================================
三、标签开发(基础标签) - 12天
a)、规则匹配标签 + GitHup 5天base的形容词
b)、统计标签 2天
---------------------------------------------------------------------------
c)、挖掘标签 5天
涉及机器学习算法:聚类KMeans、决策树DecisionTree
===============================================================================
四、商品推荐体验及多数据源 - 3天
a)、当⽤户点击浏览商品时,给⽤户推荐商品(Top10)
涉及机器学习算法:ALS(交替最⼩⼆乘法)
b)、标签系统⽀持多种数据源
可以从任意数据源加载业务数据,构建标签,⽐如从HBase、Hive、MySQL和HDFS等等
第⼀部分:
⽤户画像概念、项⽬概述及环境搭建
1、⽤户画像
1.1、概念
什么是⽤户画像?
百度百科定义
⽤户画像⼜称⽤户⾓⾊,作为⼀种勾画⽬标⽤户、联系⽤户诉求与设计⽅向的有效⼯具,⽤户画像在各领域得到了⼴泛的应⽤。我们在实际操作的过程中往往会以最为浅显和贴近⽣活的话语将⽤户的属性、⾏为与期待联结起来。作为实际⽤户的虚拟代表,⽤户画像所形成的⽤户⾓⾊并不是脱离产品和市场之外所构建出来的,形成的⽤户⾓⾊需要有代表性能代表产品的主要受众和⽬标体。
定义 A user profile is a visual display of personal data associated with a specific user, or a customized desktop environment 。⽤户画像就是与该⽤户相关联的数据的可视化的展现; ⼀句话来总结就是:⽤户信息标签化。 偏技术的定义 ⽤户画像可以简单理解成是海量数据的标签,根据⽤户的⽬标、⾏为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照⽚、⼀些⼈⼝统计学要素、场景等描述,形成了⼀个⼈物原型 (personas)。 学⽣的属性: 学⽣,帅,漂亮,性别,年龄,⾝⾼,成绩,体重,婚姻状况,⽉收⼊,兴趣爱好,籍贯,学号,政治⾯貌,发型,国籍。 学⽣的标签: 标签=> 标签值【特征=>特征值】 学校⾓⾊=>学⽣, 外貌=>帅/漂亮 性别=>男/⼥, 年龄=>20/21, ⾝⾼=>176/180, 成绩=>及格/优秀, 。。。 。。。 体重,婚姻状况,⽉收⼊,兴趣爱好,籍贯,学号,政治⾯貌,发型,国籍。 什么是标签?? 对某⼀类特定体或对象的某项特征进⾏的抽象分类和概括!! 学⽣信息表 学⽣这个对象*的属性可以理解为特征。
1.2 、分类及⽅向
标签数据来源
1)、UserPersonal
基于⽤户基本信息(⽐如电商来说,⽤户注册时填写的信息)构建标签
2)、UserProfile
基于⽤户业务数据(⽤户产品产⽣的数据)构建标签
商业标签
⾏为标签
⽤户价值
⽤户画像⽅向
⽬前的⽤户画像研究主要集中在三个⽅向上:⽤户属性、⽤户偏好和⽤户⾏为三个主要⽅⾯。
1)、⽤户属性
⽤户基本信息构建标签,⽐如某个商城会员⽤户注册时填写基本信息构建标签
2)、⽤户偏好
业务数据(订单数据,浏览数据、购物车数据。。)
喜欢买什么,看什么,玩什么,。。。
⽐如针对某个商城来说,主要喜欢买什么
3)、⽤户⾏为
浏览数据
其⼀、⽤户属性的研究侧重于显式地搜集⽤户特征信息,主要体现在社会化标注系统领域,通过社会化标注系 统搜集⽐较全⾯的⽤户信息,⽤于多⽅位的了解⽤户。 其⼆、⽤户偏好研究侧重于制定兴趣度度量⽅法,评估⽤户的兴趣度,提⾼个性化推荐质量; 其三、⽤户⾏为的研究侧重于⽤户⾏为趋势的预测,如⽤户流失⾏为的 预测中,有利于提前发现问题,出对应策略,防⽌客户流失;在⽤户的⽋费预测问题中,有利于发现 电⼒客户⽋费特征,为电⼒公司提供决策⽀持。 不同研究领域的⽤户画像研究⽅法也会有所差异,常⽤ 的有决策树、逻辑回归、⽀持向量机及神经⽹络等模型。 ⽤户画像分类(技术)
1)、匹配类
根据⽤户基本信息进⾏匹配,完善标签体系。例如:性别,籍贯,学历
2)、统计类
根据⽤户基本信息或⾏为数据进⾏统计完善标签系统。例如:年龄段,客单价,单价最⾼,退货率
3)、挖掘类
根据⽤户⾏为数据挖掘完善标签系统。例如:商品偏好,消费能⼒,品牌偏好
1.3、应⽤场景 ⽤户画像应⽤领域较为⼴泛,适合于各个产品周期,从新⽤户的引流到潜在⽤户的挖掘、从⽼⽤户 的培养到流失⽤户的回流等。通过挖掘⽤户兴趣、偏好、⼈⼝统计特征,可以直接作⽤于提升营销精准 度、推荐匹配度,最终提升产品服务和企业利润。还包括⼴告投放、产品布局和⾏业报告等。 1.3.1、精准营销(⼴告投放) 常见的营销⽅式包括APP信息推送、短信营销和邮件营销等。随着运营⽅式从粗放式到精细化,⽤ 户画像技术能更深⼊和直观的了解⽤户,⽽越了解⽤户就越能够做出正确的决策,通过产品或服务的潜 在⽤户进⾏分析,将⽤户划分成更细的粒度,针对特定体进⾏营销,辅以短信、推送、邮件、活动等 ⼿段,趋以关怀、挽回、激励等策略。既能减少全量推送造成的资源浪费,⼜能达到较好的营销转化效 果。 思考如下两个问题:
1)、⼤家所有⼈都收到这个邮件和这个短信了吗?
2)、那为什么这个短信和邮件发给了某⼀些⼈, ⽽另⼀些⼈没有收到呢?
短信和邮件的发送也是有成本的, 所以对于⼀些企业来讲, 不可能会在每⼀次营销中对所有⼈和邮件, 在不同的活动中, 可能会选取不同特征的⼀类⽤户, 对其进⾏短信或者邮件的营销, 那么这⾥就需要对⽤户进⾏分.
1.3.2、数据化运营(产品布局) 如果⼤家是⼀个公司的运营经理, 现在需要对不够活跃的地区举办⼀些活动, 刺激⽤户的参与, 那么应该需要这样的⼀张图: 如果⼤家是产品经理, 现在需要对整个产品的风格
进⾏改版, 那我们应该需要⼀张图, 来看到我们的产品在哪个年龄段最受欢迎, 要致敬这个年龄段的⽤户。类似的场景还有很多, 通过数据来说话, 来到运营的策略, 正是⼀种⾮常有必要的事情, 也是发展趋势。1.3.3、推荐系统 ⽤户画像常⽤在电商、社交和新闻等应⽤的个性化推荐系统中。互联⽹时代下的信息是过载的,⽤ 户量级巨⼤且⽤户之间千差万别。如果根据⽤户的⾏为习惯,购物或阅读记录来打造基于内容推荐系 统,实现的千⼈千⾯个性化推荐可以加深应⽤的⽤户粘性。在电商⾏业中,推荐系统的价值在于挖掘⽤ 户潜在购买需求,缩短⽤户到商品的距离,提升⽤户的购物体验。
说到推荐系统, 其实现在各种公司都在做, 我们判断未来的所有应⽤应该都是个性化的, 都是千⼈千⾯的, 例如如果在京东上购买了⼿机壳, 那么京东应该会推荐给我们其它样式的⼿机壳, 如果买了书, 应该推荐给我们更多同类型的书, 就例如如下.
但是问题来了:
什么是推荐, 如果针对不同的⼈, 展⽰的结果会不同?
其实推荐就是系统通过数据, 到⽤户和⽤户所感兴趣的物品之间的关系, 更抽象和更准确的说, 就是到⽤户和商品之间可能的连接. 可以表⽰为类似如下样⼦。
可以通过⼤量的数据样本, 从⽽使⽤算法到User和Product之间的关系, 简单来讲, 这就是推荐系统的实现⽅式. 那么, 有⼀个问题.
表⽰⼀个⽤户的这些特征如何⽣成呢, 如何到⼀个⽤户的向量表⽰呢?
1.3.4、 场景间的共性
前⾯提到了⼏个场景和⼏个问题,现在回顾⼀下这些场景和问题。
1、精准营销
需要对⽤户进⾏分, 到某个特质的⽤户
2、数据化运营
需要⽣成⽤户的图标, 所以同样也需要对⽤户进⾏分和统计
3、推荐系统
需要到⽤户和商品之间的连接, 所以需要对⽤户进⾏向量化表⽰
如果能有⼀个系统,把⽤户特征标注出来,如下:
那么,对于上⾯的三个需求,就可以以如下⽅式解决:(⽤户画像在三个场景下使⽤)
1、精准营销, 按照地域或者性别筛选客
2、数据化运营, 按照消费能⼒筛选客
3、推荐系统, 得到每⼀个⽤户的标签(宅男富⼆代)
⽤户画像即对⽤户使⽤标签来进⾏标注,例如: U_1001:(男, 北京, 宅男, ⾼消费能⼒)
⽤户画像标签表: - 存储到HBase表中
tbl_profile (表名称)
标签分为两类:(列簇ColumnFamily)
⽤户标签:user
商品标签:item
表的RowKey:
⽤户ID:userId或者商品ID:productId
标签值:(列值)
实际存储标签标识符tagId
标签字段:tagIds
标签值形式:多个标签之间使⽤分割隔开,⽐如使⽤逗号隔开
384,391,421,434
标签信息表:
tagId, tagName, tagDesc
384 男 ⽤户的性别为男性
385 ⼥ ⽤户的性别为⼥性
1.4、⽤户标注
前⾯说了⼏个场景, 这些场景想要实现,都借助于对⽤户的理解, 直⽩点说,就标注出来每个⽤户的特征,, 但是如何标注呢?
探讨⼀下⽤户标注的体系建⽴
1.4.1、本体论 在开始之前, 先介绍⼀下本体论,在介绍本体论之前看如下图,⽺这种可爱的动物⼤家⼀定是见过的。 问⼤家的问题是,什么是⽺??我觉得⼤家可能给出的⽐较标准的答案也许是⼀种有**四条腿四只蹄、⽩⾊覆⽑、两只短⽿朵、⼩眼睛、性格温顺**的动物。
现在把刚才这个结论拆开:四条腿, 四只蹄, ⽩⾊覆⽑, 长⽿朵, ⼩眼睛, 性格温顺, 动物, 这些词并不是⽺, 只是⽺的符号, 我们说⽺有四条腿, 有⽩⾊覆⽑, 是⼀种动物, 那这些形容词, 甚⾄⽺和动物这样的名词, 都是真实存在的这个本体的⼀种符号化表⽰, ⽽本体指的就是⼀个真实的存在, 这种理论, 就是哲学中说的 本体论, 是亚⾥⼠多德的形⽽上学的基本分⽀.
那么和⽤户画像有什么关系呢,⼤家仔细想⼀想, 其实本质上:⽤户画像就是对⽤户的符号化表⽰, 也就是说, 其实标注⽤户就是把⽤户当做本体来进⾏标注。 ⽽本体论也逐渐的发展为描述知识的⼀个学科,如果⼤家以后要研究知识⼯程和知识图谱的话, 本体论是绕不过去的。
如何⽤本体论描述⽤户呢, 如何⽤本体来表⽰⽤户的画像呢? 如下所⽰, 这是⼀个⾮常复杂的表⽰法.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。