信息过度和广告过多的社会中,推荐算法的使用也就显得理所当然,但是它是如何做到了解用户的呢?本文从用户画像的定义和设计出发,结合实际案例,深入浅出地阐述了基于用户画像的推荐算法及其产品设计。

比对象还懂你!推荐算法为啥这么准?

为了方便读者更好的理解本文,笔者将以今日头条(建议在手机上下好“今日头条”APP,且最好注册一个头条号并登录到后台)这款产品为例输出一些内容推荐(分发)相关的“干货”。

何为推荐?简言之:“物以类聚,人以群分”,那何为物,何为人呢?答:物为内容(文章/图文/视频等),人为用户(刷今日头条的用户);那么机器怎么知道内容和人属于什么类别(断物识人)呢?再答:“内容画像”和“用户画像”的构建,而推荐的过程其实就是完成用户和内容的匹配。那么什么是“内容画像”和“用户画像”呢?机器是如何对两者进行精准构建和匹配呢?

比对象还懂你!推荐算法为啥这么准?

▲ 图1:用户漏斗

1. 垂直领域

划分方式:机器标注(NLP技术),人工手打,PUGC创作者选择(已不需要)。

考虑到内容漏斗有很多层,为了便于理解,笔者简单说一下用户可以直观看到的几层。最显眼的可能就是第一层了,在头条(指今日头条)内部通常指的就是垂类(垂直领域),如:科技、娱乐、体育等。举个栗子,笔者之前发布的一篇vivo NEX的软广,被机器识别成了“科技”领域的文章。那这个内容第一层就是科技。

垂类的划分方式通常为机器标注(涉及NLP技术:文本分类、命名实体识别等)、人工手打(传说中“打tag”的一种主要形式),或PUGC创作者(统称:头条号)在发布内容时进行领域选择(如图3),不过,现在发布内容已不需要进行选择。

比对象还懂你!推荐算法为啥这么准?

▲ 图2:笔者头条号“不二科技君”标题截图

比对象还懂你!推荐算法为啥这么准?

▲ 图3:来源百度图片,早期头条号发布内容时需选领域

2. 细分tag

划分方式:机器标注(NLP技术)

显然,光知道内容的大类并不能给用户精准的推荐感兴趣的内容。那就需要第二层内容漏斗了,这里要讲的其实也是一种打tag的形式(涉及NLP技术:文本主题/关键词抽取),只是平台根据用户的喜好对内容做更进一步的更细化了。还是上面举例的这篇vivo NEX双屏版文章,对应的一些细分tag就有vivo、手机、科技等。「不过“一起皮一下才开心”是什么鬼?」

比对象还懂你!推荐算法为啥这么准?

▲ 图4:上述举例文末对应的细分tag

当然,这个内容漏斗远不止这两层,细分其实有很多种,比如接着上文举例的文章来说,漏斗可能是这样的:科技->手机->Android->vivo->vivo旗舰机->vivo NEX->vivo NEX双屏版。而细分得越精细,内容画像也就越清晰,推荐才越精准,当然,技术难度也是同样提高的。

像头条比较强悍的竞品之一“一点资讯”,就号称有365万个个性化订阅频道,可想后面支撑的一个推荐算法团队是有多强。当然,除了内容的特点之外,内容画像还包含内容的质量、热度、原创度、所发布用户的权重等。而这个权重指的就是头条对头条号所发布文章的推荐权重(更多的是内容冷启动推荐数量,以及后续推荐的加成幅度),如图5可见头条对笔者这篇“软广”的推荐量,也可以侧面看出头条对于软文的打压力度。

比对象还懂你!推荐算法为啥这么准?

▲ 图5:上文举例文章的后台数据,推荐数为5228

那推荐权重由什么来决定呢?其中一项就是头条号指数。头条号指数是之前平台为了让做作者们过新手/评原创而提出的一个量化指标(如图6),而这个头条号指数其实可以理解为平台对于头条号的一个打分,决定了头条号所发布内容的推荐权重。而头条号指数的评定标准有5大方面(如图7):原创度、垂直度、关注度、健康度、传播度。

不过,现在头条号Web端后台已经看不到了,不过手机端还可以看到。除了内容的特点之外,内容画像还包含内容的质量、热度、原创度、所发布用户的权重等。

比对象还懂你!推荐算法为啥这么准?

▲ 图6: 2017年6月26日笔者头条号后台

比对象还懂你!推荐算法为啥这么准?

▲ 图7:来源百度图片,头条号指数的五大影响因素

比对象还懂你!推荐算法为啥这么准?

▲ 图8:用户画像实例,来源《内容算法》

比对象还懂你!推荐算法为啥这么准?

▲ 图9:来源文章“今日头条算法原理(全)”

那么,机器学习到了这些如图9的这些特征之后,推荐模型就会被不断的更新(准确的说是模型的参数在发生更新,如:神经网络在做后向传播时会在每一次迭代时发生相关权重参数的变化),最后机器呈现给不同用户的内容也会因为这些特征的不同而不一样,甚至同类型的用户,也就是所谓的“千人千面”(最早用在电商平台)。

而作为内容消费”平台,这里主要指的是内容分发。那么如何让内容分发变得更加精准呢?这里不得不提这两个名词,即:召回和排序。这里难讲,简言之,召回比较依赖于内容和用户的标签匹配度,而排序则涉及到一个用户兴趣倾向性,或者是一个更加细粒度的匹配问题上,因为要保证合适的内容放在合适的位置,比如笔者是一个数码控,那如果推送12篇内容给我,我更倾向于第一篇是关于数码的而不是娱乐的。

而排序也往往能够反映出推荐策略的优秀程度,因为只有让用户最快的触达你感兴趣的内容才会产生更多的留存,才会激活,才能进行转化(才能更便于平台推送广告等商业化操作)。当然,AI时代,决定模型表现,或者说我们这里的推荐系统(也可以理解为是一种机器学习模型)的表现,除了算法本身,还有算力(指的是计算机运算能力,这方面头条和竞品无法拉开差距,因为这是钱能够解决的问题),还有另外一个关键项就是数据(高质量的数据)。

关于数据的重要性,让我想到了带我做科研的一位博士师兄(目前在Amazon做推荐)说过的一句话:“Garbage in, Garbage out”,而这句话更适用于AI+产品落地上。简言之,数据对于推荐结果(或者说内容分发)的好坏起着十分根本性的作用。

说到这,请大家跟着笔者思考一个问题,头条DAU(日活)据说2.4亿+,而每个用户日均使用时长70min+,假设用户阅读一篇内容(文章/视频)的平均时间是2min,那么用户阅读内容数据得有2.4亿*70/2 = 84亿+(条)!所以,回到最开始的问题,为啥说头条推荐如此牛逼呢?那是因为推荐算法的3个核心壁垒,头条都属于业内前列(甚至可以称得上是国内NO.1)。

One More Thing

看完笔者“粗鄙”的输出,大家对推荐策略有没有想深入的兴趣呢?如果有想了解的冲动,甚至想定位做策略产品经理的话,那么后面的一些话远比之前的长篇大论更加实在。

私认为(内容推荐)策略产品经理入门之前,一定的推荐算法“技术”输入是必须的。而一个较好且体系的学习方式就是“阅读+思考+实战三位一体”「摘自@刘飞老师很久之前在群里说的的一段话」。所以,这里的“One More Thing”是指笔者希望带(和)大家一起做一些实际的,有意义的输入,从根本上去寻找打开推荐策略这一黑匣的钥匙。

关于“阅读”,大家可以移步至我的微信公众号,之前写的一个“策略产品入门”的一篇文章获取一下推荐书籍资源。那么,大家比较关心的“实践”部分该如何去做呢?这里要卖个关子,相信你看完《内容算法》这本书就会有答案了,因为笔者觉得本书的后半部分其实就是泽华老师在教大家如何去做实践。

以上,皆为笔者粗鄙之见,所讲内容只是今日头条推荐算法里的极少部分,背后的Model和Data十分庞大与强大,纰漏难免,还望谅解并给予批评指正。另外,笔者认为机器(计算机)再厉害,也是人类所“赋予”的,机器越来越聪明的背后反映的应该是人(如:推荐算法团队| Modeling & Data processing)在不断的进化变强!

在此,作为南开人,忍不住向今日头条创始人@张一鸣师兄致敬,向您带领的优秀团队表示崇高的敬意!

参考文献:
    闫泽华|《内容算法》今日头条·曹欢欢博士 | 今日头条算法原理(全)3Dietmar Jannach等著,蒋凡译 | 《推荐系统 [ Recommender systems:An introduction]》项亮 | 《推荐系统实践》——策略产品小白 | 南开NLP硕士·熊慧超 2018.12.27

作者:产品TED;公众号:产品TED

本文由 @产品TED 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议。




阻力设计在产品中的应用

阻力设计在产品中的应用

阻力是指物体在流体中相对运动所产生与运动方向相反的力,不仅在自然间中常见,在互联网中也广泛存在。本文作者从五个角度,深入分析阻力设计在产品中的应用,希望对你...

2020-06-18
如何成为一个合格的数据架构师?

如何成为一个合格的数据架构师?

数据架构师在互联网行业中是个很重要的职位,是企业数据资产最重要的“奠基者”。那么,如何成为一个合格的数据架构师呢?本文作者基于自身经历,从三个方面展开介绍,推...

2020-06-18
倒推“抖音短视频”APP产品需求文档

倒推“抖音短视频”APP产品需求文档

文章是倒推“抖音短视频”APP产品需求文档,但由于作者是第一次写需求文档,所以仅对核心需求进行了需求分析与说明。一起来看看~ 目录: 一、文档综述 1.1文档属性 1.2产...

2020-06-18
微信“拍一拍”,真的是一个没什么用的功能吗?

微信“拍一拍”,真的是一个没什么用的功能吗?

昨天微信上线了“拍一拍”功能,用户点击2次头像,会产生头像抖动,震动反馈,且在聊天框中显示“XX拍了拍XX”。 这个功能推出后,很多微信群都在疯狂拍一拍,引起了一波拍...

2020-06-18
数据大屏设计师,我不信你没有这些困惑(上)

数据大屏设计师,我不信你没有这些困惑(上)

从事互联网行业的人,每天都在接收新知识,时常也会有迷惑的时候,尤其是数据大屏这样比较少有人踏足的领域。本文作者以自身经历出发,对数据大屏设计提出了自己的一点...

2020-06-18
客户关系管理的15个模型总结(下)

客户关系管理的15个模型总结(下)

对于ToB产品,仅仅基于用户需求来设计产品架构是远远不够的。B端产品服务的是有着几年,甚至几十年管理积淀的企业,必须依靠一定的理论知识来支撑系统的设计规划。本文...

2020-06-18
B端产品设计:价值主张与需求对应的价值

B端产品设计:价值主张与需求对应的价值

B端产品的需求来源于场景,产品经理通过满足客户需求从而产生价值。因此,SaaS产品经理面对扑面而来的需求时,应当更清晰理解并评判需求的价值。 01 2008年,著名商业...

2020-06-18
以知乎为例,探讨未来产品设计的几大变化

以知乎为例,探讨未来产品设计的几大变化

知乎作为一个典型的问答社区,它本身反映了内容社区产品的很多典型问题。本文以知乎为例,探讨社区类产品未来发展的一些变化,对内容社区感兴趣的童鞋不要错过。 前段...

2020-06-18
如何用产品思维打造线上课程?

如何用产品思维打造线上课程?

如何用产品思维来给自己打造一个线上课程呢?本文从市场调研、课程开发、运营推广、成交这几个方面分享如何打造自己的课程,希望对大家有所帮助~ “地摊经济”重出江湖,...

2020-06-18
「武侠连载」营销中心设计——优惠券

「武侠连载」营销中心设计——优惠券

优惠券是常见的一种营销推广的方式,但是你真的了解它吗?本文作者以武侠故事的形式,对优惠券展开了生动的分析,对优惠券感兴趣的童鞋不要错过哦。 (武侠情节接上文“...

2020-06-18
金融支付财务融合业务-实践分享1:订单、账单、交易流水、账套知识解构、原理解析

金融支付财务融合业务-实践分享1:订单、账单、交易流水、账套知识解构、原理解析

本文作者从实际工作实践出发,结合案例等分享了电商金融支付财务融合中的基本概念和相关原理解析,包括:订单、账单、交易流水和账知识解构,供大家一同参考和学习。 ...

2020-06-18
关于卡片设计的分析与思考

关于卡片设计的分析与思考

卡片是APP常见的设计形式,它既有好处也有弊端,因此需要根据场景和内容确定展现形式。本文从四个方面对卡片设计展开分析,推荐给对卡片设计感兴趣的童鞋阅读。 卡片是...

2020-06-17
内容型产品中,付费会员功能如何设计?

内容型产品中,付费会员功能如何设计?

付费会员制度让用户预付会员费,将钱留在平台,那么未来一定会有消费行为,那么会员制度要如何设计,才能激励用户付费呢? 01 为什么要做付费会员? 讨论这个问题之前...

2020-06-16
文字社区是否可以拥有弹幕?

文字社区是否可以拥有弹幕?

从社区产品的角度来思考,弹幕功能对于内容生产方,内容消费方以及平台方而言各自有什么意义?图文内容社区是否有机会拥有弹幕呢?如果可以发弹幕,用怎样的形式呢?本...

2020-06-16
FMS财务系统收支结算总结

FMS财务系统收支结算总结

本文按照FMS收支结算划分,结算流程分类及各系统交互,财务系统内部结算基础能力,收支结算整体结构的顺序来依次介绍,总结财务系统收支结算的结构,和一些作者的个人思...

2020-06-16
如何迅速提升用户好评?试试这三种方法

如何迅速提升用户好评?试试这三种方法

小编推荐:如何提高一个产品的用户评分,改变大家对这个产品的印象呢?本文作者给大家介绍了三个概念:用户体验地图、峰终定律和服务蓝图,并详细解释了该如何使用这三...

2020-06-16
对工具型产品易学习与易使用的思考

对工具型产品易学习与易使用的思考

小编推荐:易学习是指怎么让新用户的学习成本降低,能够很快地掌握产品的使用,它的前提是足够简单和容易理解。而易使用是指,如何让用户快速、高效地完成一项任务,达...

2020-06-16
比对象还懂你!推荐算法为啥这么准?

比对象还懂你!推荐算法为啥这么准?

信息过度和广告过多的社会中,推荐算法的使用也就显得理所当然,但是它是如何做到了解用户的呢?本文从用户画像的定义和设计出发,结合实际案例,深入浅出地阐述了基于...

2020-06-15
B端平台产品需要培养的4种意识

B端平台产品需要培养的4种意识

对于许多刚入行不久的产品经理来说,B端平台产品是比较有难度的一项工作。本文作者基于自己的工作经历,提出了四点关于B端平台产品需要培养的4种意识,希望对你有帮助。...

2020-06-15
广告系列:保留价

广告系列:保留价

在一次拍卖中如果所有买家的报价均小于卖家的估价时,则拍卖品不出售由卖家保留,此时卖家的估价就是保留价,也叫底价,全称市场保留价。对于卖家来说,保留价的设置保...

2020-06-15