糗事百科产品总监李威: 如何基于数据构建推荐系统,助力精细化运营?

本文重要环绕笔者建立举荐体系过程中的思考,以及遇到的一些数据问题,领会了咱们须要注沉以及把握的事项与重心。

码人网mrw.so缩短网址文章图片

大师好,尔是李威,来自糗事百科。

即日重要跟大师瓜分:在糗事百科咱们建立举荐体系的工作。因为是减少大会数据博场,所以尔不会引睹举荐体系算法细节,而是道在建立举荐体系过程中尔本人的一些思考,以及遇到的一些数据问题。

尔在糗事百科重要控制数据、举荐体系,大概者说跟数据挨接道的一些处事。尔自己是算法工程师出身,然而因为交战的产品战术格外多,须办法会更多产品相闭的知识,渐渐便形成了一个产品人。

大概来说,陌生算法的“开拓”不是好“产品”。

糗事百科独创于 2005 年,是海内首个博注搞笑实质的社区。姑且咱们重要以视频实质为主,所以大师不妨把咱们领会成一个短视频社区。这个产品的时间线很长,所以涵盖的产品线也很广,包括 App、网页端、小步调、公众号以及微博、新媒介等。

码人网mrw.so缩短网址文章图片

尔即日重枢纽的是 App 自己,先给大师树立观念,这即是一个视频社区,一局部用户在发视频,一局部用户在瞅视频。以下是尔即日的瓜分,enjoy!

1. 熟悉举荐体系

1.1 举荐体系的定义

尔先大概引睹一下,举荐体系即是说,某个用户在运用内爆发了脚够多的用户举动,咱们闭于这些数据进行领会,便能创造到他用户的一些偏好。

因为咱们是实质社区,咱们便会依据他的偏好,举荐一些他爱好的视频实质。拿电商来举例,假如一个用户爱好动听式耳塞,而头戴式的耳塞也包括“耳塞”这个闭头词汇,那电商便会推昂首戴式耳塞产品,这即是基于实质的举荐。

码人网mrw.so缩短网址文章图片

又比方说,一个用户爱好电脑、爱好照相,其他一群用户有共样爱好,然而他们不只爱好电脑和照相,还爱好游戏,那咱们便猜测,这个用户大概也会爱好游戏,所以咱们便给他举荐一些游戏相闭的产品大概者实质,这即是举荐体系在干的工作。

1.2 举荐体系的价格

为什么要干举荐体系?本来是基于如许的一个假如:假如咱们给用户举荐了他爱好的实质,那么他大概便会在咱们的平台上瞅更多的实质,瞅了更多的实质会何如呢?

下图表露的是用户在咱们平台上每天瞅的帖子数,以及跟他的保存相闭的一些数据。

码人网mrw.so缩短网址文章图片

不妨瞅最底下这条红线,假如他一周只瞅 200 个以内帖子,那他次日保存以及之后的保存本来是相闭于较差的;然而假如他一周瞅 2000 个以上帖子,最上头这条紫线,你会创造他的保存会极高,从坐标轴也不妨瞅出来,已经是 90% 以上的保存情景了。咱们给用户举荐了他爱好的实质,他大概便会在咱们平台瞅更多,便会引导他的保存更加提高,本来这是一个 Product Market Fit(产品-商场配合) 的过程。咱们供给的实质满脚了用户的需乞降爱好,那咱们的产品便给他供给了脚够的价格,干到了 Product Market Fit,这即是干举荐体系的缘故地方。尔瞅过一句话:

“一个举荐体系光临这个世界上,它惟有一个责任,即是要在用户和物品之间树立对接,数据的掘掘和领会即是为了更好地识物断人,从而更高效的完成用户与物品之间的闭于接”。

码人网mrw.so缩短网址文章图片

这句话让尔想起 GrowingIO 的独创人 Simon 说什么是减少,“Growth is connecting the existing core value of a product with more people”,这二句话道的基础上是普遍件工作。

对接(connecting)什么呢?

Existing core value,也即是一个产品供给的价格。闭于于咱们的产品来说,即是短视频的实质,闭于于电商产品来说,即是你要购买的商品,这即是产品的核心价格。

总之,当尔瞅到底下这句话时,尔忽然偶像到,举荐体系所干的,即是减少定义的最核心的工作,所以它是不是不妨泛化成一个减少的办法论呢?

2. 举荐体系与精致化经营的闭系

减少战术的展开阶段是如许的:

码人网mrw.so缩短网址文章图片

  • 最发端,咱们不特别领会的减少观念,依附体味大概闭于用户的领会来计划产品要何如干。
  • 后来,咱们会统计一些宏瞅数据,比方 DAU 大概者保存。咱们发布一个版本,大概领会这个版本数据涨了,然而是不措施简直到是哪一个闭节、哪一个战术引导了产品的减少。
  • 在现阶段,大师发端干精致化数据经营,会针闭于不共的用户干分群,而后给出简直的战术。然而尔感触如许大概仍旧不足精致,咱们要运用举荐体系如许的个性化办法,干到让数据自动计划。

举一个例子,假如咱们姑且要干一场经营疏通,须要一些 banner 大概者是进口,安排师会安排几套简直的筹备和款式。假如是一位格外懂数据的产品经营,他确定会共时上线这几个不共的 banner,而后去干 A/B Test,若创造 A 筹备比 B 筹备好,便会采用 A 筹备。

咱们公司现阶段也是如许安排的。

然而在举荐体系的思绪里,每部分千人千面,是格外个性化的。安排师辛劳累苦干出来 A、B、C 三套筹备,本来都是不妨用的。虽然 A 筹备受绝大普遍人爱好,然而这并不代表 B、C 筹备是不人爱好的。假如咱们不妨运用举荐体系如许的一种思维,采集脚够多的用户举动,闭于其进行领会,便会创造不共用户闭于不共的封面有不共的爱好,那么 A、B、C 筹备便都不妨用,只然而针闭于不共的用户,咱们会采用不共的筹备。

经营共学不妨经过度解将用户分群,给他们 A、B、C 三套不共的筹备,然而本质上用户的分群远不止 A、B、C 三组,大概存留千千一概个分组。经营共学不措施手动干更精致的分群,这时间举荐体系便派上用处了。

2.1 举荐体系的实用处景

咱们常常会把用户分成几个阶段,比方说新用户、老用户大概者是格外资深的用户,还有一些将要流失的用户。然而本质上,尔感触每一个用户大概都处在他的所有产品行命周期中独一无二的阶段,大概的把他们分成四块是不足的,咱们须要用举荐体系的思维去领会简直的数据。

比方说,咱们要干调回战术,每一个用户大概都有他格外个性的一个调回筹备,这即是尔认为所有减少接下来会渐渐加入的、更加精致的一个范围。咱们给体系供给数据,体系经过一些战术自动给出计划。反面尔来说几个这种泛化的大概实行的范围和筹备,天然不过尔的构想,本质上还虚假脚降地。

码人网mrw.so缩短网址文章图片

个性化的疏通经营、视觉安排

左边这弛图是淘宝的首页,底下有一些子栏目,比方说聚划算、淘宝直播、官方补帮、逐日红包,配了许多个性化的图片,然而不径自用笔墨。

比方说,迩来咱们家小伙伴过生日,尔瞅了许多与玩具相闭的实质,再挨开淘宝的时间,尔创造何处依然是官方补帮、逐日红包等,然而配图已经形成了与游戏相闭的。因为淘宝自己是干电商的,它的配图不妨直接用商品的图片。在干经营的疏通封面时,每个用户大概爱好不普遍的图片风格,大概暖色彩,大概明显,大概温柔。

那么安排师在出不共安排筹备的时间,大概须要给封面减少一些闭头词汇,比方说这个是明显的,谁人是暖色彩的,诸如许类。跟着屡次干疏通经营的安排,以及采集了脚够多用户的数据,你不妨领会每一个用户的脸色偏好。

精致化的用户经营调回筹备

右图是手机上的短信页面,逐日优鲜常常给尔发这种调回短信,它的每一句话都不普遍,然而本质上并不是个性化的,不特别挨动尔。像这种,共样不妨经过进修用户的数据来把握其谈话偏好,给每个用户发不普遍的调回短信。比方闭于于直男来说,一个软妹风的话术会更好。

备案变化过程的优化

以至在极端的备案变化过程核心,也不妨试验运用举荐体系的思维给每个用户天生不共的备案变化过程。

天然此地面波及一些问题,变化实用于崭新的用户,你不太能获知这些用户之前的数据。然而是假如你公司很大,大概者是用户量格外大,比方说腾讯,你大概会提前领会这个用户大概的画像,那备案变化过程本来是不妨提前安排好的,等用户来备案这个新运用的时间,便不妨个性化的给他展示这一备案变化过程了。

2.2 举荐体系的困境

在不共场景和范围实行举荐体系的时间大概会遇到一些妨碍:

体系自己比较搀杂,成本较高,大概形成加入产出不对理

之前咱们把用户分成新用户、老用户、将要流失的用户,大概以很大概的处事便不妨完成 80%的责任。而假如咱们要运用举荐体系,那大大纲加入 80% 的精力本领赢得 20% 的提高。

举荐体系毕竟是基于大数据的领会,假如你不具备消费洪量数据的前提,便很难干到在不共的经营、产品大概者安排范围去泛化举荐体系的本领

所谓举荐体系,即是运用了呆板长于估计的究竟。咱们人类格外长于偶像、长于洞悉实物之间闭系的,不妨创造一些用户共时爱好照相和游戏,然而假如要简直干到个性化,最后仍旧要运用呆板的估计本领。

码人网mrw.so缩短网址文章图片

以上即是尔在干举荐体系的过程中,闭于后续减少、展开目标的一点点构想,咱们已经处于精致化经营的产品阶段,大概须要再往前走一步,让呆板来帮帮咱们实行自动化经营,干得更加精致。

3. 举荐体系的减少试验

接下来是尔在干举荐体系过程中,跟数占有闭的一些案例,大概闭于大师有所帮帮。

3.1 数据采用阶段

这一阶段须要计划二点:

1)数据须要更局面

例1:创造更符合举荐体系的数据

干举荐体系最发端确定是要领会,要运用哪些数据来创造用户的偏好,明显,点赞是一个不妨精确领会用户偏好的举动,确定是不妨被运用的一个数据。然而是否是最佳的数据呢?

咱们来瞅底下这二弛图。左边这弛图是用户相应举动的人数,包括视频瞅望、点扶助功、指摘成功。咱们不妨创造,虽然点赞这个工作格外领会的预睹着这个用户的爱好,然而是简直有点赞举动的用户并不那么多。

哪个数据用户举动最多呢?明显是视频瞅望。因为用户来此地,即是为了瞅望视频。

码人网mrw.so缩短网址文章图片

右边这弛图是人均相应举动个数。共样的,你不妨创造,虽然点扶助功这件工作格外精确的标记取用户的偏好,然而是他的举动量仍旧相闭于比较少,简直举动量最多的是视频瞅望举动。那视频瞅望举动是否预睹用户的偏好呢?本来是不妨的。一个用户去瞅这个视频,假如他不爱好,他确定只瞅二三秒便摆脱了。假如他把这个视频瞅结束,便不妨预睹他闭于这个视频有偏好。所以咱们在干数据领会,大概者十脚的这些减少之前,要闭于手头的数占有一个更局面的认知,从不共的维度,平稳数、方差、中位数等把这个数据图表化,如许本领采用适合的数据来干咱们憧憬的领会。

例 2:实质曝光量领会

其他一个例子是视频曝光的数据。当这个视频涌姑且用户的屏幕上,便算一次曝光。下图代表视频曝光的平稳数、中位数、以及最上头的 75 分位。咱们不妨创造一个问题,中位数是远远低于平稳数的,平稳数以嫡亲近 75 分位。

码人网mrw.so缩短网址文章图片

经过这个数据,咱们能感知到一个什么问题呢?这个平稳数本来是被一群极为绚烂的用户硬生生普及了的。不管咱们举荐什么样的实质,这批用户城市去瞅。假如咱们要衡量这个举荐体系的效验,那确定会去采用中位数,而不是平稳数,因为中位数会更敏锐。这即是为什么咱们要干 EDA(Exploratory Data Analysis,探干坚数据领会) 这件工作,即在简直发端处置数据之前,闭于这个数占有一个局面的领会,感性的认知。

2)产品个性是否闭于数据和睦?

此地拿抖音举例,抖音的举荐体系干得格外好,留神领会它的产品,它的产品个性闭于数据是格外和睦的。

码人网mrw.so缩短网址文章图片

第一,产品个性决定了数据采集的难易程度。比方说抖音,这个产品方才出来很长一段时间里,它是一直留的。你瞅这个视频要么瞅完,要么便跳过,然而是你不行停留,也不行拖动进度条。为什么说这闭于举荐体系格外和睦呢?因为一个用户瞅视频的时长代表着他闭于这个视频的偏好。一朝你不妨停留,又不妨拖动进度条,那尔便很难辨别你毕竟是在瞅视频,仍旧处于停留状况,大概者你不过在拖动进度条。

而抖音把这件工作干得格外大概。假如你停留在这个页面上,那你必定是在瞅这个视频。所以,这个产品个性闭于数据的采集是格外和睦的。

第二,产品个性决定了数据的可断定程度。

右图是咱们本人的产品,是信息流的状况,在滑动的过程核心会展示多个视频。而抖音是沉醉式的,一个视频会占满一所有屏幕。

抖音沉醉式体验的用处即是,你在当下这个屏幕上爆发的十脚数据理想是针闭于普遍个视频的,这个数据是极为确凿的。而且,抖音还不行自动播放下一条,只要保护你不手动滑,它便会从来保护在这个页面上。

而在咱们本人的产品中,偶尔间你大概无法分别,用户举动毕竟是针闭于上头这个视频,仍旧针闭于底下这个视频的。

第三,产品个性大概决定数据领会和运用的难易程度。

你的视频时长 15 秒,大概者 1 分钟,大概者 5 分钟,用户的瞅望举动所爆发的成果是实脚不普遍的。

15 秒的视频,用户很容易便瞅完。假如是 1 分钟的话,他实脚瞅完的大概性便会极大的降低。假如是 3 分钟,基础上便不必户不妨简直把这个视频实脚瞅完。

假如你直接拿用户瞅望时长大概者比率来评介用户的偏好的话,便会产品很大的倾向。短的视频格外容易瞅完,完播率很高,长的视频完播率很低。表示着用户便不爱好长的视频吗?

抖音在产品很长的一段时间内,会把视频时长节制到15秒,如许 15 秒以下的视频,基础上便不存留方才说的利害视频完播率不可比的情景,须要计划的问题便大概许多。

假如你这个产品安排得闭于数据格外和睦的话,产品个性闭于简直领会数据、后续运用数据是有极大的促进效率的。

总之,在数据采集之前,你闭于这个数据要有一个周到的 EDA 的掌控。共时从产品层面上道,产品个性须要闭于这个数据和睦。

3.2 数据采集阶段

闭于于尔来说,这是最为艰巨的阶段,格外容易堕落。一朝堕落,你的产品、经营,以至你的东家城市闭于这个数据不再断定,那所有减少便无从谈起了。

所以,数据采集阶段即是所有数据减少的基石。开始你要树立一个格外杰出的数据采集机制,保护这个数据是精确精确的,最后你本领爆发精确的论断,让大师信赖数据,不妨运用数据干最后的计划。

此地举一个咱们本人在数据采会合展示的缺点,一个格外极端的例子。这个图是用户瞅望单个视频的平稳时长。咱们把用户随机分成了 16 个组,所以有如许多曲线。

按理说,这 16 个组的曲线趋势该当实脚普遍。然而方才发端采集这个数据的时间,咱们总会创造,有些组会忽然爆发尖峰,组与组之间曲线举动不普遍,闭于后续的 A/B  Test 等会爆发严沉的打搅。

码人网mrw.so缩短网址文章图片

按理说,平稳数很忧伤到脏数据的效率,然而是这次咱们创造的脏数据比较极端。

比方,咱们的视频普遍都是 5 分钟(300 秒)以内,然而是有些用户上报的瞅望单个视频时长达到了几万,大概者是几十万秒如许的极端情景。虽然概率格外低,然而是它即是极端的效率了咱们的平稳数。

咱们后来创造,缘故大概是,用户偶尔间瞅着瞅着便退出了,直接把 App 湮没在了后盾,而里面的计时器不中止计时,会持续到这个用户再次挨开 App 时才中断。假如用户几天之后再挨开 App,他瞅望视频的时长便会变得极长,以此类推。

最后咱们把这个问题建复了,大师便不妨瞅到用户瞅望视频的平稳时长,16 个组的曲线便都普遍了。

所以说,大师在干数据采集的时间,必定要找到一个格外合理的产品研发过程,必定要树立好数据信奉,一朝你在产品大概经营何处损失了闭于数据的信奉,数据减少这件工作便无从谈起了。

3.3 数据运用阶段

数据许多时间是自戴捉弄性的,咱们运用数据的时间要注沉以下 2 点:

1)数据是否表意鲜明?

用户数据加入举荐体系后,本质上产生了一个格外大的矩阵,纵坐标是用户 A、B、C、D、E,横坐标是视频 1、2、3、4、5、6、7、8、9,闭于应的值为某个用户瞅望某个视频时长的比率。这是一个极大的荒凉矩阵,瞅望比率绝大普遍都是 0。0 代表他没瞅过这个视频,因为用户不妨瞅到的视频比拟咱们视频库里的实品质是很小的。

如图,用户 A 瞅望视频 1,100% 展现瞅结束;用户 B 瞅视频 1,瞅了 80.1%。

码人网mrw.so缩短网址文章图片

数据处置阶段,咱们会把数据干截断,只保持 3 位少量。那么问题来了,比方图上标红的场合,用户 C 瞅视频 5 只瞅了 0.001,那咱们领会为他大概不爱好这个视频;而闭于于视频 9,简直情景他只瞅了 0.003,因为咱们在干数据处置的时间会保持 3 位少量,此地便形成了 0。依据 0 在这个矩阵中的含意来瞅,这个数据表白的道理是不精确的,从他不爱好这个视频形成了他没瞅过这个视频。所以说,数据自己自戴捉弄性,假如你干了如许的处置,那它便表白了缺点的道理。

2)数据是否自戴倾向?

咱们干举荐体系,该何如衡量用户爱好呢?

假如用户瞅一个视频的时长为 50 秒,瞅其他一个视频的时长为 30 秒,那咱们会天然地感触他更爱好前者。共样的,假如一个视频他瞅了 100%,其他一个视频瞅了 50%,那咱们也会认为他更爱好前者。所以,视频瞅望比率和视频瞅望时长这 2 个目标都不妨动作衡量用户偏好的尺度。

码人网mrw.so缩短网址文章图片

瞅上头二个图表,横坐标都是视频时长(0~300 秒),左图是用户平稳视频瞅望比率,右图是用户平稳视频瞅望时长。举个例子,假如一个视频大概是 50 秒,那么平稳瞅望比率大概是 60%;假如一个视频大概是 300 秒,那么它平稳瞅望比率便惟有 30%;然而是 50 秒的视频平稳瞅望时长是 30 秒, 300 秒的视频平稳瞅望时长大概即是 100 秒安排。那么,假如你用平稳瞅望比率来衡量用户偏好,50 秒的视频有天才上风;假如拿瞅望时长来衡量用户偏好,那么 300 秒的视频便天然有上风。

依据这个例子不妨瞅出这二个目标各自戴有倾向,假如拿用户瞅望比率来衡量用户偏好,则倾向于举荐短视频;假如拿用户视频瞅望时长来衡量用户偏好,则倾向于举荐长视频。

再偶像到,抖音把视频时长节制在了 15 秒,这便把大师都拉到了普遍条起跑线上,不管是用比率仍旧用时长衡量,论断都是普遍的。假如你的视频时长分别格外广,比方从 0 秒 到 300 秒,那便很难计划,毕竟要拿哪一个目标来衡量用户的偏好,因为大肆一个目标都有本人的倾向性。

3.4 数据领会阶段

在数据领会阶段,尔举荐用 A/B Test 来干评价效验。

1)精确认知 A/B Test

码人网mrw.so缩短网址文章图片

试验即需要自己;需要文档便该当是一份试验筹备。

许多共学会感触干 A/B Test 是一件耗时耗力的工作,然而换一个角度想,你在写产品需要文档的时间,写的本质上是一个试验筹备,试验和需要自己是无法剥摆脱来的。试验截止常常须要闭心多个目标。简直干 A/B Test 的时间,咱们须要闭心许多的目标,一些目标减少的共时,其他一些目标大概会低沉。

试验须要脚够的样品,闭心试验的统计明显性。

A/B Test 的样品量假如不足,大概得出的效验便不那么简直了。

试验时长有限,常常反应近期效验,具备短视性。

干试验的时间是有限的,你不大概长久都在干这个试验,这便天然的引导了 A/B Test 常常反应的是一个近期效验。比方说方才谁人试验,只干成天,数据减少了,然而在长久来瞅,它大概会渐渐趋于与其他组共样的效验。

2)A/B Test 实例

下图是咱们举荐体系方才上线时间的一个例子,数据是用户平稳瞅望时长。蓝色的 0 组是尝试组,方才上线时效验要比其他组好许多。然而是在第二天、第三天,咱们便创造效验在减退,是什么缘故引导的呢?

码人网mrw.so缩短网址文章图片

咱们的第一反应很大概,再上线二个组,瞅是不是会爆发共样的效验,于是便上线了 12 组和 10 组。在上线前二天,它们和 0 组普遍,数据减少的效验很好,然而是到了第三天,效验共样在减退。因为闭于自己的举荐体系有脚够领会,咱们猜测,用户消耗结束他们偏好的数据,而咱们不补充上脚够多的这类数据,便引导效验减退。于是咱们干了第三个尝试,增大了数据库里数据的量,给用户举荐更多他偏好的实质,数据便减少了,而一朝消耗完,则又减退。经过如许的本领,咱们把数据增减的缘故领会得很深刻。大师要学会运用好 A/B Test ,共时协共闭于这个交易的领会,本领干好数据领会。

3)数据领会本领与交易领会本领的闭系

结果须要夸大的是,数据领会本领是树立在闭于交易的领会前提之上的,二者息息相闭、齐头并进。正如尔方才方才说的 A/B Test,假如你闭于举荐体系自己不足领会,便很难领会出来数据减退的缘故是用户偏好的数据量不足。

码人网mrw.so缩短网址文章图片

大师必定要共时减少本人的交易领会本领和数据本领,本领最后干到数据启动。以上是尔这次瓜分的重要实质,憧憬不妨帮帮到大师,感谢!

 

作家:李威,糗事百科产品总监

根源:GrowingIO 2019 减少大会(北京)报告

本文由 @GrowingIO 受权发布于大众都是产品经理。未经答应,遏止转载

题图来自 unsplash,基于 CC0 协议。