[返回科技频道首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
关于内容分发feed流的思考与总结
送交者: 婉君[☆★★★不服⭐来赌★★★☆] 于 2021-01-22 2:01 已读 1741 次  

婉君的个人频道

原标题:关于内容分发feed流的思考与总结


编辑导语:在现在这个内容为王的时代,传统的内容信息流已经呈现出了很大的弊端,无法再满足用户高效获取特定内容的需求了,这时feed流就应运而生。Feed流,作为一种个性化的内容推荐方式,也将在这个时代发挥出它更大的价值。本文作者关于内容分发feed流,分享了一些思考与总结。 6park.com

编辑导语:在现在这个内容为王的时代,传统的内容信息流已经呈现出了很大的弊端,无法再满足用户高效获取特定内容的需求了,这时feed流就应运而生。Feed流,作为一种个性化的内容推荐方式,也将在这个时代发挥出它更大的价值。本文作者关于内容分发feed流,分享了一些思考与总结。 6park.com


过去一年一直在做内容分发,昨天看了张小龙关于微信十年的分享,里面提到了视频号做分发的过程,结合自己的理解,对过去一年的分发思考做一个总结。 6park.com

但凡做过分发的人都知道,分发是由候选集+排序两部分构成。 6park.com

一、候选集是你如何构建分发的内容池 6park.com

候选集的范围通常被产品的形态所限定,例如关注候选集,就是我所有关注用户的内容的集合。推荐候选集,就是所有站内内容的集合(有的产品也可以突破站内,例如搜索引擎)。 6park.com

当内容量级比较大的时候,如果进行全量计算,效率是很低的,所以如何通过科学的方式高效的构建和定义候选集范围,是产品经理需要思考的问题,通常的做法有: 6park.com

1. 时间聚类 6park.com

只取一段时间内的作品(例如最近3个月)这样可以极大的减少数据量,并且如果是社区型产品,限定时间还有利于作者的正向激励,把更多的曝光机会留给近期的活跃用户和新用户,从而实现优质创作者的挖掘、激励闭环。 6park.com

2. 标签聚类 6park.com

通过人工或机器的方式,给内容打上标签,通过同类标签进行聚类。而标签的颗粒度和结构设计(树状结构或网状结构),决定了聚类的范围和灵活度。 6park.com

最简单的结构就是类似新闻网站的层级分类结构,例如新浪网的体育、军事、娱乐(韩娱、好莱坞、综艺)、财经等。当用户之前看过一个或多个分类的情况下,用当前分类的内容构建分发候选集。 6park.com

3. 协同聚类 6park.com

可以是人与人的协同(包括关系协同,例如我关注的人看过的内容)也可以是物物协同。例如很多电商网站,买了这个的人还买了xx,就是这种方式的应用。 6park.com

二、排序是解决候选集内容的显示顺序问题 6park.com

主要做法有: 6park.com

1. 时间排序 6park.com

按照发布内容先后顺序排列。 6park.com

2. 热度排序 6park.com

按照内容的热度倒序排列,热度的定义根据产品的不同而不同,但通常用内容的互动率来定义,同时还要兼顾新内容的曝光机会(通常用时间衰减来实现)。 6park.com

主要热度排序算法有hacker news的排序、Reddit的排序等,至于如何选择,需要基于产品自身的特点判断。例如新闻网站就需要强时间衰减的算法,知识类网站需要得票数超过一定阈值平滑过渡,让更多新内容能够被曝光,使用Reddit算法更合适。 6park.com

3. 模型排序 6park.com

抽象各个维度的factor,灌入模型自动计算一个内容对于各个factor的综合权重,最后得出排序,模型排序通常是黑盒且不可解释的,通常factor越多、可用数据行为越多,模型预测的准确度越高。 6park.com

维度包括但不限于: 6park.com

产品形态:日榜形式或单排时间流。 6park.com

原因:可分发作品量级太少(日可分发作品=1w*0.1%=10),即使积累3个月也只有几百量级且都是精品,无复杂计算的必要性。 6park.com

2. Case2:关注流排序(人均关注人数*一段时间内内容发布率*人均发布条数 ≈ 人均浏览条数) 6park.com

时间排序即可,为降低个别用户频繁发布对于浏览者体验的影响以及对于其他用户曝光的影响,可以在时间流的基础上追加合并的逻辑。 6park.com

3. Case3:关注流排序(人均关注人数*一段时间内内容发布率*人均发布条数 >> 人均浏览条数) 6park.com

出现了内容过载的情况,可以采用热度或亲密度等排序算法。 6park.com

4. Case4:某内容采买平台,日内容量10w 6park.com

1)候选集准备 6park.com

通过可以定义内容标准的程序化维度对内容进行初筛,筛掉40%的劣质内容减少人工工作量(以一个人30s审核一个内容为例,500-1000个/人),规则取决于内容本身,如果是音频,可以是时长、有效人声比例等。 6park.com

利用现有的格式化信息构建基础标签,例如音频歌曲名、演奏者、年代等。通过一些技术手段协助人工打一些非标准化标签,例如人声的性别识别、文本信息的nlp识别等。 6park.com

2)排序 6park.com

以上的罗列可以囊获大部分分发场景,但分发的核心并不是这一套逻辑框架,难点在于对产品本身内容(质量、数量)、资源(人力投入、采买成本投入)、价值主张(中心化、去中心化)等综合评判的结果,这些因素都是动态变化的,所以分发的策略要随之变化。 6park.com

以上只粗糙的列举了几种case,具体的情况会复杂的多,需要结合产品的实际数据情况和实验表现不断调优,找到最适合的方式。 6park.com

作者:产品经理与哲学三观;微信公众号:产品经理与哲学三观 6park.com

本文由 @产品经理与哲学三观原创发布于人人都是产品经理 ,未经许可,禁止转载。 6park.com

题图来自 Unsplash,基于 CC0 协议

喜欢婉君朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ 婉君的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回科技频道首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


    用户名:密码:[--注册ID--]

    标 题:

    粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


         图片上传  Youtube代码器  预览辅助

    打开微信,扫一扫[Scan QR Code]
    进入内容页点击屏幕右上分享按钮

    楼主本栏目热帖推荐:

    >>>>查看更多楼主社区动态...






    [ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]