查看: 89|回复: 0

今日头条算法以及抖音分发机制(一)头条算法解析

[复制链接]

2

主题

2

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2022-9-23 18:39:25 | 显示全部楼层 |阅读模式


投放信息流广告了解平台的算法原理有用么?答案当然是肯定的,但我们不是程序开发人员不需要把原理了解那么透彻,我们只需要了解对我们广告投放有用处的部分即可。
这篇文章我就以今日头条的算法原理为例来说说信息流广告算法的情况。(原理构架学习自资深算法架构师曹欢欢博士的《今日头条算法原理》)
<hr/>一 、投放信息流广告为什么需要知道平台的算法

作为专业的信息流广告优化师,我们都知道信息流广告投放的基础逻辑——eCPM值
下面这个转化公式大家一定都非常熟悉。
eCPM=出价*预估点击率*预估转化率
Ecpm值决定广告的广告位顺序,广告的最终展现效果。出价自然就是价格,预估点击率*预估转化率这个环节就是媒体根据行业历史,大盘情况,你的素材以及计划的质量度来衡量你广告的价值。总体而言,你的质量度越高就越能够获得更好的媒体资源。如下图:


这里说的质量度是什么?质量度就是你的才华。才华所包含的内容就是你对以下内容的了解:产品,行业,客户群体,媒体规则
说到正题了,媒体规则,就包括算法规则
<hr/>二、头条的算法规则简析

关于头条的算法,曹欢欢博士讲的算法原理比较专业,内容较多,我这里做了很大程度的简化。对于运营人员来讲认知到这个程度就足够了,如果有感兴趣的朋友可以去研究一下曹博士的算法原文。
我们先来看看算法模型概览图


头条的推荐系统组成比较复杂,简略来说大体可以分为以下几个部分,推荐模型的建立,召回系统,内容分析,标签系统,评估系统和安全审核。各个部分之间的联系如上图所示。
下面我们逐一来说下各个部分的情况。
<hr/>(一)推荐系统的模型

头条的推荐系统是用四个维度来衡量推荐内容对用户是否合适,进而决定是否推荐给用户的。说成白话就是一个用户对内容满意度的函数,这个函数需要输入四个维度的变量。
第一个维度是内容
第二个维度是用户特征
第三个维度是环境特征
第四个维度是无法直接衡量的目标


第一个维度内容指的是平台中的图文、视频、UGC小视频、问答、微头条等等。
第二个维度用户特征指的是各种兴趣标签,职业、年龄、性别还有很多模型刻划出的隐式用户兴趣等等。
第三个维度环境特征指的是用户随时随地移动所处的环境,比如工作场合、通勤、旅游等等的不同场景。
第四个维度无法直接衡量的目标指的是广告和特型内容频控,低俗内容的打压,标题党、低质内容的打压,重要新闻的置顶、加权、强插,低级别账号内容降权等等。
今日头条旗下几款产品都在沿用同一套强大的算法推荐系统,但根据业务场景不同,模型架构会有所调整。
然后是对推荐起重要作用的典型推荐特征(总共四类)
第一类是相关性特征
就是评估内容的属性和与用户是否匹配。包括显性匹配(如关键词匹配、分类匹配、来源匹配、主题匹配等)和隐形匹配(如FM模型中的一些隐性匹配。)
第二类是环境特征
包括地理位置、时间等。
第三类是热度特征
包括全局热度、分类热度,主题热度,以及关键词热度等。内容热度信息在大的推荐系统特别在用户冷启动的时候非常有效。
第四类是协同特征
协同特征是通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力。它可以在部分程度上帮助解决所谓算法越推越窄的问题。
同时在模型的训练上,头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快,这对信息流产品非常重要。


<hr/>(二)召回策略

头条内容量非常大,推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略,每次推荐时从海量内容中筛选出所需的内容库。召回策略的设计主要是因为推荐模型计算开销相对较大,完全依赖模型推荐成本过高。基于简化策略的召回模块可以有效平衡计算成本和效果。


<hr/>(三)内容分析

内容分析包括文本分析,图片分析和视频分析。
这里以文本分析为例来说下原理:
(1)文本分析的作用:


  • 在推荐系统中用作用户兴趣建模,没有内容及文本标签,无法得到用户兴趣标签。
  • 文本内容的标签可以直接帮助推荐特征,匹配用户标签,以满足用户的需求。
  • 文本内容的分析可以生成频道内容,将相关的内容放进相关频道。

(2)今日头条推荐系统主要抽取的文本特征类型:

语义标签类特征,文章上打的语义标签。这部分标签是由人定义的特征,每个标签有明确的意义,标签体系是预定义的;
隐式语义特征,主要是topic特征和关键词特征,其中topic特征是对于词概率分布的描述,无明确意义;
关键词特征,基于一些统一特征描述,无明确集合。
文本相似度特征,这个特征也十分重要,他着重解决的是关于推荐重复内容的问题。解决这一问题需要根据判断相似文章的主题、行文、主体等内容,根据这些特征做线上策略。
时空特征,这个特征是分析内容的发生地点以及时效性。
质量相关特征,判断内容是否低俗,色情,是否是软文,鸡汤等。


(3)层次化文本分类算法:



今日头条推荐系统的线上分类采用典型的层次化文本分类算法。
最上面Root,
下面第一层的分类大类,比如科技、体育、财经等。
再下一层是细分类别足球、篮球、乒乓球、网球、田径、游泳等,
第三层再度细分足球再细分国际足球、中国足球,
第四层再次细分,中国足球又细分中甲、中超、国家队等,
相比单独的分类器,利用层次化文本分类算法能更好地解决数据倾斜的问题。

另外,为了提高召回,也可以连接了一些飞线。这套架构通用,但根据不同的问题难度,每个元分类器可以异构。
其他诸如语义标签、语义标签等就不赘述了,作为运营的我们也不需要了解的太过深入。
<hr/>(四)用户标签

内容分析和用户标签是推荐系统的两大基石。内容分析涉及到机器学习的内容多一些,相比而言,用户标签工程挑战更大。
1、头条常用的用户标签

今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征(车型,体育球队,股票等)。
还有性别、年龄、地点等信息。
性别信息通过用户第三方社交账号登录得到。
年龄信息通常由模型预测,通过机型、阅读时间分布等预估。
常驻地点来自用户授权访问位置信息,在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息,可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。

2、头条标签的数据处理策略

最简单的用户标签是浏览过的内容标签。但这里涉及到一些数据处理策略。主要包括:

  • 过滤噪声。通过停留时间短的点击,过滤标题党。
  • 热点惩罚。对用户在一些热门文章(如前段时间PG One的新闻)上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降。
  • 时间衰减。用户兴趣会发生偏移,因此策略更偏向新的用户行为。因此,随着用户动作的增加,老的特征权重会随时间衰减,新动作贡献的特征权重会更大。
  • 惩罚展现。如果一篇推荐给用户的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。当然同时,也要考虑全局背景,是不是相关内容推送比较多,以及相关的关闭和dislike信号等。



3、头条用户标签计算框架

头条用户标签计算框架采取的是流式计算和批量计算混合使用的框架系统。


(1)、批量计算框架

像用户的性别、年龄、常驻地点这些信息,不需要实时重复计算,流程比较简单,每天抽取昨天的日活用户过去两个月的动作数据,在Hadoop集群上批量计算结果。


(2)、Storm集群流式计算系统

流式计算系统,CPU代价比较小,可以节省大量的CPU时间,大大降低计算资源开销。同时,可以用很少的机器就可以支撑巨量用户的兴趣模型更新,并且更新速度非常快,基本可以做到准实时。


<hr/>(五)评估分析

评估分析的作用是评估推荐系统效果好坏的。
现在头条的评估分析有线上分析人工分析两个层次。
全面的评估推荐系统,需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量,不能只看点击率或者停留时长等,需要综合评估。而一个强大的实验平台,还有便捷的实验分析工具,可以智能分析数据指标的置信度。
1、完备的评估体系

一个良好的评估体系建立需要遵循几个原则,
首先是兼顾短期指标与长期指标。
其次,要兼顾用户指标和生态指标。今日头条作为内容分创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和平衡的过程。
另外,要注意协同效应的影响。实验中严格的流量隔离很难做到,要注意外部效应。

2、强大的实验平台以及易用的经验分析工具

强大的实验平台非常直接的优点是,当同时在线的实验比较多时,可以由平台自动分配流量,无需人工沟通,并且实验结束流量立即回收,提高管理效率。这能帮助公司降低分析成本,加快算法迭代效应,使整个系统的算法优化工作能够快速往前推进。


下图是头条A/B Test实验系统的基本原理。首先在离线状态下做好用户分桶,然后线上分配实验流量,将桶里用户打上标签,分给实验组。举个例子,开一个10%流量的实验,两个实验组各5%,一个5%是基线,策略和线上大盘一样,另外一个是新的策略。


实验过程中用户动作会被搜集,基本上是准实时,每小时都可以看到。但因为小时数据有波动,通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库,非常便捷。
在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件,自定义实验组ID。系统可以自动生成:实验数据对比、实验数据置信度、实验结论总结以及实验优化建议。
当然,只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和用户体验存在差异,很多指标不能完全量化。很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。


<hr/>(六)内容安全

最后说一下头条的内容安全审核机制。
现在,今日头条的内容主要来源于两部分,一是具有成熟内容生产能力的PGC平台,一是UGC用户内容,如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复审环节,有问题直接下架。


分享内容识别技术主要鉴黄模型,谩骂模型以及低俗模型。今日头条的低俗模型通过深度学习算法训练,样本库非常大,图片、文本同时分析。这部分模型更注重召回率,准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万,召回率高达95%+,准确率80%+。如果用户经常出言不讳或者不当的评论,我们有一些惩罚机制。


泛低质识别涉及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等,这部分内容由机器理解是非常难的,需要大量反馈信息,包括其他样本信息比对。目前低质模型的准确率和召回率都不是特别高,还需要结合人工复审,将阈值提高。


<hr/>知道了头条的算法机制,其实对我们投放端来讲是有实际指导意义的。可以做到知其然又知其所以然,可以让我们对素材的制作和修改有更加深刻的体会,如果能够结合参考再了解相关行业特性,人群属性,会让投放事半功倍。最后如果有需要开户投放,优化运营的朋友也可以加我微信salengzhen沟通交流。
  END


作者:深虹
互联网推广行业从业者,资深广告人。
知乎账户:深虹
个人微信:salengzhen
愿我的分享有帮助,愿你的投放有效果。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表