本文介绍了中央广播电视总台的总台算法建设项目对音视频内容进行数据化构建的方法与技术系统,阐述了总台算法对智媒体应用的探索与思考。
作者:中央广播电视总台 黄卓伟 刘巍
来源:选自2022年第9期《现代电视技术》
相较于广播电视台在高清化、精品化上的深厚积累,新媒体商业平台着重音视频内容的数据化、标签化处理,在用户发展、获取流量上取得良好效果。中央广播电视总台推进媒体深度融合发展的系列重点项目中,总台算法建设项目的目标是融合新媒体前沿技术、将传统生产优势向传播优势转化,数据纠缠则是实现这一目标的重要手段。
一、音视频介质与数据的关系
在早期的新媒体平台中,音视频内容主要由音视频介质、内容元数据、编排关系三个主要元素构成。音视频介质是内容载体;内容元数据用于音视频内容的内部管理,如编目保存、信息记录等;编排关系用于音视频内容的对外传播,确定时间、位置、层次关系等基本元素。这种三元结构下,音视频内容的主要价值来自介质本身的创作水平、制作质量,其次是合理巧妙的编排,内容元数据起辅助作用。
随着算法推荐的普及,尤其在千人千面的推荐应用中,音视频内容基于确定位置、确定时间的编排方式被打破,内容不再有固定的编排关系,而是根据每一位用户的兴趣喜好,与其他内容灵活组合,呈现在用户面前。反映到数据方面,不再有统一的内容编排数据,而是转变成基于单一用户的个性化推荐单数据。
同时,为了能够实时生成个性化推荐单,需要在推荐引擎中结合用户画像进行内容的召回、排序、干预等技术环节。为此,内容必须具有标签数据、互动数据及生产运营数据等一系列数据要素,以完成上述步骤。
数据要素对内容传播的价值更多体现在盘活海量的普通内容。对于任何媒体平台,头部的优质内容总是有限的,自然而然地编排在醒目位置。而处于长尾的普通内容普遍面临着兴趣分众相对小、制作水平相对低等劣势,在使用上众口难调。借助数据要素的应用,则可以发挥其体量大、覆盖广、成本低的另一面,针对特定环境、特定人群投放,可以发挥不逊于优质内容的效果。
例如一个人在家里可以被美轮美奂的风景纪录片吸引,而当他真正处于旅途中,一段粗略拍摄的乘车攻略视频更是他所需。相比精美纪录片的长久价值,乘车攻略仅具有瞬间价值,算法推荐恰恰就是借助数据要素挖掘出这个瞬间价值,精准送达手机。
在新媒体平台中,算法推荐早已成为标配,获得人工编排的头部内容占总内容的比例越来越低,在社交媒体平台中已经逐渐下降到万分之一至百万分之一,在主流媒体的新平台中也随着内容产量提高而不断降低比例。
在新业态下的音视频内容,其价值已不仅仅体现在介质本身,剥离了数据要素,单纯的音视频介质很难进行有效传播,变得“酒香也怕巷子深”。数据开始成为与介质相互伴生、并驾齐驱的重要元素,从音视频介质产生伊始就伴随着整个生命周期不断丰富,二者紧密纠缠在一起,形成新媒体新业态下的智媒体内容。
二、数据纠缠体系设计
为了实现精准高效的算法推荐,需要为音视频内容建立丰富、合理的数据结构,在总台算法的应用探索中,逐渐建立了一套数据体系,详见图1。
伴随着数据在音视频内容整个生命周期的产生过程划分为四个阶段。
1. 创作阶段
在内容创作的各个环节,创作系统会自动标注大量记录创作过程的数据,对内容的基础信息予以规范,便于统一管理,通常包括以下类型。
(1)内容元数据
内容元数据通常包括内容的标题、ID、创建时间、时长、格式、清晰度等基础信息,这些数据能够完整地描述音视频介质的基本状态,也是区分音视频介质唯一性的数据。
(2)版权数据
版权数据通常包括创作者、创作账号、专辑、素材引用关系等信息,尤其在素材共享、二次创作活力强的平台上,上述数据既可以用于内容确权,更是算法进行关联推荐的基础。
2. 运营阶段
运营阶段是对音视频内容进行数据化加工的重要一环,需要通过“人工+ 智能”的综合手段尽可能多地丰富音视频内容的数据化程度。数据层级的设计、数据维度的注入将决定音视频内容的智能化应用水平。在总台算法建立的体系中,包括以下类型。
(1)品类数据
品类数据类似于电视媒资的编目,依据新媒体平台的调性把音视频内容按照层级进行分级、分类,每个内容只能属于唯一的细分品类。
(2)标签数据
标签数据由多层次多类别的描述性字段组成,把音视频图像的关键元素转义为数据格式,便于算法推荐的机器学习。标签数据是新媒体运营的核心,在总台算法体系下有两个主要维度。
a. 内容理解标签
对音视频内容的客观描述,例如人物、地点、时代、场景等,把内容所包含的客观元素进行数据化封装,便于算法推荐抽取、计算。内容理解标签通常是持久性存在,因为音视频内容一旦创作完成,人物、地点之类的元素已不可能改变。
b. 运营标签
对音视频内容的主观描述,通常有吸引关注的热点事件、热门话题等,此类标签一般具有强烈的时效性和指向性,例如“争冠之战”,可以赋予各类运动各类赛事的冠亚军决赛,且比赛结束这个标签就失去了意义,再次启用时已是另外一场赛事。
(3)标准化数据
标准化数据是基于制作质量、创作水平等标准对音视频内容进行判断的数据,这些数据能够帮助算法推荐对内容的艺术水准进行打分,把具有艺术性的内容筛选出来。在总台算法体系下有三个主要维度。
a. 制作质量
通常从清晰程度、封面构图、音道质量、标题错别字等制作因素角度对音视频内容进行判断,旨在把制作精良的内容挑出来。
b. 创作水平
通常从选题合理、主题鲜明、表达清晰等内在因素角度对音视频内容进行判断,旨在把有内涵、正能量的内容挑出来。
c. 吸引力
通常从标题吸引力、封面图吸引力、时长吸引力等外在因素对音视频内容进行判断,旨在把生动有趣、长短合宜的内容挑出来。
3. 传播阶段
相较于创作阶段与生产运营阶段对音视频内容的一次性数据化处理,传播阶段对内容的数据迭代是一个反复进行的过程。在内容下架之前,随着传播的持续进行,不论是用户对内容的主动交互,还是系统对内容的推荐推送,产生的数据都会黏附于内容,不断增长。传播阶段的数据主要包括以下类型。
(1)推荐曝光数据
推荐曝光数据是一个庞大的数据集,可以包含所有用户获得系统推荐内容,以及内容产生曝光的数据。这个庞大的数据集对于任何平台都是很大的压力,一般只保留较短时间内的数据,完成画像后丢弃。推荐曝光数据可以试探用户对内容的喜好,不断收敛兴趣范围。
(2)点击播放数据
点击播放数据是播放过程产生的数据,每一个音视频内容具有一组数值,记录点击次数、播放次数、播放时长等播放状态,以及暂停、卡顿、投屏、断流重连等事件信息。
(3)互动数据
互动数据是用户与内容“强交互”产生的数据,通常包括转发、评论、点赞、收藏、预约、举报、屏蔽等,互动数据是最能反映用户对内容的好恶,是算法推荐中极为依赖的数据元素。
4. 画像阶段
画像阶段是传播阶段的一个伴随过程,鉴于传播阶段产生的数据量过于庞大,既无法全部保存,也不可能对大数据量做到实时处理,为此对每一个小时间段的数据集进行阶段性画像处理,把巨大的信息量浓缩成结论性的数据。在新媒体平台,画像模型主要用于“用户”视角,也同样存在“内容”视角的画像,主要包括以下类型。
(1)热度画像
热度画像依赖播放、互动等基础数据和内容上架时间,通过时间惩罚模型综合评判。在内容不下架的情况下,上线时间长的内容累计的播放、互动数往往要大于新上架的内容,但从内容本身而言不够“新”;新上架的内容时效性固然强,但可能假以时日仍然“热”不起来。行业应用比较成熟的时间惩罚函数可以解决这个问题,将传播数据除以t1.8(上架时间),使得上架时间长的内容需达到“病毒式传播”,才能与新热内容形成竞争。
(2)分众画像
按照总台对于算法推荐“分众化、专门化、精准化”的指导要求,在用户维度建立了用户的分众画像。通过推荐引擎对内容的预处理,全部内容能适配到分众的,提前打上分众标签,适配多个分众的则打上多个标签,并根据适应度对每个标签赋予分值。分众画像的标签是实现实时推荐的关键,把复杂的计算过程前置处理。
三、关键系统与关键技术的实现
数据纠缠体系的建立依靠一套庞大的技术体系,总台算法以2019年上线的总台5G新媒体平台为核心,集成多个技术系统实现了数据纠缠体系的流程化应用,详见图2。
1. 数据中台
数据中台是大数据存储、计算、服务的核心系统,也是数据纠缠体系的支撑系统。总台数据中台是总台5G新媒体平台的组成部分,采用横跨公有云、专有云、私有云的混合架构,按照“计算向数据靠拢”的设计原则,以公有云算力承载主要的实时计算,为各新媒体业务和广大用户提供在线服务;以专有云算力承载主要的批量计算,通过“削峰平谷”策略优化资源使用;以私有云对接台内的各关联系统,保障数据安全和用户隐私。
数据中台可为千万级在线用户提供服务,为百万级节目内容提供实时的播放数据、互动数据计算,对外汇聚庞大的用户数据、节目数据、业务数据与互联网信息数据,对内提供规范化的数据支撑与标准化的算力服务,形成一套数据开放共享、系统互联互通、安全可管可控的总台大数据运行体系。
2. 标准化系统
标准化系统是生成新媒体素材内容画像的核心系统,是总台视频中台的一部分。该系统依托新媒体素材库,支持视频中台多个系统间的信息同步与展示,可根据总台业务需求接入长视频、短视频等各类视频内容并设置分级权限,确保数据安全。
标准化系统支持大于千人的标签团队同时在线对新媒体素材进行抽象降维、内容分级、可推荐判定等处理,最终以标签的形式实时生成新媒体素材的内容画像,并设置并行的数据质检流程,确保数据生成的时效性及准确性,为总台算法提供强有力的数据支撑。
3. CMS
CMS是5G新媒体平台的内容管理平台,承载内容生产、内容编排、运营管理等任务,是内容元数据产生的关键系统。CMS负责记录内容创作过程中的各类信息,以系统管理中产生的数据对内容元数据补足。CMS通过可视化的操作界面实现频道配置、模块配置、人工编排内容等基本功能,也配备了丰富的页面编辑小工具,实现对新媒体客户端的页面编排,如焦点图、长视频、横滑图、Feeds流、账号内容呈现,涵盖电视、移动直播、短视频、搜索、央友圈等多种内容形态。
4. 总台算法推荐引擎
总台算法推荐引擎是进行大数据处理与推荐计算的核心系统,依托庞大的数据资源和算力解决“用户—内容”的匹配关系。推荐系统由召回、排序、重排等技术环节构成,采用业界领先的多路召回、多目标学习、特征工程、迁移学习等算法模型,通过引入数据中台、标准化系统、CMS系统的多源数据,建立内容理解和用户画像两套数据模型,从而计算“用户—内容”的关联关系。
相比商业平台,总台算法的推荐引擎增加了信号联动模块,接收来自算法工作台的规则信号,结合算法模型中对主流价值、艺术价值和商业价值的预设定,综合用户兴趣、重点宣推、共性热点等因素进行内容推荐。
5. 算法工作台
算法工作台是总台算法的一个创新应用,主要承担推荐规则管控和数据化运营两个核心任务,既实现总台算法的可管可控,又为运营人员在管控过程中提供丰富的数据分析支持。算法工作台按照总台对新媒体平台的运营策略转化成推荐规则,以信号的方式与推荐引擎进行联动,以推荐规则干预算法推荐全过程的各个环节。
借助大数据分析能力,算法工作台可以圈定召回范围,避免价值观不符的内容被推荐;可以主动干预排序,适度提高主流价值和艺术精品的内容;可以通过提权、降权、屏蔽、保量、限流等手段对内容的传播覆盖进行精准管控。同时,算法工作台提供了用户画像、流量监测、直播监测等一系列数据工具,辅助平台的数据化运营。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。