大数据运营管理体系(大数据时代下的内容运营体系建设)
大数据时代下的内容运营体系建设
内容型的互联网产品,如新闻资讯、内容社区、音乐视频、小说漫画等主要为用户提供内容服务。而庞大的内容离不开运营,运营就是把内容更好地组织聚合,并推送给消费者,让用户享受到更好的服务。大数据时代下,内容运营体系是怎样建设的呢?
人与信息的三个问题
人们关于内容的消费,紧密地围绕三个问题。1、信息如何有效产生?2、信息如何有效组织整理?3、信息如何有效触达消费者?当这三个问题解决了,一个内容产品才能够得以生存和发展。今天我们主要针对第二和第三个问题来展开讨论,即数据如何有效组织和整理,以便于更好地触达消费者。
内容主要是指对人们有用的信息,包括资讯、音视频、文章、书籍等等,不同的平台有不同的内容,不同的人们需要不同的内容。因此,数据、信息、人构成了我们要讨论问题的三个基本要素,以下是它们的关系图。
数据、信息、人三者关系
数据有很多种产生方式,比如专业的生产者PGC,包括记者、作家、导演等;比如普通UGC用户,以及介于两者之间的小型专业创作者PUGC。数据来源也有很多,比如这种供用户消费的内容数据;也有用户通过浏览观看产生的行为数据;还有各种抓取、共享和挖掘来的数据等。
数据通过加工和整理才能成为有用的信息,有用的信息才是内容,而内容只有经过一定方式让用户消费才能真正产生价值。不同的数据加工成信息的方式不同,大多加工是对原始数据进行整理和包装,再进行关联聚合。数据触达用户的方式通常是推荐和分发,以及用户主动的搜索和浏览行为。
数据有很多种类。这里主要分为两大类,第一类是内容本身的数据,即基础属性数据和特征信息数据,另一类是内容消费所产生的行为数据,包括用户浏览行为和内容消费行为等。具体如下图。
数据的分类
内容数据可以划分为实体数据和关联数据,以及结构化或非结构化数据等。行为数据包括用户行为和内容消费数据,大多是结构化的,主要来自数据投递以及系统日志等。通过对内容和行为这两类数据的特征分类计算,可以得到内容画像和用户画像。当拥有了这两个画像之后,我们就可以针对画像进行圈层关联。推荐算法就是将这两种圈层最优地匹配起来,即将特定的内容分发给特定的人或人群。
内容离不开运营,再好的内容如果不去包装或者没有触达给用户,那么内容就会沉寂。互联网时代里,酒香还真怕巷子深。因为数据大爆炸,内容太多了。人们面对这么多内容,不知道该何去何从。因此,良好的内容运营就至关重要。以下是关于内容的运营方式,包括基于内容的产品运营、市场运营、用户运营、活动运营等。
内容与运营关系
本篇主要针对的是与内容实体相关的运营,也就是对资讯文章、音视频等内容进行整理组织和推送分发等产品内的运营,不是指面向自媒体时代的内容营销。
内容运营有很多方式,总体上可以分为基础运营和高级运营、智能运营等。这些运营的前提是内容基础数据的建设。
运营结构关系
内容数据建设,主要是基础信息描述与属性特征库。基础运营分为站内和站外运营,站内运营主要是根据自身产品特点,提供内容不同展现的方式,比如首页、分类页、频道页,让用户能够找到想要看的内容。高级运营是在基础运营之上的增强手段,帮助用户更便捷地浏览信息,提升用户体验和增加黏性。智能运营是高级运营的升级版,主要是基于大数据驱动,通过对用户行为与内容特征的计算分析,进行个性化推荐。
内容有很多种运营方式,产品就有很多种运营的模块体系。通过这些模块体系来实现各种运营途径,以让内容更便捷地触达消费者。
运营模块体系
随着大数据和智能技术的发展,自动化、智能化、机器替代人工的事情越来越多。在内容运营领域也一样,工具会帮助人们提升对内容组织的加工效率,同时人工智能也会通过对内容和用户特征的计算分析,让内容与用户实现最佳匹配,从而让内容更好地被用户消费。
数据与大数据驱动运营都基于数据,本质上也都是为了让用户享受到更精准内容服务。数据驱动主要是分析内容信息被消费的情况,比如点击量以及停留时长,从而推断出热度以及流行趋势等,这将有助于人工做出合理的决策。大数据驱动也需要分析内容消费的情况,所不同的是大数据还需要分析用户行为和内容特征,并将内容和用户做最优匹配,从而实现最佳的消费效果。
数据驱动与大数据驱动
数据驱动通常适合那些高质量的精品内容,这些内容更加适合以人工为主的运营,像电视、报刊、门户网站、长视频等都是这种模式。而大数据驱动更适合那些内容丰富的泛娱乐内容,像微博、头条、短视频等,这些站点内容量巨大、质量层次不齐,更适合机器来做基于用户特点的个性化推荐和分发。不同的场景适合不同的方案,数据驱动和大数据驱动这两者并没有优劣之分,在实际场景中通常也都是结合来使用。
基于数据还是大数据驱动都离不开数据仓库的建设。数仓包括数据采集、存储、处理和查询应用等。以下是一整套大数据架构的实时方案,数据来源有Hive和DB或直接监听Kafka消息等,经过ETL和Flink等对实时流的处理,我们把数据存储在HBase或MongoDB,再把数据同步到ClickHouse或ElasticSearch查询引擎,这样应用层则通过查询引擎的语法来进行查询和计算了。
大数据架构实时方案
当然实时的大数据方案有很多种,不同的场景也有方案和选型的差异。这里只是提供大数据架构的基本方案,就不具体展开细节介绍了。有了一套大数据实时方案,再加上已有的用户画像和内容画像,那么我们就可以基于用户行为进行实时内容匹配计算了,从而实现实时的用户个性化分发和推荐。
有了实时方案,还需要大数据离线方案,这将便于我们构建用户特征库和内容特征库。实时方案面向的是实时性的数据计算,主要基于秒、分钟和小时级,便于实时数据计算,快速做出决策。而离线方案则基于天数来进行计算,离线方案更适合做用户画像、内容画像,以及数据大盘和数据报表等,有助于构建用户圈层和内容圈池。通过对于存量数据的挖掘分析,我们还可以发现更多的商业价值。
大数据架构离线方案
离线方案主要是对原始数据进行层层清洗处理,并建立不同层级基础特征、行为主题和业务场景表,并将相关表导入到Kylin、Impala、Pilot或Druid等查询引擎中,上层应用则通过查询引擎来实现对于数据的查询和计算。离线大数据方案也有很多种,这里给出的也只是一种参考,具体哪一种方案要根据实际的业务场景。
本篇主要介绍了内容数据的来源、种类以及内容运营的不同方式,同时介绍了基于数据驱动与基于大数据驱动的内容运营的差异,最后给出了大数据的实时和离线方案。通过本篇,我们对数据驱动内容运营有了一个概况了解,具体的数仓建设、数据内容特征建设、内容画像建设、用户行为分析、用户画像建设,以及智能推荐和分发算法等以后再具体分析讨论。