中国IDC服务网

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
IDC服务网 首页 IDC商讯 查看内容

​ 数据中台到底包括什么内容?一文详解架构设计与组成

2020-11-18 13:04| 发布者: admin| 查看: 1780| 评论: 0

摘要: 01数据中台功能架构数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大 ...

01数据中台功能架构

数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层(见图4-2)。

▲图4-2数据中台功能架构

1.工具平台层

工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具。

以上工具集基本覆盖了数据中台的数据加工过程。

1)数据开发平台

大数据的4V特征[1]决定了数据处理是一个复杂的工程。建设数据中台需要搭建建设数据中台的基建工具,要满足各种结构化、非结构化数据的采集、存储与处理,要根据场景处理离线和实时数据的计算与存储,要将一个个数据处理任务串联起来以保障数据的运转能赋能到业务端。

[1]大数据的4V指Volume(数据量大)、Variety(类型繁多)、Velocity(速度快,效率高)、Value(价值密度低)。

因此首先搭建一个大数据能力平台是非常有必要的。当然,可根据企业实际情况来决定是外采还是自建平台。

2)数据资产管理

数据中台建设的成功与否,与数据资产是否管理有序有直接关系。前文提到,数据中台是需要持续运营的。随着时间的推移,数据不断涌入数据中台,如果没有一套井然有序的数据资产平台来进行管理,后果将不堪设想。

数据资产管理工具既能帮助企业合理评估、规范和治理信息资产,又可以发挥数据资产价值并促进数据资产持续增值。对于数据资产管理,我们不推荐事后管理,而要与数据研发的过程联动。也就是说,当数据经过数据开发平台加工的链路时,数据资产管理平台就已经无声无息地介入了。

数据资产管理的首要任务是管理好进入数据中台的元数据,这里的元数据包括数据源、建设的各种模型、通过模型拆解出来的指标与标签以及调度作业。有序管理这些数据资产的元数据是前提条件,只有做好了这一步,才能继续对数据流向的追溯,才能对指标、标签体系的生命周期进行管理,确定指标的使用频率,决定是否下线。

3)标签工厂

标签工厂又称标签平台,是数据中台体系内的明星工具类产品。标签建设是数据中台走向数据业务化的关键步骤。因此,一个强大的标签工厂是数据中台价值体现的有力保障。

严格来说,标签工厂也属于数据开发平台的一部分,为什么我们要把它单独剥离出来讲呢?这是因为标签的使用场景丰富,标签与业务结合得非常紧密;同时,标签数据的存储与分析型数据的存储有一定的差异。

标签工厂致力于屏蔽底层复杂的大数据框架,面向普通开发人员、数据分析师、运营人员提供友好的界面交互配置,完成标签的全生命周期管理;同时,对上层业务系统提供自身API能力,与各业务系统形成数据闭环。

标签工厂按功能一般分为两部分:底层的标签计算引擎与上层的标签配置与管理门户。标签计算引擎一般会采用MapReduce、Spark、Flink等大数据计算框架,而计算后的标签存储可采用Elasticsearch或者HBase,这样存储的好处是便于快速检索。

而标签配置与管理门户则支持通过配置标签规则提交到标签计算引擎,就能定时算出所需要的标签。标签配置和管理门户还提供标准的标签服务申请与调用。通过标签工厂,数据中台团队可减少大量的数据开发工作。

4)ID-Mapping

ID-Mapping又称ID打通工具,是数据中台建设的可选项。可选不代表不重要,在一些多渠道、多触点的新零售企业,离开了这个工具,数据质量将大打折扣。

举个例子。消费者在逛街的时候看到一款剃须刀,扫了店内的二维码,正准备下单购买时被朋友的电话中断了。回到家,打开抖音又看到这个剃须刀的广告,便立即打开链接下单购买了。

这样的场景在生活中比比皆是,其中隐藏了很多的消费者信息,如果我们不去打通ID,那么可能至少会将同一个用户当作4个用户来处理。实际上可以将扫描二维码记录留下的OpenID、抖音注册留下的微信号、下单提供的订单手机号码及注册账号等多条信息结合起来,判别是不是同一个人。这样给这个消费者打标签或者推荐商品就会更加精准。

ID-Mapping功能的建设一般会利用强大的图计算功能,通过两两之间的关系实现互通,自动高效地将关联的身份映射为同一身份即唯一ID的数据工具。它能大幅度降低处理成本,提高效率,挖掘更多用户信息,形成更完整的画像,大大利于数字营销的推进。

另外,ID-Mapping工具也可用于企业主数据治理。

5)机器学习平台

在整个机器学习的工作流中,模型训练的代码开发只是其中一部分。除此之外,数据准备、数据清洗、数据标注、特征提取、超参数的选择与优化、训练任务的监控、模型的发布与集成、日志的回收等,都是流程中不可或缺的部分。

机器学习平台支持训练数据的高质量采集与高效标注,内置预训练模型,封装机器学习算法,通过可视化拖曳实现模型训练,支持从数据处理、模型训练、模型部署为在线预测服务,通过RESTfulAPI的形式与业务应用集成,实现预测,打通机器学习全链路,帮助企业更好地完成传统机器学习和深度学习的落地。

6)统一数据服务

统一数据服务旨在为企业搭建统一的数据服务门户,帮助企业提升数据资产的价值,同时保证数据的可靠性、安全性和有效性。

统一数据服务支持通过界面配置的方式构建API和数据服务接口,以满足不同数据的使用场景,同时降低数据的开发门槛,帮助企业实现数据应用价值最大化。

统一数据服务作为唯一的数据服务出口,实现了数据的统一市场化管理,在有效降低数据开放门槛的同时,保障了数据开放的安全。

2.数据资产层

数据资产层是数据中台的核心层,它依托于工具平台层,那么这一层又有什么内容呢?答案是因企业的业务与行业而异,但总体来讲,可以划分为主题域模型区、标签模型区和算法模型区。

1)主题域模型

主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。

为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域。

数据域划分需要先对业务系统进行充分调研。将业务过程划分到哪个数据域没有绝对的对错,但是会影响报表开发人员定位数据的效率,所以还需要从开发人员定位效率的角度来进行综合划分。

2)标签模型

标签模型的设计与主题域模型方法大同小异,同样需要结合业务过程进行设计,需要充分理解业务过程。标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等。这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在关注、注册、浏览、下单、评价、服务等环节。

那么在设计标签的时候就需要充分理解这些业务流程,在流程中发现标签的应用点,结合这些应用点来搭建企业的标签体系。

标签模型按计算模式一般分为客观标签和主观标签,客观标签是可以量化的,而主观标签是不可量化的。根据实现方式又可以将标签分为事实标签、模型标签、算法标签等,根据业务场景还可将标签分为基础信息标签、偏好标签、价值标签等。

设计标签模型时非常关键的要素是标签模型一定要具有可扩展性。毕竟标签这种数据资产是需要持续运营的,也是有生命周期的,在运营的过程中随时可能增加新的标签。

3)算法模型

算法模型更加贴近业务场景。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题。整个模型搭建过程包含定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节。

以新零售企业为例,常用的机器学习算法有决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等。这些算法已经非常成熟,可以用来实现商品个性化推荐、销量预测、流失预测、商品组货优化等新零售场景的算法模型。

3.数据应用层

数据应用层严格来说不属于数据中台的范畴,但数据中台的使命就是为业务赋能,几乎所有企业在建设数据中台的同时都已规划好数据应用。数据应用可按数据使用场景来划分为以下多个使用领域。

1)分析与决策应用

分析与决策应用主要面向企业的领导、运营人员等角色,基于企业的业务背景和数据分析诉求,针对客户拉新、老客运营、销售能力评估等分析场景,通过主题域模型、标签模型和算法模型,为企业提供可视化分析专题。

用户在分析与决策应用中快速获取企业现状和问题,同时可对数据进行钻取、联动分析等,深度分析企业问题及其原因,从而辅助企业进行管理和决策,实现精准管理和智能决策。