13 篇博文 含有标签「用户案例」

Apache Doris Github：

Apache Doris 开发者邮件组：

知乎基于 Apache Doris 的 DMP 平台架构建设实践

2022年7月12日

用户理解&数据赋能研发 Leader 侯容

用户案例

导读：知乎基于业务需求搭建了 DMP 平台，本文详细的介绍了 DMP 的工作原理及架构演进过程，同时介绍了 Apache Doris 在 DMP 平台的应用实践，本文对大家了解 DMP 工作方式很有帮助，欢迎阅读。

DMP 业务背景

DMP 平台是大家老生常谈的话题。在早期广告系统出现之后就拥有了类似的 DMP 平台，比如：腾讯的广点通、阿里巴巴的达摩盘等都是业界做的比较好的 DMP 平台典型。而知乎搭建属于自己的 DMP 平台，一方面是因为知乎有相关的站内运营业务；另一方面也是因为我们可以通过搭建 DMP 平台支持内部系统对接、同时还可以协助完成相关业务发展以及定制化需求建设的目的。

DMP 业务包含：业务模式、业务场景以及业务需求。

图 1.1 DMP 业务

DMP 平台设计的方向：为了找到我们的核心客户，并在后续对我们的核心客户完成如广告投放等营销操作，让核心客户跟我们的内容之间能够有更好的匹配。

业务模式

DMP 平台业务模式

从站外转站内。典型场景是广告主在进行广告投放的过程中，如何通过 Mapping 将可能出现的站外人群转到站内，并在站内的系统上承接这些用户包。
从站内转站外。 在知乎内先找到定向用户后再去用这些用户在三方投广告。
站内运营。 包括内容运营，用户运营以及活动运营。一方面可以增加知乎相关内容的宣传，另一方面进行客户定位并精准解决某些客户的问题与需求。与此同时，我们也可以通过活动设计来提升业务效果。

业务场景

基于这三种业务模式，主要应用的业务场景：

信息流方面。 拿推荐场景举例：推荐场景中会有定向推荐以及定向提权两种诉求。定向推荐是我们把推送内容定向推送给某些用户，而定向提权是我们把推送内容在被推送的用户身上完成提权并重新打分。
广告侧实时竞价。 得知该用户身上挂了哪些广告之后可以进行实时竞价，通过排序选出最适合该用户的广告。
详情页。 详情页中会有弹窗提示：比如说某个用户点击某个详情之后，若该用户没有达到目标条件，会弹窗引导来该用户达到条件。
活动平台。 设置活动的目标用户。针对不一样的目标群体，展示不同的活动信息。
触达系统。 比如在推送消息、弹窗和短信时，可以拿到一类具体的用户，之后向该类用户进行发布相应的 Push 和站内信等。
站外投放。 找到合适的用户群并在站外为其投放相应的广告。

业务需求

基于业务模式场景，在人群方面能做的事情可以分为三类：

对接系统

一般分为以下 3 种情况：

该用户命中了哪些人群包。拿广告系统为例，该人群包 ID 可以 Mapping 成一个广告，也就是该用户命中了哪些广告。
内部人群包。人群包对内部而言就是把内容推荐给谁，或者给谁发布内容的 Push。
对外部的广告。当我们筛选出一类用户需要投放在站外时，这时候就是在使用对外部的人群包。对于这两个人群包之间的区别而言，人群 ID 会有不同：一种是站内的通用 ID，另外一种是基于不同投放平台上对应的对外 ID。

人群定向

人群定向包括导入/导出、基于某些特征进行标签圈选、人群泛化、用户量预估等。

人群泛化，拿到比较小的种子人群包后，基于规则寻找相似特征，再通过对相似特征的置信度进行调整，扩展更多的人群。
用户量预估，选中一批用户后需要立即了解这批用户的数量有多少。

人群洞察

包括画像洞察，用户的内部画像以及两个不同人群包之间的对比分析。

业务流程

由于当前 DMP 业务的三种场景面向人群不同，会提供向站内与站外不同系统来完成这批人群相关的运营动作。

据此情况，我们组织人群定向功能、获取到目标用户之后进行 Mapping ，拿到用户在站内或站外投放的效果回收之后，获取目标用户进行构成分析与对比分析，进行用户洞察。若目标达成，那么本次投放顺利达成；若目标未达成，运营侧会做相关假设：是否可以再加一个特征或特殊操作进一步提升业务？提出假设之后，设计 AB 实验，经过 AB 试验后，我们又会对目标人群进行一些调整。以上就是我们的运营流程。

图 1.2 DMP 业务流程

站内运营自闭环

人群定向。 通过标签圈选，选择历史上有活动效果或导入喜欢此活动的人群，进行泛化完成基础人群包选择，以此来确定目标人群。

进行投放。 由于很多业务在推荐侧的信息流、触达系统、详情系统以及广告引擎等系统中进行对接，可以利用以上系统和业务来完成对目标用户在站内不同流量场景投放。

投放之后。 获取本次投放的效果并进行分析。比如我们做的操作是发 Push，谁点击了 Push、阅读时间等行为，可以分析有哪些用户更喜欢我们此次发布的 Push，从而获得目标用户的典型特征。

若此次 Push 的点击量达成推送目标，那么目标完成；若点击量没有达成目标，我们会进行一个假设，比如最初预测点击 Push 的男性＞女性，但最后得出的结果相反时，我们会通过 TGI 算法进行排序，找出这两次差别的典型特征，完成设计并产出 AB 实验。

通过 AB 实验我们可以对前后的人群包再做一次对比并发布相关的 Push。如果点击量有所提升，我们在后续过程中就会不断的完成循环，最终找到基于我们运营场景的领域的精准用户。

站内向站外投放

基于已经积累的用户特征数据，找出在知乎内部有几率产生站外效果的人群，并划出该类人群的范围。再通过 Mapping，可以把站内的 ID 转换成在三方投放平台上产出的 ID 并进行投放。

由于这个过程我们的站内系统不同，并不能直接拿到相应的埋点数据供我们进行数据链路建设，所以就必须要通过三方投放平台上下载相应的埋点数据，通过类似的场景完成数据导入后再进行后续流程的建设。这也就导致了整个过程的效果回收会比较长。

站外转站内

假如我是一名知乎站外的广告主，我要投放一个牙膏类的产品，但是我对知乎的用户并不是特别了解。通过前期所做的运营调研，可以发现历史购买牙膏的人群包是什么样子。那么就可以把前期调研所得到的人群包通过 ID Mapping 转换为知乎 ID 并导入生成目标人群。但是广告主拿到购买牙膏的人群可能存在与知乎用户重合度较低的情况。这时候启用第二个功能，也就是人群泛化功能。

人群泛化会把导入人数较少的种子人群连接到知乎，这个过程可以对用户达成的所有特征在 AI 模型中完成训练。可以训练出种子人群在知乎所有用户特征下的模型是什么，之后再把所有用户的全部特征灌入得到的模型之中进行推理。这样得到带有置信度的目标用户。

若广告主认为基于之前的调研结果来看，相关目标人群在知乎中为 1,000 万左右，此时我们就可以选择对于目标用户的置信度。比如说当置信度为 0.7 时，得到结果为 2,000 万；之后我们把置信度调整为 0.8 时，得到结果为 1,000 万，此时我们就可以选择 0.8 的置信度完成广告引擎的对接并进行投放后分析效果。

基于上述运营流程，我们可以抽象出 DMP 平台最核心的功能包括洞察、定向以及 ID mapping。

画像特征

图 1.3 DMP 画像特征

我们根据上述的用户画像，构建出了画像特征。其中标签是最重要的部分，也是离散部分。连续部分包括了用户的停留时长以及相关的用户行为，比如：某人在某地做了什么事等，这些都属于连续特征。特征方面，在该特征还没有打上标签之前，我们会统称为普通特征。

功能梳理

图 1.4 DMP 功能梳理

基于 DMP 平台的功能，向右侧拓展为业务功能。业务功能会服务于运营、销售或站内的应用系统，包括人群定向、人群洞察以及相关的 ID Mapping。向左侧拓展是信息量巨大且十分重要的特征接入部分。

当前 DMP 平台由于单从标签方面就有 250 万的标签量级，在用户 X 标签也有 1100 亿相关用户数据，同时业务方面对部分标签具有实时性要求。这也就导致在特征接入过程中需要做很多事情。

接下来将为大家介绍具体功能。

人群定向。 人群定向方面整体上分为导入与导出、特征圈选以及人群泛化这三个功能。
人群洞察。 包括构成分析和对比分析两种功能。构成分析部分我们可以简单理解为一个饼图或柱状图。对比分析是多个人群对比分析。
ID Mapping。 整体上将无论是 oai、idfa、手机号，全部硬生成知乎的连续统一 ID，而且这个连续 ID 基本是严格自增的。
特征接入
- 建设方式分为实时特征及离线特征
- 标签组方面有离线和实时两种接入方式。其中树状标签主要用来应对复杂场景，如用户对某话题在阅读和互动方面的是多选的树形结构。

DMP 架构与实现

图 2.1 DMP 业务架构

我认为架构对于实现最终目标是很重要的阶段，但并不是必要阶段。只要我们把所有功能都进行完善就可以完成我们所有的业务实践，但是这样会导致在系统经过不断膨胀后，所对应的维护成本也会不断变高，稳定性变差，最后导致没有人可以维护的窘迫情况发生。架构主要可以为我们解决在多个复杂业务功能场景下，如何以低成本的方式进行维护迭代并有目标的去针对某个模块进行优化，但并不能解决实际的业务功能问题。

基于以上我对架构的认知，对业务以及整体 DMP 架构进行拆解：

DMP 使用用户

DMP 系统对接的是 3 类用户：

平台方面，包括广告平台、信息流、广告引擎以及触达系统。
操作人员，包括运营、投放以及销售等业务相关操作人员。
诸如特征开发的产品及相关内部产品。

而这三部分人所对接的最前台的系统也是不一样的。

首先我们认为，平台或系统方面会与 DMP 的接口层对接。接口主要分为三种：

第一种接口是诸如广告引擎和信息流经常请求用户命中了哪些人群包列表。 在广告引擎内，完成请求之后就可以直接把人群包列表变成某个广告 ID 并完成竞价。信息流与广告引擎类似：当前用户若命中了我们要提权某内容或领域标签时，我们就会进行提权。该接口的设计就是典型的高稳定性、高并发、高吞吐。我们可以通过线上数据来进行该接口与其他接口的承载差别对比：该接口当前承载了 10 万 qps，由于接口对接了公司的核心系统，因此不能有任何抖动与故障，对它的稳定性要求达到 S 级，所以该接口也有多机缓存和高并发方面的相关设计，需要能够达到高稳定性、高并发、高吞吐的目标。

第二部分是站内与站外的人群包，该部分和上述内容也比较类似，都会对接到我们最核心的系统。一旦人群包无法圈选人群，后面整体的营销与定向投放也都会受到影响。对于 DMP 前台部分，该部分和接口层存在着明显区别：DMP 前台主要对接的是我们的内部运营同学与销售同学。DMP 前台若产生异常情况，只是会不能进行新的洞察以及人群定向的，不会影响正常使用历史人群。由于该部分会对接众多的销售和人群而不是对接重请求的接口，使用的复杂性也就必须要降到最低，减少在运营方面的培训成本，所以 DMP 前台就需要具备操作简单且使用成本低的特点。

第三方面是对接我们的内部系统，这部分主要会降低我们日常开发的成本。

DMP 核心功能

DMP 能够支持人群圈选、泛化、人群洞察的核心业务模块；支持标签生产， ID Mapping 还有计算任务运维和存储方面的功能。

DMP 业务模块

DMP 业务模块分为上下两层，向上的业务层实现新增功能的低成本化，重点在于可扩展性；向下的业务层随着人群与业务功能的增长，整体的开发或技术投入成本不会有太大的产出，也就是资源上的可扩展性。

DMP 基础设施

最下方是基础设施，需要保证基础设施相关的稳定性。

我们判断接口的依据是请求的接口主要承载是 Redis；Doris 主要承载了 DMP 前台和整体业务功能；后台部分主要承载是 MySQL 与 TiDB。以上是我们当前具体底层数据库的相关承载方面。

有人会问 Redis 成本是否会太高？不会的。因为核心的圈选人群逻辑都是在 Doris 上实现的，存放的大量相关标签都是通过 Doris 进行存放，只有在某个广告要指定某目标人群的某几个特征进行排列组合并且完成泛化时，我们会圈选出某个人群包 ID 对应的结果，最后才导出存放到 Redis 中。因此 Redis 的主要目的是用来扛高并发，实际的存放量很少。

DMP 平台功能盘点

功能盘点主要分为业务向与基础向两部分。

图 2.2 DMP 平台功能盘点-业务向

业务向

业务向我们能够支持人群定向以及人群洞察两部分能力。

人群定向：

人群预估：比如说对性别、年龄、感兴趣的话题、该用户手机品牌是等多个条件进行排列组合，要求能够在 1 秒内完成精确结构的人群特征量级预估。
人群圈选：经过精确结构的人群数量预估后，可以在分钟级别内将预估结果转化为要进行投放和使用的相关人群包。
人群包泛化：泛化的能力要求尽可能简单，比如说我选择有历史的人群包后，就可以进行人群泛化并有具体的执行度选择。

人群洞察：

可以探索当前活动入口画像，并完成流量回收。比如说我向 100 万人发布了推送，其中有 3 万人点击，那么可以对这 3 万人进行流量回收，与已推送的 100 万人进行对比，就可以这 3 万人明显的用户特征，方便我们后续提取出更精准的用户群体。

基础向

另外 DMP 架构还有一些基础功能，包括了主要特征建设、ID mapping 以及计算任务运维。

图 2.3 DMP 平台功能盘点-基础向

这三个基础功能不仅可以让我们快速完成实时和批量计算，还能够帮助我们解决新老版本滚动上线的问题。因为我们当前无论是通过 AI、数据采买、特征筛选，找到一个用户，即使是性别这种最基础的特征，也是在不断优化的过程，但每次优化是没有办法快速进行运营影响的评估，因此就需要做到多版本灰度上线，并进行滚动上线。

特征建设

特征整体有两部分，一种是原子特征，一种是派生特征。

在建设原子特征时，我们就需要从离线或实时数据中生产大量相同基准的特征。
对于派生特征，会基于已生产的特征再生产一个特征。举例：假如我们认为某群体是高消费能力群体，放在一个简单的场景中，我们可能会圈选出一位在 18-25 岁之间并在一二线城市的女性，并认为这样的特征可能是对化妆品消费能力比较高的群体特征。之后我们就会把该特征作为派生特征进行存储并去加快后续计算速度并降低运营筛选的成本。

特征建设可以做到能力隔离，以此来提升我们特征建设和上线效率。

Mapping 能力

包括设备 ID Mapping、用户特征 ID Mapping、泛化特征 ID mapping。该部分整体场景主要是统一 ID,并将 ID 从差别较大、类型不同的不连续 ID 变成连续统一的 int 型自增 ID。

计算任务运维

任务运维主要是完成 DAG 的调度与计算资源管理。如果大家用过 Doris 的话，就会知道 Doris 会使用最快的速度完成每一个 SQL 的执行。因此在进行人群预估时就需要做好排队的速度，否则突然有一波运营动作或热点事件时，可能会出现预估出多个人群包的状况并把所有资源都占满，这样都会互相受到影响，所以就需要通过任务运维进行资源的优先级排队，逐一执行相关人群包的圈选工作。

总结

特征建设可以做到能力隔离，以此来提升我们特征建设和上线效率。
ID Mapping 屏蔽了我们 ID Mapping 的困难成本。我们会分为完成原子特征建设、完成派生特征建设以及进行基础设施的建设这三部分。当基础设施建设同学完成屏蔽或在架构上隔离之后，特征建设的同学就不需要管 ID Mapping 方面的问题，只需要管专注于建设特征即可。
计算任务运维部分，对于业务开发同学并不需要知道底层到底发生了什么，为此我们要有一个同学完成对底层的封装后向上层提供一个接口，业务侧可以直接使用底层的功能的同时屏蔽了底层的复杂性。通过抽象与屏蔽，可以明显的提升最终上线与建设的效率，并能让其他某些工作从研发侧转移到运营侧。

举例： 我们当前有两种特征，第一种是原子特征。在形成原子特征的过程中，写一个 SQL 就可以形成一个特征。分析师与业务产品均可以参与特征的建设过程。第二种是派生特征。我们在运营后台上具备派生特征的交并差的能力，一些业务上的运营动作可以直接在管理后台进行操作并完成派生特征的建设。这样主要的工作量从研发侧逐渐转移到了产品侧与业务侧，明显的提升了各种能力和特征上线的效率。

DMP 核心介绍

DMP 核心部分有两方面：数据的写入/导入以及快查/快读。写入和导入是链路及存储的一部分，快查和快读我会在后续进行介绍。

特征数据链路及存储

图 3.1 特征数据链路及存储

写入部分流程首先是离线链路：离线链路会从各个业务的 Hive 存储上跑相关的 SQL 并生成一个 Tag 表。我们会在 Hive 上落一份 Tag 表后完成离线 Mapping。这个离线 Mapping 过程会请求通过用户设备核心自动生成统一连续的用户 ID，同时在离线 Mapping 的过程会把 imei、idfa、oaid 等数据进行转换和唯一绑定，若过程结束后发现新用户，则生成新 ID，若是老用户则获取用户 ID。通过这个过程，生成 ID mapping 的表，再进行大小写等复杂流程就可以得到用户唯一 ID 与映射 ID 的 Mapping 表，这就是我们得到的第一个表。

接着我们会在 ID Mapping 后进行枚举采集：当前标签组是 125 个，由 120 个离线特征和 5 个实施特征组成。当我们完成这 125 个相关数据的开发之后，数据相应的原子特征就可以通过 Mapping 直接拿出来。之所以要进行枚举采集是因为用户在使用过程中需要标签的搜索功能，当用户搜索标签时，250 万人工录入的成本过高，因此我们在离线和实时处理的过程中会将枚举采集出来，并且通过 Bulk Load 的写到 ElasticSearch 中。在这个过程也会生成连续的自增 ID 去映射用户标签的倒排表，也就是 tag_map 表，这是我们得到的第二个表。另外还存在第三个表用户行为表，这张表是我们在实时数仓方面构建的，因此没有单独强调那一部分。

基于上述三张表的部分，我们形成了三套存储：

第一套是在 ElasticSearch 上的搜索标签存储。
第二套是在 Doris 上，也是最核心的存储。
第三套是整体 ID Mapping 的存储。

获取到这 3 个存储后，可以进行多种 Join 和查询，为后续的洞察及人群定向提供了基础。

接下来为大家公布几个量级：用户 X 标签量级，为 1,100 亿；ID Mapping 是一个宽表，量级是 8.5 亿；ElastichSearch，量级是 250 万。这三个量级也是我们为什么选择 ElasticSearch 和 Doris 的原因。

人群定向流程

上述的数据导入后形成 3 张表，这里是利用这 3 张表产生人群相关定向和人群包。

图 3.2 人群定向流程

人群定向流程分为两种：

第一个是通过购物车筛选人群标签后进行人群预估，最后完成人群圈选回写到 Redis 的流程。
第二个是人群泛化，通过 AI 平台完成 AI 模型的整体训练及人群的推理，再回写到 Doris 中，通过置信度进行选择并打上标签。

简单介绍一下这两个流程的过程：

整体的标签搜索。 用户的前台在产出标签搜索的事件之后就会去完成标签的搜索：通过思考各种名字组合寻找想要的标签后，我们会把这个标签放在标签购物车中并立。这个过程就是不停的向人群购物车中加各种标签和组合条件后，查看人群数量的过程。

这个过程存在的原因是在日常运营使用中，我们会对每次推广或目标群体进行量级预估。如果这个事件原本只涉及 200 万到 300 万左右的人群，经过人群圈选预估出来是 5,000 万，那么肯定是我们圈选条件不够精准，这个情况下我们就需要逐渐添加各种精准的条件，并把圈选控制在合适范围的量级后再形成人群包，所以这个过程会不断进行循环并获取到合适的标签/特征的组合。在获取到合适的组合之后，我们需要确定这个标签的目标和人群是，这个过程就会生成人群包。生成人群包的过程会进行连表操作并关联原数据，同时也会关联 ID Mapping 的表。若出现导出到站外的情况，则会做 ID Mapping 的表并完成站外的 ID 转换。之后再把导出的人群包 ID 与人群 ID 写入 Reids 中，写入之后进行通知。

如果只需要提供人群包来发布推送和短信等的业务就不需要写到 Redis 之中，这样可以大量释放存储并写到离线存储上。比如说一方面是 HDFS，另外一方面是我们对接的对象存储就会写到这些存储之中。由这些存储直接传给推动系统后，信息系统就可以直接拿到人群包并批量的给相关人群发布相关 Push 或推送。

人群泛化。 人群泛化流程最开始可能会有上传人群包的过程，也有可能没有。这个过程主要解决有些业务中，我们拥有某些历史活动的人群并需要进行人群泛化的问题。如果说它的人群包之前点击过我们的 Push，可以直接筛选，筛选完成之后关联所有的用户特征进行用户训练，模型训练完成后再对全站用户进行推理，推理出一批带有置信度的人群 ID 的结果并返回写到 Doris 之中。在这个过程中会同时发起另外一个流程，此流程会对用户侧的泛化的结果进行筛选，可以根据合适的置信度选择合适的数量。

接下来为大家介绍几个常用流程： 在开发完成之后，最核心的流程就是加标签和购物车并完成圈选后，传统的人群进行泛化的流程。但是经过和运营侧沟通后，我们发现日常工作中，运营侧实际上会将我们这几个流程反复进行叠加使用，实际的使用有这么几种：拿到带有历史效果的人群并进行泛化，但是完成泛化之后效果他的用户特征也会被相应被扩大，之后再叠加本次运营特点的标签后完成圈选并进行使用。

第二种是获取到历史效果后进行洞察和分析。 包括查看用户的画像后再重新根据标签关系圈选，之后又叠加了一次历史正向人群包后再去进行泛化。泛化之后再实现分发条件，最后再进行圈选，将该人群包给广告与相关的投放业务。运营侧会做很多基于原子能力以外更复杂的一些组合后再进行使用。

人群定向性能优化

背景

图 3.3 人群定向性能优化背景与难点

当前 DMP 系统中有两大功能，第一大功能是人群定向，另外一大功能是人群洞察。基于这两大功能会有一个底层的功能是建设各种用户方面的画像特征。当我们完成拆解之后，我们就会发现人群定向的这部分功能是运营侧或业务侧的痛点。

场景要求

人群预估，针对投放和营销场景，运营侧会有人数预期，那么会构建相应规模的购物车，持续在购物车中加入新的特征，需要立即看到新的特征加入之后会圈选出多少人，而不是每次加入新的特征后都需要很长时间的等待。
人群圈选，针对热点运营。运营侧在日常工作中会持续跟进发生的各种热点事件，当发生了某些热点事件后，要快速的圈选出人群包发布 Psuh 和推荐。如果圈选过程需要好几分钟，就会错过热点事件。

难点

第一个数据量极大，如上图标注。
第二个期望时间很短，人群预估与人群筛选分别能够在一秒钟内和一分钟内完成。

性能优化（1）

第一阶段优化我们通过了以下几点来解决这两个问题：

图 3.3 人群定向性能优化第一阶段

倒排索引和按条件查询

图 3.4 人群定向性能优化倒排索引及 ID Mapping

首先，倒排索引方面，我们将查询条件由原先的 and or not 改成了 bitmap 函数的交并差；同时我们把连续数值打散成为了离散标签。举例：用户的年龄是大于 0，小于 100 的 int 型，如果按照数字顺序进行筛选，运营侧是不好把控的，圈选的过程中也会导致使用效果不理想。因此我们把按照顺序排列的年龄打上另外的标签，称为年龄段，比如 18-25，0-18 等。
接着，把原先的 and or not 的查询转换为了倒排索引的相关查询，原先建立的表就会变成按照 tag_group 、tag_value_id 、置信区间的标识、bitmap 的顺序排序。同时基于这部分我们也需要进行 ID Mapping，ID Mapping 在导入的过程中的核心就是要把用户 ID 变成连续自增的。

查询逻辑变更

图 3.5 人群定向性能优化查询逻辑变更

原先的查询条件是 where 条件中的 and、or、not，现在经过复杂的手段，把原先的查询条件修改成 bitmap_and，bitmap_or，bitmap_not，我们通过业务代码，将外部运营通过可视化后台配置的 and、or、not 的逻辑全部改为函数式的逻辑，相当于把 where 条件放到了函数和聚合逻辑之中。

但经过优化之后还会存在 2 个问题：

第一个问题是单一的 bitmap 过大，第二个问题是 bitmap 的空间分散。这两个问题集中导致每次进行交并差聚合时网络 IO 特别高。

底层 Doris 中用的是 brpc。在数据交换的过程中，因为每一个单一的 bitmap 都很大，就会导致 brpc 传输拥堵，有时甚至会出现上百兆的 bitmap 进行交换的情况。上百兆的 bitmap 进行交并差计算时性能很低，基本上我们想要达它达到 1 分钟圈选人群，1 秒钟进行人群预估是不可能的。

性能优化（2）

基于仍存在的问题，我们进行了第二阶段的优化。

图 3.6 人群定向性能优化第二阶段

分而治之

第二阶段的核心的思路是分治。当我们进行了第一波上线后，发现人群预估能力是分钟级别，圈选基本上要到 10 分钟开外了。分治的思路是将全站的用户全部打成连续自增 ID 后，按照某个程度进行分组。比如说 0-100 万是一组，100 万-200 万是一组...逐渐分为几个组别。全站用户的交并差，可以等价于分组之后的交并差结果之和。

图 3.7 人群定向性能优化分治

数据预置

当我们发现这个规律之后，通过分而治之可以做相关的数据预置。利用 Doris 中 Colocate group 特性，把每个分组内 100 万人全部放到某一台物理机上，避免网络的开销。

算子优化

全部放到某一个物理机上之后，就可以把聚合的算子由原先 bitmap_and_not 的 bitmap not 和 bitmap count 替换成一个函数来实现。此时基于 Doris 团队的新版本，增加了类似 bitmap_and_not_count 的组合函数后，性能相对于原先的嵌套函数有了比较明显的优化。

解决方案

基于上述解决思路，我们设计了新的解决方案。

新的解决方案以上 3 个思路进行拆分，包括查询逻辑的变更，预估变成子逻辑的求和、人群圈选变成子逻辑的合并。

由于把原先几个 bitmap 的计算变成了多个小组 bitmap 计算，能进一步的提升多线程的并行度，使计算速度提升；同时也对代码进行了优化，将可复合的 bitmap_and_or_not 函数在提交时合并成同一个函数；在写入过程中把分组 ID 和相应的百万分组进行写入调整。
离线和实时之中都会写相应的 tag 表。在完成 tag 表的写入之后可以把每一个 tag 之中不同的 user tag 写到不同的物理机上：比如可以将 300 万拆开分别写在三台不同的物理机上，完成物理机方面的区隔。这里借助了 Colocate group 以及 Group key 进行设置。完成写入之后，计算过程从原先的整体计算变成独立按照每一个 Group 进行计算。由于整体的 bitmap 很大，每一个独立的 Group 又都在一台物理机上面进行计算，速度有非常明显的提升。
在每一个 Group 计算之后进行合并，合并之后，人群预估变成了不同物理机上面的数字简单加和，结果基本达到秒出。人群圈选也就变成了不同物理机上面的 bitmap，再 Shuffle 出去做最后的合并，这个过程量级很小，可以做到 1 分钟之内输出结果。

优化结果

下面两张截图分别是还没有进行合并之前以及合并之后的查询计划。

图 2.7 人群定向性能优化数据预置

优化前： 在查询的过程中，首先我们需要针对某一个 tag 做一个 bitmap_and 和 bitmap_not 或者 bitmap_or，在这之后另外几个 tag 也会做相同的聚合，在聚合完之后再做一次 Shuffle，最后进行 Join。同时另外的部分也会进行聚合，经过聚合之后再进行 Shuffle 和 Join。

这几次聚合过程中，每一个 tag 都有非常高的成本，都需要经过聚合—网络传输—再聚合—再网络传输的过程后再做 Join。

优化后： 查询计划有了非常明显的改变。只需要通过一个函数在合并的过程中进行查询，合并完成之后就可以完成最终的结果合并。无论是 int 类型的相加还是 bitmap 的合并都只有最后一层，速度有显著提升。原先人均预估可需要分钟级别完成，优化后，只需要几百毫秒便可完成，即使是复杂到上千个条件也只需要一秒就可以完成。

人群圈选也和上述过程类似：在条件复杂的情况下，可以做到一分多钟到两分多种之间完成。如果只有几十到一百个的条件的话，人群圈选都可以在一分钟左右完成。

整个过程主要对数据进行了拆分，由 Doris 的 Colocate 原理把拆分后的数据提前预置在某一台物理机上面，通过优化，可以满足大部分场景的运营要求。

未来及展望

业务向

图 4.1 未来与展望业务向

如红色框选所见，当前的系统流程是人群定向之后进行 Mapping，在用户洞察上是围绕人群进行建设的，同时与各个业务侧在 Mapping、洞察以及人群等环节进行对接。但是在这个流程中，如何通过运营达成目标、如何设计 AB 方案，两个部分是松耦合的。

未来我们希望 DMP 运营平台不光是松耦合的模式，而且能够在在业务上执行强耦合、强绑定的模式。这样的运营模式在使用过程中会更舒服，可以完全在 DMP 平台上完成了整体运营流程，并可以根据运营效果设计相关的 AB 实验，不断优化。

技术向

图 4.2 未来与展望技术向

技术建设过程中，最主要的就是圈选人群。运营侧甚至会选几百个条件进行人群圈选。而这些运营人员可能分属在不同业务，这会导致他们的基础条件写得很相似。对于这种相似的基础条件我们会人工建立相应的 bitmap 进行预合并，再去基于此特征圈选，由于预合并的缘故会明显提升我们后续的执行速度。

第一个是查询效率。 对所有运营的人群圈选进行定期扫描及 SQL Parser。经过解析自动设计 SQL 的聚合条件进行预聚合，合成相应的 bitmap 的同时注册到相关的特征。在人群圈选时我们也会通过相同的 SQL Parser 自动将原先圈选的 SQL 改写，在改写之前可能会有好几十个特征，而他们又正好等于某一个派生特征的结果，此时就可以直接替换成派生特征。这个举动能进一步的提升我们查询的圈选速率。

第二个是导入速度。 我们经过五天的时间，每天需要导入大概 2TB 的数据量，存储了 11TB 的数据，数据量比较大，我们希望在导入的过程中可以进一步的提速。当前我们了解到业界有做 Spark 直接撰写具体 OLAP 引擎文件，我们也在思考是否可以通过 Spark 直接撰写 Doris Tablet 文件并挂载到 FE 上面，让我们能够快速完成导入或写入。

Q&A 环节

Q：知乎的标签体系有多少标签？记录量是多少？后台是一张还是多张的大宽表？在人群圈选的时候进行表链接，业务人员能否实时显示圈选出的人群特征和人群数量？

A：知乎的标签体系很大，包含了用户、内容、商业以及业务方面治理与安全等很多方面的标签，DMP 系统方面主要会与用户方面的标签进行对接。就单论通过认证且正在使用的标签组而言就有将近 700 多个，如果在加上业务方面在提未认证标签可以达到上千个。对于我们正在使用的用户方面的标签有 120 个标签组以及 5 个实时标签，总共 125 个标签。

记录量方面有 1100 亿的记录量。

后台不是一张宽表。在子标签完成生成后，会生成出独立的 tag1、tag2、tag3 的数据源表。经过我们将这些表写入 DMP 之后最终才会变成一个大宽表，在 DMP 中是问题中的一个大宽表，在业务中则是每个独立的标签表。多张大宽表在进行人群标签圈选时会进行连接，我们在经过数据处理后，会将数据写入到一张表中而不再是一张大宽表。

由于我们的优化，在这一张表中的存储的文件已经不会再按照 Tag ID 这种查询进度缓慢的方式进行分散。我们会按照存储的 Key，比如说 0~100 万的 ID 都会分在相同的地方进行存储。我们在计算的过程会在同一台物理机扫描出来，在经过聚合逻辑后就可以拿到结果。所以也就能够做到实时圈选相关数量的结果。

Q：人群圈选是基于经验进行标签组合圈选吗？投入后的效果如何分析？是独立的分析平台工具吗？如何知道投放人群包的转化率？转化是否回到打标签中利用另外的分析平台进行分析？

A：人群圈选可以分为两部分。第一部分是我们基于运营的经验进行圈选，这个部分中又分为已知人群圈选与未知人群圈选两个分支。

已知人群圈选，意味着运营已经对这个场景非常明确。能够熟知我们在运营的用户群体就是某个性别以及用户年龄段等，这时候我们就会基于历史经验进行圈选。对于完全未知的用户特征，我们会直接圈大盘。

这两种运营流程的区别就在于已知用户群体圈选的准确率会更高。基于已知的结果，我们几乎不再需要不用进行 AB 实验就可以完成本次投放。对于完全未知的用户特征而言，如果直接圈大盘的话，我们就一定需要进行小流量的 AB 实验发现点击 Push 的用户都满足某一个兴趣后，就可以基于这部分兴趣积累经验，之后再设计一个 AB 实验并调整人群特征至合适场景，直到效果逐渐的达到期望目标后，就会从未知的人群变为已知人群。

还存在另外一种经验。比如说广告主的经验，广告主可能在知乎中并没有历史投放经验，但是广告主知道购买过我的产品人群有哪些，比如说他们手机号的加密 MD5 或手机 idfa 的加密 MD5 等，这样就可以将其他站投放过的效果完成导入，形成基本的人群。通过人群泛化，和站内所有的特征进行 Join 后去训练模型，通过 AI 的能力自动寻找到我的历史购买人群有怎么样的显著特征，之后就可以完成这部分泛化的全选。基于泛化的全选后，还是会经过相同的链路并完成这部分的数次循环循，之后就可以知道我这个场景下应该投放给哪些用户。

转化率我们在单独的地方进行查看，这也是我后期想要集成在 DMP 平台内做到的功能。我们在单独的页面上可以看不同 Push 的转化率。DMP 平台上面只能通过效果回收进行查看。

Q：后台都是基于 Doris 吗？多少节点是一个集群呢？

A：后台主要的计算方面都是基于 Doris。在高吞吐方面我们也依赖于 Redis。TPP 方面我们用了 TiDB。当前 Doris 集群是 6 节点，64 核心 256g 的 BE；3 个 FE 是 6 节点，16 核心 32g 的集群配置。

Q：人群放大靠谱吗？所有的人群圈选占比有多大，用的是什么算法？

A：人群放大是比较靠谱的。从运营侧的反馈可以得知：如果只通过广告主或只通过基于列入历史运营效果拿到的数据基本上无法支持完成本次运营，但是如果把我们所有的特征都加入并进行训练的话，基本每次都会有比较明显的提升，在 CTR 方面，能够达到 80%-90%。置信度调整为了 80%。

人群圈选业务使用占比会比一般圈选要少一些。对于一般圈选而言，我们当前历史上已有的特征也带有置信度。我们基于这些已有特征基本就可以完成绝大部分的运营工作。而人群泛化主要是用来解决的是当我对这部分客户完全没有认知，同时又想将站内全部随机大盘用户导入，进行用户群体特征探测的情况。这个过程其实对运营侧而言工作量比较大，只有在这种特定情况下才会选用泛化，所以泛化的占比按照比例来讲是不多的。比如说每天有 300 个基于特征和标签的定向，而每天基于算法方面的泛化是 1~2 次。

用的是什么算法我还没有细看过。当前我们会通过数据来调用 AI 同学的相关的算法。我们当前提供的就是将用户的所有特征都准备好后灌入到 AI 的自动训练的模型之中。在完成训练之后，我们再调用这个模型并把所有特征都灌入进行推理。

Q：AB 如果要用 Reids 查标签该如何设计？要如何保持实时性呢？

A：对于问题中 A 表和 B 表要查标签，数据量会爆炸，这个情况是的确存在的。所以我建议做标签，最好所有的标签都在这一个表里。通过我们当前经历的探索得出的结论，我们对于该问题的解决方案就是每一台物理机可能会存多个 100 万，但是要确保每一个 100 万的分段都在同一台物理机上，它就可以变成这台物理机的 Scan 以及聚合之后进行直接运算，所以它就不存在双表的 Join 问题，可以直接在表内进行聚合。我们这边有好几个类似于 bitmap and or not 的标签的计算，但是在算子方面，算子已经是被合并在聚合算子里面并完成聚合，聚合后再做一个最终的数据合并，这样的话性能会好很多，而且也能避免 A 表和 B 表做 Join 的结果。

对于第二个问题，我们完成人群的 ID 聚合都会通过这个函数。当这个函数走完之后，它会生成当前投放特征下的人群列表，我才完成 Join。在这个时候，普通的 Join 就不会有非常爆炸的数量，也不会涉及到上千亿的快速的查询计算。

Q：可以解读一下关于 250 万个标签的相关内容吗？

A：大家可以在图 1.3 中看到,出现像 250 万个标签主要是因为一个性别在标签组内算作 1，而在标签方面则会拥有男、女、其他 3 个标签。在手机品牌中，一个标签组下我们当前也是收录了将近 20 多个手机品牌的标签。之后还有话题兴趣的标签组中相当多的话题兴趣的标签数量。比如说知乎站内其实有很多话题，某些用户可能对影视内容感兴趣，也可能对母婴内容感兴趣，同时也可能对教育或学生内容感兴趣，以上的话题兴趣有具有连续的共性点。连续标签方面我们会在后续的文章中继续为大家介绍。当前用户画像的内容方面，如果从标签进行分组，都是属于离散标签。连续标签更多的是用户行为或者是操作数值等。

Q：标签和特征的关系是什么？标签又是怎样建立的？

A：我们定义特征是要比较比标签大的，可以理解为我们当前的特征中 90% 是标签，剩下 10% 是用户行为的比例。

相关链接：

Apache Doris 官方网站：

Apache Doris Github：

Apache Doris 开发者邮件组：

数仓体系效率全面提升！同程数科基于 Apache Doris 的数据仓库建设

2022年7月8日

同程数科大数据高级工程师王星

用户案例

导读：同程数科成立于 2015 年，是同程集团旗下的旅游产业金融服务平台。2020 年，同程数科基于 Apache Doris 丰富的数据接入方式、优异的并行运算能力、极简运维等特性，引入 Apache Doris 进行数仓架构 2.0 的搭建。本文详细讲述了架构 1.0 到 2.0 的演进过程及 Doris 的应用实践，希望对大家有所帮助。

业务背景

业务介绍

同程数科是同程集团旗下的旅游产业金融服务平台，前身是同程金服，正式成立于 2015 年。同程数科以“数字科技引领旅游产业”为愿景，坚持以科技的力量，赋能我国旅游产业。

目前，同程数科的业务涵盖产业金融服务、消费金融服务、金融科技及数字科技等板块，累计服务覆盖超过千万用户和 76 座城市。

图 1.1 业务场景-业务介绍

业务需求

主要包含四大类：

看板类：主要包括业务实时驾驶舱以及 T+1 业务看板等。
预警类：主要包括风控熔断、资金异常以及流量监控等。
分析类：主要包括及时性数据查询分析以及临时取数等。
财务类：主要包括清算以及支付对账需求。

图 1.2 业务场景-业务需求

综合以上业务需求，我们进行了系统架构建设。

架构演进之 1.0

工作流程

图 2.1 架构演变-架构 1.0

架构 1.0 是前几年非常流行的以 SteamSets 和 Apache Kudu 为核心的第一代架构。

该架构通过 StreamSets 进行数据库 Binlog 采集后实时写入 Apache Kudu 中，最后通过 Apache Impala 和可视化工具进行查询和使用。这个过程存在架构链路较长以及 SteamSets 对部分配置复用性表现欠佳的问题，另外 Apache Kudu 的多表关联与大表关联存在一定的性能瓶颈，且对 IO 方面要求较高。

图 2.1 下半部分中实时计算流程的应用与上半部分较为相近，在实时计算中，埋点数据发送到 Kafka 后会通过 Flink 进行实时计算，并将计算结果数据落入分析库与 Hive 库中用于数仓关联。

优势与不足

图 2.2 架构演变优点与缺点

优势：

架构 1.0 选择了 CDH 全家桶。CDH 提供了众多大数据组件，可以相互集成并投入使用，同时其配置相对灵活。
使用的 SteamSets 支持可视化拖拉式与配置式的开发方式，因此开发人员对 SteamSets 的接受程度较高。。

不足：

组件引入过多，维护成本随之增加；当数据出现问题时，排查与修复链路相对较长。
多种技术架构和过长的开发链路，提高了数仓人员的学习成本与要求，数仓人员需要在不同地方转换后再进行开发，导致开发流程不顺畅、开发效率降低。
Apache Kudu 在大表关联 Join 方面性能差强人意。
由于架构使用 CDH 构建，离线集群和实时集群未进行分离，形成资源相互竞争；离线跑批的过程中对 IO 或磁盘消耗较大，无法保证实时数据的及时性。
虽然 SteamSets 配备了预警能力，但作业恢复能力仍相对欠缺。配置多个任务时对 JVM 的消耗较大，导致恢复速度较慢。

架构演进之 2.0

工作流程

由于架构 1.0 的不足远多于优点，在 2020 年，我们调研了市面许多进行实时开发的组件，发现了 Apache Doris，通过调研对比，最终决定将 Apache Doris 引入了架构 2.0。

图 3.1 架构演变-架构 2.0

引入 Apache Doris 后，对整体架构进行了以下改造：

通过 Canal 的 CDC 能力，将 MySQL 数据采集到 Kafka 中。因 Apache Doris 与 Kafka 的契合度较高，可以便捷地使用 Routine Load 进行数据加载与接入。
对原有离线计算的数据链路进行了细微调整。对于存储在 Hive 中的数据，Apahce Doris 支持通过 Broker Load 将 Hive 数据引入进来，因此离线集群的数据可以直接加载进 Doris 之中。

选型 Doris

图 3.2 架构 2.0-选型 Doris

在选型的过程中，Apache Doris 整体表现堪称惊艳：

数据接入： 提供了丰富的数据导入方式，能够支持众多数据源的接入。
数据连接： Doris 支持 JDBC 与 ODBC 等连接方式，对 BI 工具的可视化展示比较友好，能够便捷地与 BI 工具进行连接，另外 Doris 实现了 MySQL 协议层，可以通过各类 Client 工具直接访问 Doris。
SQL 语法： Doris 支持标准 SQL，语法向 MySQL 兼容，对于数仓人员学习成本较低；
MPP 并行计算： Doris 基于 MPP 架构提供了非常优秀的并行计算能力，对于大表 Join 支持得非常好。
最重要的一点： Doris 官方文档非常健全，对于用户而言上手较快。

系统选型调研时，我们也了解了 ClickHouse，ClickHouse 对 CPU 的利用率较高，在单表查询时表现比较优秀，但是在多查询高 QPS 的情况下表现欠佳。

结合以上几点因素，最终我们选择了 Apache Doris。

Doris 部署架构

图 3.3 架构 2.0-Doris 部署架构

Apache Doris 部署架构极为简单，主要是 FE 和 BE：

FE 是前端节点，主要进行用户请求的接入、元数据和集群的管理以及查询计划的生成。

BE 是后端节点，主要进行数据存储以及查询计划的生成及执行。

Doris 运维十分简便：

3 月份我们对机房的机器进行了滚动式迁移，12 台 Doris 节点机器在三天内全部迁移完成，整体操作较为简单，主要用于机器下架、搬移及上架；FE 扩容与缩容动作花费的时间也不多，只运用了 Add 与 Drop 等简单指令。

特别注意：尽量不要使用类似于 Drop 等指令直接对 BE 进行操作。当使用 Drop 指令进行强制删除时，Doris 会提示并要求手动确认是否删除，强制删除后数据将无法恢复。因此建议采用接触方式下线节点，该方式在数据迁移工作完成之后，可以直接将 BE 节点再次加入，较为灵活。

Doris 实时系统架构

图 3.4 Doris 实时系统架构

数据源： 在实时系统架构中，数据源来自产业金融、消费金融、风控数据等业务线，通过 Canal 和 API 接口进行采集。

数据采集： Canal 通过 Canal- Admin 进行数据采集后，将数据发送到 Kafka 消息队列之中，再通过 Routine Load 接入到 Doris 集群。

Doris 数仓： Doris 集群构建了数据仓库的三层分层，分别是：使用了 Unique 模型的 DWD 明细层、 Aggregate 模型的 DWS 汇总层以及 ADS 应用层。

数据应用： 架构应用于实时看板、数据及时性分析以及数据服务三方面。

Doris 新数仓特点

图 3.5 Doris 新数仓特点

数据导入方式简便，根据不同场景采用 3 种不同的导入方式：

Routine Load：主要用于业务数据的接入并作为消费 Kafka 的常驻任务存在。当我们提交 Rountine Load 任务时，Doris 内部会有一个常驻进程实时消费 Kafka ，不断从 Kafka 中读取数据导入进 Doris 中。
Broker Load：进行如基础维度表及历史数据等离线数据导入任务。
Insert Into：用于定时跑批作业，负责将 DWD 层数据处理，形成 DWS 层以及 ADS 层。

Doris 的良好数据模型，提升了我们的开发效率：

Unique 模型在 DWD 层接入时使用，可以有效防止重复消费数据。
Aggregate 模型用作聚合。在 Doris 中，Aggregate 支持如 Sum、Replace、Min 、Max 4 种方式的聚合模型，聚合的过程中使用 Aggregate 底层模型可以减少很大部分 SQL 代码量，不再需要自己做 Sum、Min、Max 等动作，对于从 DWD 层到 DWS/ADS 层较为友好。

Doris 使用门槛低，查询效率高：

支持 MySQL 协议，支持标准 SQL，查询语法高度兼容 MySQL，对分析人员较为友好。
支持物化视图与 Rollup 物化索引。物化视图底层类似 Cube 的概念与预计算的过程，与 Kylin 中以空间换时间的方式类似，均是在底层生成特殊的表，在查询中命中物化视图时将快速响应。

特别提示：物化视图虽然很有帮助，但在过多使用时，每个物化视图均需要占用额外的存储空间，数据导入时将会导致效率下降。

Doris 极简的系统架构，运维成本低:

系统只有 BE 和 FE 两个模块，不依赖如 Zookeeper 等三方组件，部署简单。
针对 FE 和 BE 的操作进行了监控配置，发生异常时会进行及时性重启。

Doris 经验总结

图 4.1 如何更友好地使用 Doris

在使用 Apache Doris 的过程中，我们整理了一部分经验，帮助开发人员更友好地使用 Doris 。对于开发人员，最关注的地方有以下几点：

开发方面： 如何将外部数据接入 Doris 并快速实现 ETL 开发，这会影响开发人员的报表产出速度。
调度管理： 开发人员不希望在开发完成并上线任务后，出现报错或不稳定的情况，需要保证任务调度的稳定性以及调度恢复能力。
数据查询： 由于生产与办公网络中间有隔断，办公网络不能直接使用生产网络的连接，并且无法通过客户端的形式解决网络隔断，只能通过 Web 形式解决，如何安全便捷地进行查询和分析成为开发人员关注的问题。
集群管理： 集群出现异常状况时能够及时进行捕捉及自动化处理。

总而言之，我们希望建设一个高效率、高质量，高稳定性的平台。

Doris 开发优化

根据开发者关注的几个问题，我们进行了一些开发优化。

数据接入

数据接入方面进行了半自动化相关工作并做了快速生成组件，可以根据数据源/表生成 Routine Load 脚本，只要对 Kafka 的 Broker 或 Topic 进行修改就可以快速形成 Routine Load 任务。Broker Load 任务与 Routine Load 类似，在选择数仓源之后就可以及时生成 Broker Load 所需脚本。在接入 Doris 时需要提前创建表，对于这方面也可以进行类似操作，通过源快速生成创建语句。

图 5.1 数据平台- Doris 开发

上述主要运用了底层元数据，根据不同的数据源拿到不同的元数据后就可以对任务进行快速生成。

提交动作和维护管理

在任务生成后，我们在 Routine Load 方面进行了封装。由于 Routine Load 是常驻进程，我们只需要再进行一次提交，状态就会变成 Running ，若出现异常状态会被检测出来，监控方面在后续会向大家进行展示。

图 5.2 数据平台- Doris 开发

监控与管理

我们可以在对提交的 Routine Load 进行查询并检查是否存在异常，同时可以将我们需要关注的 Routine Load 加入监控中，监控会定期对任务进行自动扫描，发生问题时会进行提示并尝试将任务重新拉起。

Broker Load 同样可以对任务进行监测。针对于 Broker Load Label 名称不能重复的问题，我们采取生成 UUID 的方式进行解决，以此更好地帮助大家提升使用体验。

图 5.3 数据平台- Doris 开发

如上图展示，我们可以在 Routine Load 中进行暂停和终止的动作，帮助大家更好地使用开发的作业与管理。

自研查询页面，集成 Doris Help 功能

由于生产与办公网段隔离，我们只能通过 Web 进行查询。之前我们曾尝试使用 Hue 集成 Doris 进行查询的方案，Doris 支持通过 MySQL 协议连接到 Hue ，但如果我们集成 Hue 的话，所有人都可以通过 Hue 查询 Doris 的数据，安全性问题无法保证，无法满足我们对权限的要求。

图 5.4 数据平台-Doris 数据查询

所以我们在自己的平台内开发了查询页面来解决此问题。图中左边部分可以根据 DB 列出下面所有的表，右边部分是查询分析页面与查询结果，是我们自行开发的类似于 Navicat 的客户端软件。

同时我们对 Doris Help 功能进行了功能集成，在大家在不知道如何使用 Doris 时提供帮助。通过集成 Doris Help，我们可以通过关键字搜索的功能进行语法和示例查询解决问题。

即使没有集成 Doris Help，也可以在 FE 节点自带的 Web 页面进行查看，FE 节点内置可以查看整个集群信息且具备 Help 功能的 Web 页面。在我们实现自研查询页面并集成 Doris Help 后，可以直接使用，从而跳过需要使用 Admin 账号连接才可以使用 FE 的步骤。

Doris 集群监控页面

同时我们开发了 Doris 集群监控页面，在集群监控页面中可以看到 FE 、BE 以及 Broker 的节点状况。当集群发生异常状况时，监控系统会发送自动提醒并尝试将集群拉起，同时也可以通过页面化的形式观察节点的健康度情况。

图 5.5 数据平台- Doris 集群监控

对于 Doris 上层应用而言，主要还是依赖 Doris 提供的 API 与指令完成 Doris 上层的应用动作，我们做的只是将 Doris 提供的指令针对使用者进行更友好地集成以及页面化展示。

新架构的收益

图 6.1 新架构收益

数据接入： 在早期通过 SteamSets 进行数据接入的过程中需要手动建立 Kudu 表。由于缺乏工具，整个建表和创建任务的过程需要 20-30 分钟。如今可以通过平台与快速构建语句实现数据快速接入，每张表的接入过程从之前的 20-30 分钟缩短到现在的 3-5 分钟，性能提升了 5-6 倍。
数据开发： 在早期架构中进行聚合或其他动作时，需要写大量长篇幅 SQL 代码。使用 Doris 之后，我们可以直接使用 Doris 中自带的 Unique、Aggregate 等数据模型及可以很好支持日志类场景的 Duplicate 模型，在 ETL 过程中大幅度加快开发过程。
查询分析： Doris 底层带有物化视图及 Rollup 物化索引等功能，可以提升查询效率，同时 Doris 底层对于大表关联进行了诸多优化策略，如 Runtime Filter 以及其他 Join 和自定义优化策略。相较于 Doris，Apache Kudu 则需要有较为深入的优化经验才能更好地使用。
数据报表： 最初使用 Kudu 报表查询需要 1-2 分钟才能够完成渲染，而 Doris 则是秒级甚至是毫秒级的响应速度。
环境维护： Doris 没有 Hadoop 生态系统的复杂度，整个链路较为清晰，维护成本远低于 Hadoop，尤其是在集群迁移过程中，Doris 的运维便捷性尤为突出。

未来展望

图 7.1 未来展望

尝试引入 Doris Manager： 社区中正在进行关于 Doris Manager 宣导，后续我们也准备引入并积极参与 Doris Manager 进行集群维护与管理。
实现基于 Flink CDC 的数据接入： 当前架构中没有引入 Flink CDC ，而是继续沿用了 Canal 采集到 Kafka 后再采集到 Doris 中的架构，链路相对来说较长。采用 Flink CDC 虽然可以继续精简整体架构，但是还需要写一定代码量，对于 BI 人员直接使用感受并不友好，我们希望数仓人员只需要 SQL 或在页面上完成操作就可以使用。在 3.0 架构的规划中，我们计划引入 Flink CDC 功能并对上层应用进行扩充。Flink CDC 的引入为大家带来“快就是慢，慢就是快”的思想理念，当然 Flink 社区的发展速度很快，只有在充分学习大家的经验后，才可以更友好地引入，并在学习经验的过程中对架构进行迭代与优化。
紧跟社区迭代计划： 我们正在使用的 Doris 版本相对较老，现在新版本 Doris 在内存管理、查询性能等方面有了较大幅度的提升，后续我们将紧跟社区迭代节奏对集群进行升级并体现新特性。
强化建设相关体系： 我们现在的指标体系管理如报表元数据、业务元数据等维护与管理依旧有待提高。数据质量监控方面，虽然目前包含了数据质量监控功能，但对于整个平台监控与数据自动化监控方面还需要强化与改善。

相关链接：

Apache Doris 官方网站：

Apache Doris Github：

Apache Doris 开发者邮件组：

蜀海供应链基于 Apache Doris 的数据中台建设

2022年7月3日

蜀海供应链大数据团队负责人韦永绪

用户案例

蜀海供应链是集销售、研发、采购、生产、品保、仓储、运输、信息、金融为一体的餐饮供应链服务企业，为广大餐饮连锁企业及零售客户提供整体食材供应链解决方案服务。因其业务比较复杂，2020 年底完成了以 Apache Doris 为核心的架构升级，并在 2021 年开始建设以 Apache Doris 为核心的数据中台。

在使用 Doris 之前，我们采用了 CDH 这套数据平台，用了很多组件，但其链路过长，并且开发和维护成本比较大，最后没有引入一个很好的 OLAP 系统。

因为我们的数据历史包袱比较轻，经过对 Apache Doris 的调研和测试，决定使用以 Apache Doris 为核心建设数据平台，它有以下优势：

同时支持高并发点查询和高吞吐的 Ad-hoc 查询。
同时支持离线批量导入和实时数据导入。
同时支持明细和聚合查询。
兼容 MySQL 协议和标准 SQL。
支持 Rollup Table 和 Rollup Table 的智能查询路由。
支持较好的多表 Join 策略和灵活的表达式查询。
支持 Schema 在线变更。
支持 Range 和 Hash 二级分区。
高可用，能容忍部分节点挂掉。
运维简单，部署，维护，升级都比较简单，不依赖外部组件。

架构图如下：

由于之前已经对元数据，数据服务，接入数据质量，血缘关系的建设做过介绍，本文将从数据接入，数据服务编排，数据安全，Doris 应用等方面进行介绍。

数据接入

数据接入功能是数据开发的重要一环，我们开发了一套数据接入系统，在 Web 端操作，实现零代码数据接入到 Doris，以下为主要功能介绍：

订阅 MySQL Binlog，入仓到 Doris 表。
订阅 Kafka Topic，入仓到 Doris 表。
数据动态清洗，在页面编写代码即可完成数据入仓之前的转换。
接入任务合并，为节省资源，支持分库分表在一个任务接入，支持多个 TOPIC 在一个任务接入。
动态数据质量校验，配置字段质量规则，进行接入数据质量校验。
入仓加密，再接入过程中，可以对敏感数据进行加密后再入到 Doris 表。
错误数据管理，因为网络或者数据错误等原因，在页面可完成数据的重新入仓。
数据接入链路监控，比如错误数据监控，数据生产链路异常监控，数据消费链路异常监控，任务数据接入趋势图，集群数据接入趋势图等。

数据服务编排

数据服务是供业务系统调用 API 获取数据的一个系统。可以在页面进行 API 新建、编辑、在线开发调试、设置限流、上下线等操作。由于 API 之间可能存在业务逻辑关系，并且不能在配置同一个 API，我们开发了数据服务编排功能，通过拖拉拽的方式，让 API 之间能够进行编排并进行数据传递，对外提供 API 时，仍然暴露的是一个 API。

数据安全建设

数据安全是一个很大的话题，涉及到方方面面，这里从数据加密，数据权限和数仓数据备份几个方面进行简单介绍。

数据入仓加密

在数据接入过程中，可以选择对字段进行加密，当接入到 Doris 表后，就已经是加密的数据，后续的数据分析，可以利用密钥进行解密。

数据权限

由于公司查看报表的人员分布很广，对于同一个数据模型，每个城市每个区域的销售，运营，工厂人员，管理人员等人员查看到的数据是不一样的，需要精确控制到行权限和列权限，所以我们在 Doris 上层开发了一套数据权限系统，通过配置化的方式，完成数据权限配置，可以精确到行权限和列权限。BI 报表系统作为一个接入方，引入数据权限客户端并实现相应抽象方法即可。

数仓数据备份

我们以 Doris 作为存储和计算的核心，Doris 本身数据已经是多副本存储，但是考虑到容灾，我们还是会对核心接入数据进行备份到 HDFS，为此开发了一套数仓数据备份系统，把 Doris 表按照全量或者分区，定时备份到 HDFS。

Doris 的应用

我们用 Doris 承载了数据分析的计算和存储。此外，还存在一个这样的场景：业务的 MySQL 数据库数据一直在增长，大量的历史数据影响业务线上性能，而且不能直接删除，因为还有低频的历史数据查询，为此，我们基于 Doris 开发了一套业务历史数据归档系统，可以定时把不再变更的历史数据进行增量归档，通过数据服务系统提供数据查询，把归档的数据推送给业务方，业务方进行校验，并删除历史数据。

收益

目前以 Doris 为核心的数据平台，已经支撑了公司几十个业务系统的数据查询和数据分析需求。为BI智能分析，各业务系统提供了优异的查询性能，并且极大减少了数据平台维护，数据开发，数据中台建设的成本。

数据实时接入稳定可靠，通过 Stream Load，实时接入了数千张表，每天接入数据总条数在亿级别，非常稳定可靠；
支持高并发高性能的数据在线分析查询，每天对 Doris 的在线分析查询次数在百万级别，大部分 SQL 在毫秒级别，慢 SQL 也有很大优化空间，并且 Doris 会自动做一些场景下的查询优化；
通过直接查询原始接入表，建立物化试图，建立索引，支撑了多个低延时高并发的实时查询需求。并且多表 Join 性能优异；

其他：

Doris 的整体架构简单，运维成本很低，可在线滚动升级，可节省人力专注于数据中台的建设以及业务开发；
Doris 高度兼容 MySQL 协议，交互式查询分析，提供高效的数据开发体验；
高可用，数据分区多副本存储，不会因为部分节点的异常导致整体服务不可用；
广泛生态兼容，社区提供了和 Flink，Datax 等大数据交互的 Doris 插件，通过 Broker 导入导出数据简单快捷；
社区活跃，Doris 功能和性能在不断的扩充和提升，遇到问题能够得到社区的密切帮助。

相关链接：

Apache Doris 官方网站：

Apache Doris Github：

Apache Doris 开发者邮件组：

10 亿数据秒级关联，货拉拉基于 Apache Doris 的 OLAP 体系演进

2022年7月1日

货拉拉大数据引擎负责人杨秋吉

用户案例

导读：本文是货拉拉大数据引擎负责人杨秋吉在 DataFunSummit 2022 多维分析架构峰会上的演讲分享，分享的主题是《货拉拉基于 Apache Doris 的 OLAP 体系演进及建设方法》，详细讲解了货拉拉从 OLAP1.0 到 3.0 的演进过程，其中不乏有值得借鉴的方法论以及深刻的技术思考，希望能对大家有所帮助。

业务背景

货拉拉成立于 2013 年，成长于粤港澳大湾区，是一家从事同城、跨城货运、企业版物流服务、搬家、汽车销售及车后市场服务的互联网物流公司。截至 2022 年 4 月，货拉拉的业务范围已经覆盖了国内 352 座城市，月活司机达到 58 万，月活用户达到 760 万，包含 8 条以上的业务线。

货拉拉大数据体系为支撑公司业务，现在已经成立三个 IDC 集群、拥有上千台规模的机器数量，存储量达到了 20PB、日均任务数达到了 20k 以上，并且还处在快速增长的过程中。

大数据体系

货拉拉大数据体系从下往上分为 5 层，最下面的是基础层和接入层，这两层主要会提供基础数据的存储、计算以及集群的管理功能。在基础层和接入层之上是平台层和数仓。在平台层之中包含了数据研发平台和数据治理平台，基于平台层的能力和数据仓库的数据体系，在这之上面包含了含有业务属性的服务层和应用层。整个体系自下而上相互支持，实现支持业务和赋能业务的能力。

图 1.1 货拉拉大数据体系

数据处理流

货拉拉典型的数据处理流，可以分成数据集成、采集、数据的存储计算、数据服务四部分，同时也包含了实时、离线以及在线三大业务场景。

图 1.2 货拉拉大数据数据流

在数据采集阶段会存在实时采集和离线采集两条路线。

实时采集比较典型的场景为用户端上埋点会直接同步到大数据平台做存储，供后续的在线和离线计算使用。
离线的数据主要是来自于业务方的数据库，会通过天或者是小时定期采集到大数据存储中，以供后续使用。

中间是数据的存储和计算阶段。在离线场景中会通过对数据 ETL 之后转换为构造数仓的分层体系。实时比较典型的场景为数据在经过 Flink 的处理后会直接落在线存储系统，类似于 HBase 和 OLAP 等等，为后续的业务系统提供数据服务。

OLAP 演进概览

货拉拉从 2021 年开始进行 OLAP 的技术研究，截至目前已经经历 3 个阶段：

2021 年上半年为货拉拉的 OLAP1.0 阶段，这个阶段我们主要是支持公司的罗盘业务，我们引入的是能够提供较好的单表依据和查询能力的 Apache Druid 引擎。
2021 年下半年为货拉拉的 OLAP2.0 阶段，我们支持了智能定位工具，这个阶段引入了够提供单表明细查询，并且还有较高的压缩率 ClickHouse。
今年为货拉拉的 OLAP3.0 阶段，伴随着公司业务需求的不断增多，我们也会需要用到多数据源的关联分析。基于此，由于 Apache Doris 具备大表关联分析的能力，我们引入了 Apache Doris 引擎。

图 2.1 货拉拉 OLAP 体系演进过程

OLAP1.0 孕育期

业务需求分析

先看下没有引入 OLAP 之前的业务数据流：

图 3.1 OLAP1.0 业务场景

根据该图可以看到业务的数据通过实时和离线处理之后会落在 MySQL，MySQL 之中储存了维度聚合之后的结果数据，这也意味着会在 Flink 之中做大量的聚合分析，根据业务需要的相应维度所做的一系列组合都是在 Flink 之中做实时聚合，最后将结果储存到 MySQL。

存在的问题：

存在存储瓶颈，类似于 Kylin 之中的维度爆炸的问题。
开发成本、高效率低。当业务侧需要新增维度的时候会需要对 Flink 中的所有作业都做一定的修改，然后再重新上线。
无法支持部分聚合需求。

对于存在的这些问题，我们经过分析之后，总结出了 3 个背后存在的需求点：

业务侧希望能够横向扩容，解决存储瓶颈。
希望能够自由组合维度做分析，提升业务侧开发效率。
希望能够支持任意维度实现跨度的分析。

解决方案

根据业务需求，并通过调研，我们决定使用 OLAP 引擎来支持业务需求。那我们如何选择一款 OLAP 引擎，并把它稳定的应用到生产之中呢？

我们总结了如下的 4 个步骤作为解决思路：

图 3.2 OLAP 1.0 解决思路

技术调研

技术调研阶段，我们对比了 Durid、ClickHouse、Kylin、Presto 和 Doris 等等引擎。结合我们上述的 3 个业务需求，最终我们选择了 Druid 引擎。

原因是 Druid 除了能够满足我们的业务需求之外，还有一个比较重要的影响因素是 Druid 引擎是纯 Java 开发，与我们的技术栈比较吻合，可控性更高。

图 3.3 OLAP1.0 技术调研

POC 阶段

POC 过程中，从以下 3 个步骤着手：

功能验证。在功能验证中，我们会收集业务侧的 SQL，之后提取 SQL Pattern，然后再根据 Druid 引擎的 Rollup 语义做 SQL 的改写，涉及到大量 UDF 的改写、Rollup 语义兼容以及 Count Distinct 语义兼容等等。
性能验证。我们会直接采用业务真实的数据和业务真实的 SQL 来执行。验证过程中我们会将 Cache 关闭，分别统计 P75、P90、P99 的查询耗时。在这过程中，我们会发现有部分查询的性能没有达到要求，之后我们会做性能分析。Druid 引擎本身没有比较完善的性能分析工具，不能够很好的打印出它的执行计划以及各个算子的耗时，所以我们采用了第三方的 Arthas 火焰图进行分析。定位了相应的算子后，最终我们通过优化我们建表导数的逻辑以及索引构建的逻辑，并主要通过调整 Segment 大小的同时加入物化视图的方法，进行一些参数的调整以此来优化性能。
准确性验证。我们将业务真实数据同时写 Hive 表和 Druid，之后跑 Hive SQL 和 Druid SQL，来进行数据质量的校对。在这个过程中我们会发现例如 StringLast 函数等一些函数会在特定的场景下出现计算值不稳定的问题。

图 3.4 OLAP1.0 POC 验证

稳定性保障

当 POC 验证完成之后，接下来我们会进行稳定性的保障。我们将稳定性保障分为事前、事中、事后 3 个阶段：

图 3.5 OLAP1.0 稳定性保障

上线阶段

当稳定性保障建立完成之后就会进入到上线阶段。上线过程我们同样分成了 3 个阶段：

OLAP 测试阶段。在这个阶段中，业务的数据会接入到 Druid 之中，但是业务的真实查询还是通过原来的 MySQL 库。这个阶段主要会验证 Druid 引擎的数据质量和 Druid 集群的稳定性。
上线观察阶段。在这个阶段，业务的查询会切回到 Druid。同时旧的 MySQL 链路还没有下线，业务侧能够随时切回 MySQL 链路。
OLAP 运行稳定阶段。我们会把 MySQL 旧的链路下线，做资源的回收。

图 3.6 OLAP1.0 上生产

问题总结

下面总结了 1.0 阶段时遇到的问题：

数据导入部分中，实时数据乱序为典型问题。
在数据准确性验证阶段发现 StringLast 的函数值不稳定。
Durid 没有一个高效的精准去重的函数。

图 3.7 OLAP1.0 问题总结

OLAP2.0 完善期

业务需求分析

在 OLAP2.0 阶段主要有以下 4 个业务需求：

图 4.1 OLAP2.0 业务需求分析

下图是简单的业务工具的截图，从图中可以看到，OLAP2.0 需要能够支持汇总与明细，同时基于这些能力能够做一个快速的问题定位。

图 4.2 OLAP2.0 业务需求分析骤去实现。

解决方案

图 4.3 OLAP2.0 技术调研

OLAP2.0 我们引入了 CliclkHouse。ClickHouse 能够比较好地支持复杂的数据类型，同时因为业务侧是埋点数据，所以对于实时导入语义要求并没有那么高。

没有采用 Druid 主要是有 2 个原因：

Druid 对于复杂的数据结构支持度并不是很好。
Druid 虽然能够支持明细查询，但是 Druid 的明细查询和聚合查询得分成不同的表，这样就会额外的引入一系列的存储成本。

剩下的部分就是 POC 、上生产的步骤，这两个步骤和 OLAP1.0 阶段比较类似，所以在这里就不过多展开介绍。

OLAP3.0 成熟期

业务需求分析

2022 年随着公司业务的发展，更多的产品线对于多数据源关联场景下的在线分析需求也会变得越来越迫切。比如说 AB 实验场景与实时数仓场景，这两个场景对于多表关联需求，尤其是大表的多表关联需求也变得越来越迫切。

图 5.1 OLAP3.0 需求分析

举一个 AB 实验的例子。从下图可以看到，例子中是需要把 AB 实验的一个数据和后面相应的司机与用户的埋点数据关联到一起并做分析。在这种情况下，我们就会发现之前的两种工具都会存在一系列的弊端。

图 5.2 OLAP3.0 需求分析

解决方案

技术调研

在技术调研阶段我们观察了 Druid 和 ClickHouse。Druid 引擎可以支持一些维表的简单 Join，ClickHouse 则能够支持 Broadcast 这种基于内存的 Join，但是对于大数据量千万级甚至亿级的一些表的 Join 而言，ClickHouse 的性能表现不是很好。

图 5.3 OLAP3.0 技术调研

接下来我们对 Doris 进行了调研，我们发现 Doris 是能够支持小表的 Join，对大表的话也同样能够支持基于 Shuffle 的 Join，对于复杂数据类型（Array、JSon）的支持，经过跟 Apache Doris 社区沟通，预计将在 2022 年 7 月份的新版本中发布。通过在多个维度和需求满足度上进行对比，我们最终选择了 Apache Doris，也是因为 Apache Doris 的 SQL 支持度非常的完善。

图 5.4 OLAP3.0 技术调研

POC 阶段

我们除了引用业务真实的数据和场景做验证以外，还引入了 TPC-DS 的数据集做了验证。

在多表关联的场景下对单天数据进行查询，对 5 亿左右的数据量进行 Join，TP75 大概是 9 秒左右。在数据质量阶段我们也是把 TPC- DS 的数据集以及业务真实数据集，分别在 Hive 和 Doris 里面做了双跑验证，发现两者都是能够完全对得上的。

图 5.5 OLAP3.0 POC

稳定性保障

与之前一样依然是从事前的容量评估和压测、事中的监控和定位来进行。

图 5.6 OLAP3.0 稳定性测试

下面是我们的监控图，主要是关于 Compaction 相关的一些监控，感兴趣的同学可以看看。（文末 QA 环节有部分讲解）

图 5.7 OLAP3.0 稳定性监控

问题总结

第一个问题是查询性能的优化。

业务侧的需求为 7 天的查询 RT 需要在 5 秒内完成，在优化前，我们发现 7 天的查询 RT 是在 30 秒左右。对于这个问题，我们的主要优化策略是把小表 Join 大表改成了大表 Join 小表，主要原理是因为 Doris 默认会使用右表的数据去构建一个 Hashtable。

还有类似下图中的情况：union all 是在子查询中，然后再和外层的另外一张大表做 Join 的查询方式。这种查询方式没有用到 Runtime Filter 的特性，因此我们将 union all 提到子查询外，这样就能够用到 Runtime Filter，这应该是由于这里的条件下没有推下去所导致的。同时运行时采用的 Bloom Filter 是可以将 HashKey 条件下推到大表 Scan 阶段做过滤。在经过对这两者优化之后便能够满足我们的查询性能需求了。

图 5.8 OLAP3.0 问题 1

第二个问题是 UnhealthyTablet 不下降，并且在查询阶段会出现 -230 的报错。

这个问题的场景是我们在没有停 FIink 写任务的时候，对 BE 机器交替重启，重启完会出现很多 UnhealthyTablet。经过我们后续的分析发现，其中一个原因主要是在 Coordinator BE 在做二阶段提交的时候比较巧合，Coordinator BE 的二阶段提交 Commit 后，也就是大部分的副本是已经 Commit 后且在 Publish 前，在这短短的时间范围内 BE 机器被重启，这也导致会出现 Tablet 状态不一致的情况。同时由于我们当时把参数调整的过大，导致了 Compaction 压力过大。

最后的解决办法：与 Aapache Doris 社区的同学经过互助排查，引入了社区 1.1.0 的 Patch，同时对相应的数据做了恢复。

图 5.9 OLAP3.0 问题 2

参数优化

打开 Profile。Doris 对于查询的性能分析具有非常好的 Profile 文件，这一点是非常赞的！我们可以看到各个算子在每一个阶段查询耗时以及数据处理量，这方面相比于 Druid 来说是非常便捷的！
调大单个查询的内存限制，同时把 BE 上的执行个数由 1 个调整成为 8 个，并且增加了 Compaction 在单个磁盘下的数据量。对于 Stream Load，我们把 Json 格式的最大的内存由 100 兆调整成为 150 兆，增大了 Rowset 内 Segment 的数量，并且开启了 SQL 级和 Partition 级的缓存。

图 5.10 OLAP3.0 参数优化

数据流

下图是使用 Doris 之后的数据流图：

图 5.11 OLAP3.0 数据流

数据流中，我们在 Flink 中做的事情已经很少了，经过数据简单的 ETL 后就可以把数据直接灌入到 Doris。经过 Doris 一系列的聚合计算、union 计算以及多表关联计算之后，业务侧就可以直接查询 Doris 来获取相关数据。

总结与思考

总结：我们 OLAP 的引进主要还是从业务需求的角度出发来匹配合适的引擎，为业务精细化运维提供技术支持。在这之后，我们也思考了一套较为完善的上线流程及稳定性保证方案，为业务的平稳运行提供能力保障。

思考：我们认为很难有单个引擎能够富含各种场景。因此在技术选型时，需要针对于需求特点和引擎特点进行合理选择。

后续规划

我们希望可以向 OLAP 平台化发展，通过实现自助化建模的同时在这方面做一些多引擎的路由，使其能够支持各类聚合、明细以及关联等场景。

图 6.1 后续规划 OLAP 平台化

除 OLAP 平台化之外，后续我们的引擎演进计划从高效、稳定和内核演进三部分来进行。

图 6.2 后续规划引擎演进

稳定性方面：对 Doris 还要继续深入内核理解，提供一定的二次开发。另外 Doris 社区的相关原理以及代码级别的教程数量十分丰富，这也间接性降低了我们深入 Doris 原理的难度。

内核演进方面：我们发现 Doris 基本能够覆盖 Druid 所有场景，因此后续计划以 Doris 引擎为主，Clickhous 引擎为辅，逐渐将 Druid 的相关业务向 Doris 迁移。

Q&A 环节

Q：刚才讲到了后续要从 Druid 引擎迁移到 Doris，要实现迁移的成本有多大呢？

A：迁移成本方面和我们之前的成本是一样的。我们上线的时候也会采用以下方式：先把业务的数据同时往 Druid 和 Doris 之中写，写完之后的业务迁移会涉及一些 SQL 改造。因为 Doris 更加接近 MySQL 的协议，比起 Druid SQL 会更加便捷，所以这部分的迁移成本不是很大。

Q：刚才介绍的第二个场景之中的监控图都看了哪些指标呢？

A:关于监控图，我们会比较关注 Doris 的数据导入。而在数据导入部分，我们最关注的就是 Compaction 的效率，是否有 Compaction 的堆积。我们现在还是采用的默认参数，也就是 Compaction 的分数就代表它的版本号，所以我们监控的更多的是它的版本。对于这方面的监控，社区也已经有了比较完善的相应技术方案，我们也是参考了社区的技术方案来进行了监控的指标搭建。

Q：从指标上看，Doris 的实时服务在线查询性能怎么样？在数据导入情况下性能损耗可以从这些指标上看出来吗？

A：实时导入方面主要是从 Compaction 的效率来看。结合到我们这边的业务场景，最多的一张表，单表一天也有 6 亿到 10 亿的数据量的导入，也是一张埋点。另外关于峰值，它的 QPS 也是能达到千到万的，所以导入这一块压力不是很大。

Q：SQL 缓存和分区缓存实际效果怎么样？

A：SQL 缓存方面效果还好，对于很多离线场景，尤其是首页这种查询的数据量而言。比如以昨天或者是过去一个小时之前的这种情况来说，SQL 缓存命中率会非常高。分区级缓存方面，我们分区的时间还是设的是小时级，这意味着如果这个查询里面涉及到的一些分区在一个小时内没有数据更新的话，那么就会走 SQL 缓存；如果有更新的话就会走分区级缓存。总体来看效果还好，但是我们这边命中比较多的还是 SQL 级的缓存。

Q：Doris 的查询导入合并和缓存的 BE 节点的内存一般怎么分配？

A：缓存方面我们分配的不大，还是采用的偏默认的 1G 以内。导入方面我们设计的是 parallel_fragment_exec_instance_num 这个参数，大概在 8G 左右。

Q：可以解释一下 OLAP3.0 的解决思路吗？

A：对于 OLAP3.0 方面来说，业务的主要诉求就是大表 Join。除此之外，还有一些类似于导入的进度一致等等。

在大表 Join 方面，我们也对比了很多的引擎。Druid 这方面就是偏维表；Clickhouse 这方面还是偏基于内存方面的 Broadcast。正因如此，主要是基于大表 Join 的出发点，我们选择引入了在 Join 这方面能力更强的 Doris。

Q：Druid、ClickHouse 和 Doris 应该都是近实时的，就是 Near Real-time，他们的写入不是立刻可见的，是这样吗？

A：是这样的。像 Doris 和 ClickHouse 之前的写入都是 Flink 直接去写，我们也没有完全做到来一条数据就写一条，都是一个微批次。一个批次最大可以达到 150 兆的数据堆积，写入一次的时间间隔也是到 10 秒左右，没有做到完全的实时写入。

Q：方便透露一下货拉拉目前 Doris 的集群的使用情况，比如机器的数量和数据量吗？

A：我们的集群数量还不算很多，10 多台。

Q：对于 Doris 的运维方面，它的便捷性和 Druid、ClickHouse、Kylin、Presto 这些相比，有很好的扩展性吗？

A：我们觉得是有的。第一个是在我们 Druid 方面碰到了一个比较大的痛点，就是它的角色特别多，有 6 种角色，所以需要部署的机器会非常多。另外一点是 Druid 的外部依赖也非常多，Druid 依赖于 HDFS、离线导入还需要有 Hadoop 集群。

第二个是 ClickhHouse 方面，我们当时使用的版本对于 Zookeeper 也是有比较大的依赖。另外，ClickHouse 也是偏伪分布式的，有点类似于数据库的一种分表。Doris 自身就只有 FE、BE，外部依赖会非常少，所以我们从部署的角度同时考虑到 Doris 的横向扩展方面，Doris 的扩缩容也能够做到自平衡，所以相比而言 Doris 会更好一些。

Q：在实时特征场景下，分钟级的数据更新对服务性能要求比较高，可以用 Doris 吗？能达到 TP99 200 毫秒以下吗？

A：TP99 能够否达到 200 毫秒以下主要和你查询 SQL 相关。

例如我们这边的很多涉及到大表 Join 的查询，涉及的分区数据量大概在 10 亿量别，业务侧对于查询性能要求是 5 秒以内，通过 Doris 是可以满足我们需求的。如果是实时特征这种业务，是否能达到 200 毫秒可能需要经过一轮实际测试才能得到结果。

相关链接：

Apache Doris 官方网站：

Apache Doris Github：

Apache Doris 开发者邮件组：

Lifewit 数据平台基于Apache Doris的建设实践

2022年7月1日

Lifewit 技术中心陈圣强江作家

用户案例

导读：近几年随着跨境电商行业的快速发展，Lifewit 业务达到近十倍的增长，原先的痛点已经严重影响到用户的数据使用体验。技术端需要随着业务的飞速发展不断升级迭代适应业务的增长。Lifewit 规划了从旧数据架构进化成目前基于 Apache Doris 构建的轻量级业财一体化数据平台，来系统化地解决旧架构存在的痛点，打通业务数据和财务数据，构建综合数据平台提供全业务链自助数据分析能力，支撑完善的数据报表体系和高效的数据分析。

业务背景

Lifewit 是一家专注于打造全球创新家居场景品牌的企业，通过自主研发、自主设计、品牌策划、技术驱动、垂直供应链、数字化人力资源形成一套“六位一体”化的特色经营体系。Lifewit 拥有自主的 B2C 品牌商城，深耕 Amazon 平台，同步入驻全球潜力电商平台，销售市场已覆盖全球上百个国家，服务上千万全球客户。

在我们业务场景中，数据大多来源于各个平台报表和各个业务系统产生的数据，旧架构直接基于关系型数据库构建报表数据，数据源系统多而复杂，还经常发生变化；复杂计算缺少分层建设导致拖垮从库；ETL 存在多种形态，没有统一建设和管理，排查问题比较艰难；源头数据的变化导致大量的下游表发生差异，需要及时重新计算；但发生变化的数据影响面分析困难，异常问题排查耗时人工成本高。这些都属于旧数据架构的一些痛点。

经过了近几年跨境电商行业的快速发展，我们的业务达到近十倍的增长，原先的痛点已经严重影响到用户的数据使用体验。技术端需要随着业务的飞速发展不断升级迭代适应业务的增长，所以我们今年规划了从旧数据架构进化成目前基于 Apache Doris 构建的公司轻量级业财一体化数据平台，来系统化的解决旧架构存在的痛点，打通业务数据和财务数据，构建综合数据平台提供全业务链自助数据分析能力，支撑完善的数据报表体系和高效的数据分析。

整体架构

数据架构

CECP: 老综合业务系统，核心模块是供应链和财务相关，逐步升级成 LBP

LBP：Lifewit 新业务平台，覆盖公司全业务链业务平台

LDP：Lifewit 新数据平台，覆盖公司全业务链数据应用

数据调度：LDP 采用 Airlfow 承接调度能力，Airflow 是一个使用 Python 语言编写的 Data Pipeline 调度和监控工作流的平台。Airflow 是通过 DAG（Directed acyclic graph 有向无环图）来管理任务流程的调度工具，支持自定义 Operator/Hook，还支持触发规则自定义，具备丰富的可扩展能力。

数据采集：LDP 目前实现主要是分钟级和小时级任务，支持两类采集，一类定时 API 增量采集，一类定时 OLTP 数据源增量采集，OLTP 增量采集直接构建在 Airflow，通过 Doris 连接 OLTP 从库数据源进行自定义规则采集。

数据仓库和数据应用都是基于 Doris 构建，数据视图层基于开源版/商业版 BI 软件构建。

元数据：自研，支持 PG、MySQL、Doris 的元数据自动化采集和管理。

数据质量：自研，支持自定义 SQL 对数据仓库，数据应用层指标进行自定义监控和告警。

数据血缘：目前的开源数据血缘不太适合我们公司，还在调研 DBT 中，第二期重点考虑 DBT 生产化可行性。

测试集群概况

测试环境配置：

三台 8 核 16 G 云服务器
三台 BE，一台 FE，其中一台 BE 混布
Ubuntu 18.04，CPU 支持 avx2

目前我们还处于数据架构升级的初始阶段，仅接入了部分销售数据，测试集群规模如下，目前已接入业务的数据量在千万级别，后续持续会有更多旧数据业务以及新的业务线接入进来。

集群监控

基于 Grafana+Promethus 构建集群监控可视化，以下监控图是测试环境监控部分截图。

数据采集

采集方案

LDP 目前实现主要是分钟级和小时级任务，通过 Airflow+Doris 轻量级支持 2 类采集。

一类定时 API 增量采集，通过调用 ERP 等其他业务系统的 API 进行增量数据采集到 Doris ODS 层。

一类定时 OLTP 数据源增量采集，OLTP 增量采集直接构建在 Airflow ，通过 Doris 连接 OLTP 从库数据源进行自定义规则采集，达到增量数据源源不断的进入 Doris ODS 层。

第二期支持实时采集 Binlog 入 Doris ODS 功能。

采集接入

ODBC 环境搭建

注意：所有 BE 都需如法安装，并保持相同配置

安装操作系统 ODBC 驱动：

apt install unixodbc

检查是否安装成功：

安装 MySQL ODBC 驱动：

选型：

下载地址：https://downloads.mysql.com/archives/c-odbc/

放置 Lib 目录

myodbc-installer -a -d -n "MySQL ODBC 8.0.11 Unicode Driver" -t "Driver=/usr/lib/mysql-odbc-8.0.11/libmyodbc8w.so"

myodbc-installer -a -d -n "MySQL ODBC 5.3.13 Unicode Driver" -t "Driver=/usr/lib/mysql-odbc-5.3.13/libmyodbc5w.so"

查看是否注册成功

myodbc-installer -d -l

MySQL ODBC 5.3.13 Unicode Driver

MySQL ODBC 8.0.11 Unicode Driver

验证 ODBC 连接 MySQL

编辑 /etc/odbc.ini 文件：

[mysql]
Description     = Data source MySQL
Driver          = MySQL ODBC 8.0.11 Unicode Driver
Server          = 192.168.20.17
Host            = 192.168.20.17
Database        = test
Port            = 23306
User            = root
Password        = sakdfwexkjsga134wesdgdsa4

执行

isql -v mysql

至此操作系统层通过 ODBC 是可连接到 MySQL。

ODBC 接入 Doris

编辑 be/conf/odbcinst.ini 增加以下配置：

[MySQL ODBC 8.0.11 Unicode Driver]
Description     = ODBC for MySQL 8
Driver          = /usr/lib/mysql-odbc-8.0.11/libmyodbc8w.so
FileUsage       = 1

[MySQL ODBC 5.3.13 Unicode Driver]
Description     = ODBC for MySQL 5
Driver          = /usr/lib/mysql-odbc-5.3.13/libmyodbc5w.so
FileUsage       = 1

ODBC 如何使用

创建 Resource：

create external resource test_resource properties(
    "type"="odbc_catalog",
    "odbc_type" = "mysql",
    "host"="127.0.0.1",
    "port"="23306",
    "user"="root",
    "password"="sakdfwexkjsga134wesdgdsa4",
    "database"="test_db",
    "driver"="MySQL ODBC 8.0.11 Unicode Driver"
 );

创建外部表：

CREATE EXTERNAL TABLE `sku` (
  `id` int(11) NULL COMMENT "",
  `sku` varchar(64) NULL COMMENT "",
  `name` varchar(128) NULL COMMENT "",
  `type` varchar(128) NULL COMMENT "",
  `creator_id` int(11) NULL COMMENT "",
  `create_time` datetime NULL COMMENT "",
  `updater_id` int(11) NULL COMMENT "",
  `update_time` datetime NULL COMMENT ""
  ) ENGINE=ODBC
  COMMENT "TEST"
  PROPERTIES (
   "odbc_catalog_resource" = "test_resource",
   "database" = "test_db",
   "table" = "sku"
   )

具体使用场景：

从外表定时增量采集到 Doris，主要是通过 AirFlow 定时任务执行 insert into select 语句方式采集
查询时直连外表（数据量小），业务表很多，无需采集数据即可方便直接查询，若外表数据过大，或查询批次太高不建议直连

数据仓库

分层设计

SRC：数据源，主要来自各业务系统和亚马逊报表，以 PG、MySQL、ES 为主，采用 Doris ODBC 外部表实时直连从库，用于采集。

ODS：原始数据层，存放原始数据，主要是离线/实时写入的数据，与数据来源保持一致，还原数据过程。

DWD：数据明细层，根据需求从 SRC/ODS 层清洗数据存储到 Doris 中，采用 Uniq 模型。

DWS：轻度汇总层，从 DWD 轻度汇总数据，采用 Uniq 模型，构建命名规范、口径一致的统计指标，为上层提供公共指标。

ADS：数据应用层，和业务强相关的数据应用层，构建 ADS 是以需求为驱动，应用层主要是各个业务方或者部门基于 DWD 和 DWS 建立的数据集市。

DVS：数据视图层，BI 可视化对应的视图表，在 DVS 直接抽取和计算来自从 ADS、DWS 等层次的数据。

根据实际业务复杂性会存在跨层建设场景，不会严格按照每一层进行建设。

从外表采集数据到 DWD 层：

根据业务规则生成 DWS 层数据：

通过 Airflow 编写简单的 Python 代码进行任务调度编排：

Airflow 作业销售数据报表作业 DAG：

维度 Join 好处

传统基于 Hadoop 生态构建数据仓库，在进行建模的时候，广泛的采用的是大宽表，将指标列和维度列放在同一张表上。这会带来一个问题：当维度修改的时候，需要对数据任务进行重跑对数据进行回溯，重新聚合计算，这样的话回溯时间越长需要消耗时间越久。

我们使用 Doris 做存储和分析，由于 Doris 具备多表 Join 性能良好，采用星型关联表来建模，可以支持维度的动态修改，降低数据重跑回溯的成本。

数据可视化

数据可视化属于 LDP 数据视图层，截图属于销售看板应用，数据来自 DWS/ADS 层销售数据。构建了销售数据的多维度的自助分析能力，主要使用用户是运营中心。销售数据属于我们第一期的建设范围，其他业务陆续接入。

数据质量

新数据架构建了基础的作业流和复杂的作业流，随着业务任务量增加，作业的故障问题对于用户来说容忍度会越来越低，如何监控生产作业的稳定性，避免经常在发生用户投诉后才发现任务异常，对于数据平台来说极为重要的环节。

我们数据架构的作业健康分 2 类，作业质量(即 DAG/TASK 的质量)，数据质量(即数据指标，数据时效等数据类质量)。

DAG 质量和 TASK 质量就需要定时监控 DAG 和 TASK 元数据(存储在 MySQL 数据库内)，监控 DAG 和 TASK 增量运行健康情况，定义监控规则是监控 TASK 还是 DAG，具体的监控细节是捕获到何种异常进行对应的分级告警。解决作业失败发现不及时导致发生重大故障问题，解决数据堆积导致最终结果交付延迟问题。

数据质量，涵盖数据指标，数据时效等，以及反向要求数据底层需具备一定时限的自愈机制，降低数据质量异常频率。通过数据质量定时作业检查配置好的质量规则，通过监控数据质量结果，达到统一告警的机制。我们 LDP 架构的刚上线，服务的数据应用不多，系统化的数据质量还未完全铺开。第一期主要先针对具体数据应用常见问题构建分模块的数据质量应用进行监控告警或自愈。第二期进行数据质量系统化建设。

元数据

作业质量和数据质量的管理，离不开元数据和数据血缘的建设，广义的 LDP 数据血缘涵盖任务血缘（Airflow 的 DAG ），作业血缘（Airflow 的 DAG 内部的 TASK ），数据血缘（和 Airflow 无关，在整个数据平台，数据生产形成的数据血缘链路），只有掌握了数据流的具体流向才能识别单点故障对整个数据平台的影响，而不是遇到问题只是单点解决问题，无法找到波及面，更不用说如何及时的修复波及面。

第一期的数据平台我们任务不多，没有做到完整的数据血缘采集，只实现了元数据管理。对接入数据平台的所有库，表，字段，计算逻辑，依赖关系进行统一管理。

通过依赖关系的维护，以及具体应用的指标监控，来识别异常指标波及面进行人工的异常分析和作业重跑。

第二期进行完整的数据血缘采集，实现完整的通用的数据自愈和故障影响面自动分析功能。

数据自愈

第一期的数据自愈主要是针对具体应用需求进行开发，本次生产作业是在两层之间增加一个数据健康检查任务，由于报表数据和业务数据经常发生变动，导致 DWD、DWS 的数据和 SRC 层数据发生偏差，需要寻找有偏差的数据，并通过 Airflow 重跑任务，当前采用 Delete + Insert 方式。

旅行者

健康检查时间段有限制，不可能无条件检查历史数据，于是需要一个方案进行更久以前的各层数据比对、汇总和告警。

健康检查例行过去 30 天的数据，数据对不上将触发重跑
30 天以外的数据用新任务负责低频检查和告警

目前数据质量还是针对具体业务实现具体的告警规则，下一阶段实现通用的数据质量管理体系。

实践总结

数据质量

MySQL ODBC 版本选择问题：

具体选型见 ODBC 环境搭建环节，版本选择不对可能导致 BE 挂掉。

-235 问题：

解决方案：

curl -X POST http://{be_ip}:
{be_http_port}/api/update_config?min_compaction_failure_interval_sec=30&persist=true

在 Cumulative Compaction 过程中，当选中的 Tablet 没能成功地进行版本合并，则会等待一段时间后才会再次有可能被选中。等待的这段时间就是这个配置的值，默认 5s 在插入速率过大，而批次量过小时容易产生，此时需要调大配置，减少插入速率，增加单次插入量。

新架构的收益

采用基于 Apache Doris 的数据平台方案减轻了传统大数据搭建的服务器成本和运维人力成本。
数据平台方案整个链路和传统 Hadoop 数仓链路相比很大缩短，链路越短，数据稳定性维护越简单。
磁盘占用量大幅度降低。旧数据架构存在大量索引和分区等优化策略，导致某些表的索引比业务数据还大，使用 Doris 后存储所占用的资源大幅降低。
数据分层结构清晰。根据三种不同特性的数据模型设计不同层次的表结构。Uniq 作为 DWD 或者 ODS 层，Uniq/Agg 作为 DWS 层，Agg 作为 ADS 层。
查询速度提升。BI 查询聚合好的 ADS 层数据，发挥 Agg 模型最大效能。
ODBC 模式的采集方式减少 ETL 流程，降低复杂度，提高开发效率。
物化视图自动刷新。PG 的物化视图和源表数据分离，源表数据变动需要手动重刷容易出错。Doris 自动刷新和查询透明机制，直查源表自动匹配最优物化视图。
由于良好的多表 Join 性能，采用星型关联表来建模，可以支持维度动态修改，降低回溯成本。

后续演进

随着 LDP 数据平台服务的数据应用越来越多，后续对整个 LDP 数据平台架构需要更丰富的功能，更实时，稳定，安全的数据交付能力，更便捷的平台管理能力。

LDP 数据平台第二期优先功能范围：

数据血缘和数据自愈实现，任意表延迟多层自动修复
更实时采集 Binlog，支撑实时数仓建设
通用数据质量，支持任意数据源，任意指标的自定义监控和告警

目前基于 Apache Doris 的 LDP 数据平台在乐活科技的第一个数据应用得到用户的广泛认可，用户更加期待后续数据应用可以快速产出和赋能业务。感谢 Apache Doris 社区给予的支持，使我们能够快速构建轻量级 LDP 数据平台的基建设施，祝愿 Apache Doris 社区发展越来越好！

相关链接：

Apache Doris 官方网站：

Apache Doris Github：

Apache Doris 开发者邮件组：

物易云通基于 Apache Doris 的实时数据仓库建设

2022年7月1日

物易云通/司机宝大数据负责人吴凡

用户案例

导读： 物易云通目前已成为国内产融供应链运营服务平台的领军企业之一，平台年交易额超过 200 亿元，随着公司业务的快速发展，对数据计算分析的时效要求也越来越高。经数据团队的调研对比，于 2021 年引入了 Apache Doris 作为实时数据仓库。实战过程中获得一些经验，在此分享给大家。

业务背景

武汉物易云通网络科技有限公司成立于 2015 年 6 月，总部位于湖北省武汉市东湖高新区。作为国内产业互联网的探索先行者，公司致力于将产业互联网思维与新一代信息技术深化应用于煤炭、建筑、再生资源三大业务领域，以标准化、场景化、数字化的供应链综合服务解决能力，开创互联网化的“供应链技术+物流服务+金融场景”的产融协同新生态。目前公司已成为国内产融供应链运营服务平台的领军企业之一，平台年交易额超过 200 亿元。公司入选 2020 年中国互联网企业综合实力 100 强，2021 年武汉市软件收入第一名。

随着公司业务的快速发展，对数据计算分析的时效要求也越来越高。之前的产品已经无法应对庞大的数据量，为解决这一问题，数据团队通过调研对比，在 2021 年引入了 Apache Doris 作为实时数据仓库。基于 Apache Doris 建设实时数仓的过程中，沉淀了许多经验，借此机会分享给大家。

数仓架构演进

公司创业之初，是使用 MySQL 作为 BI 仓库，每天增量卸数后导入，通过定时调度存储过程进行计算。该方案能快速满足公司的跨库数据关联计算的需求，但是随着业务发展，数据和任务不断增多，MySQL 已难以支持，另外该方案局限性比较大，如果业务表存在物理删除或者没有数据更新时间的情况下，则会导致数据不准。

为了解决上述问题，我们搭建了一套 CDH 作为数据仓库。通过 Canal 订阅 MySQL 的 Binlog 到 Kafka，进行编写消费程序，将数据写入 Hbase，然后增量合并到 Hive 中，通过 Oozie 调度计算脚本。

然而离线 T+1 的数据只能满足一部分的业务需求，因此我们需要一套能快速查询实时数据的数据仓库，同时可以支持离线需求和实时需求，经过许多产品的调研对比，证明 Apache Doris 可以很好地实现我们的业务需求。

Doris 数仓架构通过 Flink CDC 实时接入生产库数据到 Doris，支持实时 OLAP，然后通过海豚调度器定时执行 SQL 脚本，替代 Hive 的离线数据计算任务。

新架构的优势

1、数据处理架构简单 新的架构里我们使用了 Flink CDC 来做数据同步（Flink CDC 内置了一套 Debezium 和 Kafka 组件，但这个细节对用户屏蔽），它不但可以读取增量，还能读取全量数据，然后将数据通过 Stream load 的方式写入 Doris。

2、一份数据，实时全量 由于 Hive 查询很慢，所以之前是把 Hive 的数据通过 Sqoop 推送到 MySQL 进行查询，即有多份数据存储在不同的 MySQL 上，维护和存储成本都很高，并且 Hive 里只有 T-1 的数据，需要每天写脚本合并。Doris 支持 MySQL 协议，可直接查询，同时 Doris 支持主键数据去重及更新，有实时的全量数据，解决了实时报表和在线 OLAP 的需求。

3、架构简单，易于部署维护 相对于 Hadoop 那一套各种组件来说，Doris 部署维护非常简单。

4、一键全库接入，结构实时同步 通过自研的数据易平台，实现了 MySQL 一键全库接入 Doris，即通过页面选择后，一键生成 Flink CDC 任务在 Yarn 上持续运行。而且通过解析 Binlog 里面的 DDL 语句，将其转化为 Doris 语法，利用 Doris 的 Online Schema Change 特性，实时同步生产数据库的表结构变更，保障了表结构一致，新增字段数据一致。

5、秒级查询 Doris 查询是秒级，Hive 是分钟级，跑批的效率提升了 20-30 倍。而之前用的是 Impala 加速 Hive 的查询，每个表在使用前都要 Refresh 一次，非常麻烦，并且 Count Distinct Impala 近似计算不准确。

系统重点功能

数据接入

第一步：选择需要接入的 MySQL 库类型，默认是 A，即最常见的全局库名唯一。

另外还存在几种其他的情况：
B、全局有多个名称相同、结构不一致的数据库。比如：部分大表做了数据切割归档到另一台机器上了。
C、全局有多个名称相同、结构一致的数据库，即分库。我们需要将数据合并到一个 Doris 库表中，方便数据分析。
D、全局有多个名称不同、结构一致的库。比如：DB租户 A 的库， DB租户 B 的库，我们也是要把数据合并分析。

第二步，选择 MySQL 库实例，进行提交（如果不想接入全库，可以勾选部分表）。对应的目标数据库是 Doris 里面的 ODS 贴源层，和生产数据保持一致，一个库一个任务，可以视情况调整内存等参数。

注意： 通过列表可以进行任务管理，恢复任务是运用了 Flink CDC 的 Checkpoint 机制，在任务异常挂掉时可以恢复运行。Flink CDC 任务目前是运行在 Yarn 上。

数据计算

我们在数据易平台上开发了数据计算任务功能，用户编写 SQL 后，点击 SQL 解析，即可自动识别出脚本里用到了哪些来源表，生成了哪些结果表，最终在海豚调度器里生成对应的任务和上游任务 Depend 关系。

说明： 为了保障各个 T+1 报表的数据一致性，我们做了 ODS 层到 DWD 层的一套计算任务，即每天 0 点将 ODS 层中近 2 天的增量数据 insert into 到 DWD 层进行更新，后续 T+1 的计算任务统一从 DWD 层进行计算。

注意： 需要把物理删除变成逻辑删除，使用时剔除。如果直接在 ODS 里面同步物理删除，会导致 DWD 层里无法通过增量方式同步删除。

新架构的收益

降低资源成本

当前我们的集群配置为 5 台阿里云 ESC，16 核 64G。在相同集群配置下，1000 个表的每日增量数据合并任务，用 Hive 需要 3-5 小时，用 Spark 需要 2-3 小时，然而同样的需求 Drois 运用 Unique Key 模型完成只需要 10 分钟，大幅提前了后续计算任务的开始时间。

另外，因 Hive 跑得慢，我们后续的几百个 Hive 计算任务，排队情况很严重，不得不把一些优先级低的任务排到下午甚至晚上，日任务全部跑完需要十几个小时。而我们把全部批任务迁移到 Doris 上计算后，全部任务跑完只需要 2 小时不到，后续增加新的需求任务完全无压力。

总而言之，使用 Doris 后，报表数据的更新时间大幅提前，临时的数据查询需求响应时长大幅缩短，至少节约了每年几万的大数据集群扩容成本，同时获得了各部门的认可。

提升开发效率

随着公司业务快速的发展，会不断的有新的数据分析需求，就需要我们接入新库新表，给老表加字段等，这对于 Hive 数仓是非常痛苦的，表要重建、全量数据要抽，这就需要每周有半天时间都在处理这些事情。

在使用 Doris 作为数仓后，通过我们的数据易平台配置 Flink CDC 任务快速接入 MySQL 库表的全量+增量数据，同时利用 Doris 的 Online Schema Change 特性，实时同步 Binlog 里的 DDL 表结构变更到 Doris，数据接入数仓零开发成本。

另外因为 Doris 支持 MySQL 协议直接对接数据可视化应用，我们不需要再把结果数据从 Hive 推到 MySQL 里提供数据服务，节约了数据库资源，减少了开发步骤。

体现数据价值

Doris 有审计日志，我们可以通过日志，分析出每个表每天的查询使用情况，以便我们评估跟进数据价值、下线废弃报表及任务。另外还可以预警资源消耗多、查询慢的查询语句，帮助用户进行语法优化等。

问题与经验

1、MySQL 和 Doris 字段类型不一致 MySQL 的 Blob、Mediumint、Year、Text 等字段类型在 Doris 中没有，需要我们转换成 Doris 对应的字段类型，Varchar 的长度我们对应在 Doris 需扩大成 3 倍。

2、MySQL DDL 语法兼容性问题 MySQL 的 Bigint Unsigned、AUTO_INCREMENT、CURRENT_TIMESTAMP 等语法在 Doris 里不支持。

3、多个大表 Join 计算时，内存使用过大，导致 BE 挂掉，影响数据写入。 目前 Doris 新版本已对内存控制这部分进行优化。

4、Hive 和 Doris 差异 将 Hive 计算脚本改成 Doris 计算脚本时遇到一些语法问题，如：

Doris 不支持 Lateral View ，升级新版本已解决。
之前的一些 Hive UDF 函数是 Java 写的，Doris 不支持，我们用另外的程序对数据做的二次加工处理，后续 Doris 新版本会支持。
Doris 缺少一些函数，如 Last_Day 通过取日期下个月的第一天再减一天来实现， Collect_Set 通过先去重再 Group_Concat 实现等。

5、分析函数问题

分析函数 XX() over(partition by) 在外层和子查询中同时存在时，报 errCode = 2, detailMessage = can't support。我们通过将子查询数据放入临时表解决该问题，后面 Doris 1.0 版本已解决该问题。
多个 lag PARTITION by 函数和 min PARTITION by 一起使用时，有乱码的情况。撰文时该 Bug 已修复，等待合并发版。

6、Doris 动态分区 动态分区字段必须为 Date 到月、周、日，不能根据写入的数据自动创建分区，目前我们通过建表时指定初始化的分区数解决此问题。

7、Stream Load 写入过于频繁报错 Stream Load 写入 Doris，写入太频繁会报错误码 235 问题，同样的表 Routine Load 不会出现这个问题，我们通过批量提交解决，Doris 新版本已优化该问题。

以上问题在向社区反馈后，得到了社区的快速响应。截止目前，上述问题基本上都已经得到修复，并且将在即将发布的新版中上线。

相关链接：

Apache Doris 官方网站：

Apache Doris Github：

Apache Doris 开发者邮件组：