跳到主要内容

7 篇博文 含有标签「重大新闻」

查看所有标签

重大新闻

近期,在 ClickHouse 发起的分析型数据库性能测试排行榜 ClickBench 中,新一代云原生数仓 SelectDB 强势登顶,性能表现超越一众国内外产品,多项指标排行前列,并在业界最为通用的 c6a.4xlarge, 500gb gp2 机型下排行全球第一!

在 ClickBench 性能排行榜中,测试数据均取自真实生产环境、涵盖数据类型多样、覆盖了即席查询和统计报表等典型场景,能真实反映各大数据库在生产环境中的性能,因此吸引了 Snowflake、Redshift、Athena、Greenplum、Druid 等国际知名数据库的参与。所评测的指标为特定机型下导入相同数据集的时间、所占用的存储空间大小以及执行 SQL 的耗时长短,分别用以衡量 数据导入性能、数据压缩比以及查询性能。所有测试结果中表现最优的一条会成为基线,相同测试项的指标会与基线数据进行对比并得出比值,通过这一比值来体现与行业最优的差距。当有新的测试结果超越原有的基线后,将自动成为新的基线。 就查询性能而言,会分别对每条 SQL 执行 Hot Run 和 Cold Run 来统计时长,即重复执行 3 次 SQL 并取其中耗时最短的一次以及启动并清理内存后直接执行,最终对所有 SQL 的执行耗时与基线的比值进行几何平均,即为最终测试结果。因此 ClickBench 更关注的是数据库在所有测试场景下都有着优异的表现,而非某一个或某几个场景,这使得数据库需要全方位的能力提升。

在本次提交的测试结果中,SelectDB 以强悍的查询性能表现强势登顶。在未进行任何调优的情况下,SelectDB 查询性能在 c6a.4xlarge, 500gb gp2 同机型的所有产品中位列第一,Hot Run 和 Cold Run 性能表现分别领先第二位 35% 和 25%。在全部 43 个 SQL 中,有近半数的查询语句 SelectDB 性能表现最优,成为新的性能标杆。与此同时,SelectDB 数据写入效率在同机型所有产品中位列第二,压缩前 70G 数据写入仅耗时 482s,单节点写入速度超过 140MB/s,在实现极致查询性能的同时也保证了高效的写入效率。

从查询耗时的角度来看,SelectDB 相较于排行前列的其他产品,总体查询耗时分别降低了 63%、75%、78%、99% 以及 459%,性能大幅领先于同类产品。

在汇集了多个不同机型和系统的总榜中(包括全球知名的云数仓 Snowflake、Redshift 等),SelectDB 在所有同类型产品中依旧取得了 Cold Run 查询性能第一,Hot Run 查询性能第二的优异成绩,彰显了强大的性能优势。

而在另一通用机型 c6a.metal, 500gb gp2 的测试结果中,相较于排行前列的其他产品,SelectDB 在 Cold Run 场景下总体查询耗时只有同类产品的 1/4 至 1/10。在同未经过任何调优的情况下,查询性能最高领先同类产品近 11 倍,呈现巨大的领先优势。

登顶榜单只是 SelectDB 前进道路上的小目标之一,作为基于 Apache Doris 打造的运行于多云之上的新一代云原生数仓,SelectDB 具备了极速、易用、实时、统一的核心特性,并提供了多云一致体验和多数据类型支持,未来还将有更多重要能力呈现给大家,欢迎大家申请体验测试。

当前 SelectDB 已与阿里云、腾讯云、亚马逊云科技等知名云厂商开展了深入合作,后续也将进一步拓宽与全球知名云厂商的合作。另外,11 月我们将推出 SelectDB Cloud 2.0 版本,新的版本会有很多惊喜给大家呈现,也请大家关注和参与我们后续的产品发布会活动~

这世界就是一拨人在昼夜不停地高速运转,另一拨人起床发现世界变了。尽管性能不是数据库的全部,但一直是亘古不变的追求方向之一。取得这一显著成果的背后,离不开 SelectDB 技术团队日以继夜的辛勤付出、更离不开站在 Apache Doris 这一巨人的肩膀上。

因此,所有针对 SelectDB 的性能优化点,后续都将不做半点保留、全部贡献回 Apache Doris 社区。目前有一部分代码已经合入社区 Master 版本, 还有许多 PR 在陆续合入的过程中。相信在不久后所有社区用户就可以切身体会到性能飞跃带来的极致体验。我们也期待能有更多开发者与开源爱好者能够一同加入 Apache Doris 社区,共襄盛举,将国人开源的优秀项目推广到全球,成为现代数据分析技术的新标杆。

重大新闻

2022 年 9 月 16 日,由中国信息通信研究院、中国通信标准化协会联合主办的 “2022 OSCAR 开源产业大会”在京落下帷幕。在本次大会上,中国信息通信研究院发布了多项重大研究成果,并设立了“OSCAR 尖峰开源案例”系列评选,旨在表彰优秀开源案例、树立开源典范,为国内开源生态健康发展树立标杆效应。

SelectDB 创始人兼 CEO 连林江经过业内专家的严格考察,凭借其在开源生态中的杰出贡献,被授予「OSCAR 尖峰开源人物」一奖。同时 Apache Doris 也凭借业内领先的技术创新力和影响力从众多开源项目项目中脱颖而出,斩获「OSCAR 尖峰开源项目及社区」一奖。

img

Apache Doris 是由国人研发并开源的高性能实时 OLAP 数据库, 自 2018 年进入 Apache 基金会孵化后开始受到业界关注。2022 年 6 月,Apache Doris 正式成为 Apache 基金会顶级项目。截止目前,Apache Doris 已经在全球范围内俘获超过 700 家企业的认可,用户覆盖互联网、金融、能源、制造、电信等众多行业。在国内市值或估值前 50 的企业中,有超过 80% 长期使用 Apache Doris 在其生产环境中。

作为 Apache Doris 背后的开源技术公司,北京飞轮数据科技有限公司(简称 SelectDB)自创立以来,始终秉持开源开放的核心理念,以加强开源技术创新、推动开源社区发展、繁荣开源社区生态为首要己任,在核心功能研发、社区运营推广、用户支持维护等多个方面投入了强有力的资源支持,推动 Apache Doris 成为全球大数据和数据库领域最为活跃和炙手可热的开源项目之一。后续 SelectDB 也将围绕 Apache Doris 开展更多具有价值及挑战的工作,包括新的查询优化器、对湖仓一体化的支持,以及面向云上基础设施的架构演进等。

img

与此同时,SelectDB 基于 Apache Doris 内核打造的 SelectDB Cloud 已于 2022 年 7 月正式对外发布试用。SelectDB Cloud 是构建于多云之上的云原生实时数据仓库,可以为客户提供极简运维和极致性价比的云上数据仓库服务,目前已有不同行业的客户在 SelectDB Cloud 上构建业务。当前 SelectDB 已与阿里云、腾讯云、亚马逊云科技等知名云厂商开展了深入合作,后续也将进一步拓宽与全球知名云厂商的合作。

未来 SelectDB 还将投入更多的研发和运营力量,与广大开发者以及开源爱好者一起加强开源技术创新,提升 Apache Doris 在全球范围内的技术影响力,打造繁荣开放、良性发展的开源社区生态。同时 SelectDB 也将致力于打造云原生时代实时数据分析领域的国际工业界标准,实现实时数据分析技术的革新,并为全球客户提供最极致的云上数据分析新体验。

重大新闻

近日,“‘数智创新、聚力同行’2022 阿里云数据存储生态发布会”在京召开,阿里云在本次会上宣布发布全新数据存储生态计划,面向行业 ISV 伙伴,通过产品集成和认证方式共建联合解决方案。

在近期的合作伙伴大会上,阿里云确定了“坚持伙伴优先”的生态策略,并发布了“云合行动”。据阿里云透露,本次“数据存储生态计划”将是云合行动在数据存储业务领域的践行方案之一。

作为一家云数仓领域的创新厂商,SelectDB 受邀出席本次发布会,并作为首批合作伙伴加入到该计划中,后续 SelectDB 将与阿里云一起携手,在联合方案、联合营销、联合销售方面进行全面合作,帮助更多企业实现数据应用创新。

SelectDB 创始人兼 CEO 连林江作为本次计划的合作伙伴代表,受邀出席了发布会现场。连林江表示,SelectDB 作为一家专注于开源技术创新和云数仓服务的科技公司,从成立伊始就开始大力投入到 Apache Doris 社区的建设中,旨在打造世界领先的分析型数据仓库项目,致力于实现技术普惠。与此同时,为了更好满足商业客户需求,基于 Apache Doris 构建的全新一代云端数据仓库 SelectDB 可以运行于多云之上,为客户提供实时、统一、极致性价比的数据仓库分析服务。

“ 自 2022 年 5 月以来,我们与阿里云存储、大数据等多个团队建立了全面的合作关系,基于阿里云以及多家云的 SelectDB Cloud 1.0 已于 7 月初发布,并已经正式对外开放申请使用。”连林江补充道,“SelectDB Cloud 1.0 采用了完全的云原生架构设计,和云计算基础设施进行了深度适配。在阿里云上,我们基于高性能云磁盘、对象存储等产品设计了冷热分离、存算分离、数据共享、备份恢复等一系列的技术,实现了资源弹性伸缩、并提供了 10 倍以上的性价比提升和众多企业特性。”

未来 SelectDB 将与阿里云持续深度合作,并基于阿里云计算、存储等强大的基础设施和技术力量,持续推动技术创新,为客户提供更好的云原生实时数据仓库服务,持续为客户创造价值。

重大新闻

亲爱的社区小伙伴们,我们很高兴地宣布,Apache Doris 在 2022 年 7 月 14 日迎来 1.1 Release 版本的正式发布!这是 Apache Doris 正式从 Apache 孵化器毕业后并成为 Apache 顶级项目后发布的第一个 Release 版本。在 1.1 版本中,有 90 位 Contributor 为 Apache Doris 提交了超过 450 项优化和修复,感谢每一个让 Apache Doris 变得更好的你!

在 1.1 版本中,我们实现了计算层和存储层的全面向量化、正式将向量化执行引擎作为稳定功能进行全面启用,所有查询默认通过向量化执行引擎来执行,性能较之前版本有 3-5 倍的巨大提升;增加了直接访问 Apache Iceberg 外部表的能力,支持对 Doris 和 Iceberg 中的数据进行联邦查询,扩展了 Apache Doris 在数据湖上的分析能力;在原有的 LZ4 基础上增加了 ZSTD 压缩算法,进一步提升了数据压缩率;修复了诸多之前版本存在的性能与稳定性问题,使系统稳定性得到大幅提升。欢迎大家下载使用。

下载链接

GitHub 地址:https://github.com/apache/incubator-doris

下载地址:https://doris.apache.org/downloads/downloads.html

源码地址:https://github.com/apache/doris/releases/tag/1.1.0-rc05

升级说明

向量化执行引擎默认开启

在 Apache Doris 1.0 版本中,我们引入了向量化执行引擎作为实验性功能。用户需要在执行 SQL 查询手工开启,通过 set batch_size = 4096set enable_vectorized_engine = true 配置 session 变量来开启向量化执行引擎。

在 1.1 版本中,我们正式将向量化执行引擎作为稳定功能进行了全面启用,session 变量enable_vectorized_engine 默认设置为 true,无需用户手工开启,所有查询默认通过向量化执行引擎来执行。

BE 二进制文件更名

BE 二进制文件从原有的 palo_be 更名为 doris_be ,如果您以前依赖进程名称进行集群管理和其他操作,请注意修改相关脚本。

Segment 存储格式升级

Apache Doris 早期版本的存储格式为 Segment V1,在 0.12 版本中我们实现了新的存储格式 Segment V2 ,引入了 Bitmap 索引、内存表、Page Cache、字典压缩以及延迟物化等诸多特性。从 0.13 版本开始,新建表的默认存储格式为 Segment V2,与此同时也保留了对 Segment V1 格式的兼容。

为了保证代码结构的可维护性、降低冗余历史代码带来的额外学习及开发成本,我们决定从下一个版本起不再支持 Segment v1 存储格式,预计在 Apache Doris 1.2 版本中将删除这部分代码,还请所有仍在使用 Segment V1 存储格式的用户务必在 1.1 版本中完成数据格式的转换,操作手册请参考以下链接:

https://doris.apache.org/zh-CN/1.0/administrator-guide/segment-v2-usage.html

正常升级

正常升级操作请按照官网上的集群升级文档进行滚动升级即可。

https://doris.apache.org/zh-CN/docs/admin-manual/cluster-management/upgrade.html

重要功能

支持数据随机分布 [实验性功能][#8259](https://github.com/apache/doris/pull/8259) #8041

在某些场景中(例如日志分析类场景),用户可能无法找到一个合适的分桶键来避免数据倾斜,因此需要由系统提供额外的分布方式来解决数据倾斜的问题。

因此通过在建表时可以不指定具体分桶键,选择使用随机分布对数据进行分桶DISTRIBUTED BY random BUCKET number,数据导入时将会随机写入单个 Tablet ,以减少加载过程中的数据扇出,并减少资源开销、提升系统稳定性。

支持创建 Iceberg 外部表 [实验性功能][#7391](https://github.com/apache/doris/pull/7391) #7981 #8179

Iceberg 外部表为 Apache Doris 提供了直接访问存储在 Iceberg 数据的能力。通过 Iceberg 外部表可以实现对本地存储和 Iceberg 存储的数据进行联邦查询,省去繁琐的数据加载工作、简化数据分析的系统架构,并进行更复杂的分析操作。

在 1.1 版本中,Apache Doris 支持了创建 Iceberg 外部表并查询数据,并支持通过 REFRESH 命令实现 Iceberg 数据库中所有表 Schema 的自动同步。

增加 ZSTD 压缩算法 #8923 #9747

目前 Apache Doris 中数据压缩方法是系统统一指定的,默认为 LZ4。针对部分对数据存储成本敏感的场景,例如日志类场景,原有的数据压缩率需求无法得到满足。

在 1.1 版本中,用户建表时可以在表属性中设置"compression"="zstd" 将压缩方法指定为 ZSTD。在 25GB 1.1 亿行的文本日志测试数据中,最高获得了近 10 倍的压缩率、较原有压缩率提升了 53%,从磁盘读取数据并进行解压缩的速度提升了 30%

功能优化

更全面的向量化支持

在 1.1 版本中,我们实现了计算层和存储层的全面向量化,包括:

  • 实现了所有内置函数的向量化

  • 存储层实现向量化,并支持了低基数字符串列的字典优化

  • 优化并解决了向量化引擎的大量性能和稳定性问题。

我们对 Apache Doris 1.1 版本与 0.15 版本分别在 SSB 和 TPC-H 标准测试数据集上进行了性能测试:

  • 在 SSB 测试数据集的全部 13 个 SQL 上,1.1 版本均优于 0.15 版本,整体性能约提升了 3 倍,解决了 1.0 版本中存在的部分场景性能劣化问题;
  • 在 TPC-H 测试数据集的全部 22 个 SQL 上,1.1 版本均优于 0.15 版本,整体性能约提升了 4.5 倍,部分场景性能达到了十余倍的提升;

SSB 测试数据集

TPC-H 测试数据集

性能测试报告:

https://doris.apache.org/zh-CN/docs/benchmark/ssb.html

https://doris.apache.org/zh-CN/docs/benchmark/tpch.html

Compaction 逻辑优化与实时性保证 #10153

在 Apache Doris 中每次 Commit 都会产生一个数据版本,在高并发写入场景下,容易出现因数据版本过多且 Compaction 不及时而导致的 -235 错误,同时查询性能也会随之下降。

在 1.1 版本中我们引入了 QuickCompaction,增加了主动触发式的 Compaction 检查,在数据版本增加的时候主动触发 Compaction,同时通过提升分片元信息扫描的能力,快速发现数据版本过多的分片并触发 Compaction。通过主动式触发加被动式扫描的方式,彻底解决数据合并的实时性问题。

同时,针对高频的小文件 Cumulative Compaction,实现了 Compaction 任务的调度隔离,防止重量级的 Base Compaction 对新增数据的合并造成影响。

最后,针对小文件合并,优化了小文件合并的策略,采用梯度合并的方式,每次参与合并的文件都属于同一个数据量级,防止大小差别很大的版本进行合并,逐渐有层次的合并,减少单个文件参与合并的次数,能够大幅地节省系统的 CPU 消耗。

在数据上游维持每秒 10w 的写入频率时(20 个并发写入任务、每个作业 5000 行、 Checkpoint 间隔 1s),1.1 版本表现如下:

  • 数据快速合并:Tablet 数据版本维持在 50 以下,Compaction Score 稳定。相较于之前版本高并发写入时频繁出现的 -235 问题,Compaction 合并效率有 10 倍以上的提升
  • CPU 资源消耗显著降低:针对小文件 Compaction 进行了策略优化,在上述高并发写入场景下,CPU 资源消耗降低 25%
  • 查询耗时稳定:提升了数据整体有序性,大幅降低查询耗时的波动性,高并发写入时的查询耗时与仅查询时持平,查询性能较之前版本有 3-4 倍提升

Parquet 和 ORC 文件的读取效率优化 #9472

通过调整 Arrow 参数,利用 Arrow 的多线程读取能力来加速 Arrow 对每个 row_group 的读取,并修改成 SPSC 模型,通过预取来降低等待网络的代价。优化前后对 Parquet 文件导入的性能有 4 ~ 5 倍的提升。

更安全的元数据 Checkpoint #9180 #9192

通过对元数据检查点后生成的 image 文件进行双重检查和保留历史 image 文件的功能,解决了 image 文件错误导致的元数据损坏问题。

Bug 修复

修复由于缺少数据版本而无法查询数据的问题。(严重)#9267 #9266

问题描述:failed to initialize storage reader. tablet=924991.xxxx, res=-214, backend=xxxx

该问题是在版本 1.0 中引入的,可能会导致多个副本的数据版本丢失。

解决了资源隔离对加载任务的资源使用限制无效的问题(中等)#9492

在 1.1 版本中, Broker Load 和 Routine Load 将使用具有指定资源标记的 BE 节点进行加载。

修复使用 HTTP BRPC 超过 2GB 传输网络数据包导致数据传输错误的问题(中等)#9770

在以前的版本中,当通过 BRPC 在后端之间传输的数据超过 2GB 时,可能会导致数据传输错误。

其他

禁用 Mini Load

Mini Load 与 Stream Load 的导入实现方式完全一致,都是通过 HTTP 协议提交和传输数据,在导入功能支持上 Stream Load 更加完备。

在 1.1 版本中,默认情况下 Mini Load 接口 /_load 将处于禁用状态,请统一使用 Stream Load 来替换 Mini Load。您也可以通过关闭 FE 配置项 disable_mini_load 来重新启用 Mini Load 接口。在版本 1.2 中,将彻底删除 Mini Load 。

完全禁用 SegmentV1 存储格式

在 1.1 版本中将不再允许新创建 SegmentV1 存储格式的数据,现有数据仍可以继续正常访问。

您可以使用 ADMIN SHOW TABLET STORAGE FORMAT 语句检查集群中是否仍然存在 SegmentV1 格式的数据,如果存在请务必通过数据转换命令转换为 SegmentV2。

在 Apache Doris 1.2 版本中不再支持对 Segment V1 数据的访问,同时 Segment V1 代码将被彻底删除。

限制 String 类型的最大长度 #8567

String 类型是 Apache Doris 在 0.15 版本中引入的新数据类型,在过去 String 类型的最大长度允许为 2GB。

在 1.1 版本中,我们将 String 类型的最大长度限制为 1 MB,超过此长度的字符串无法再写入,同时不再支持将 String 类型用作表的 Key 列、分区列以及分桶列。

已写入的字符串类型可以正常访问。

修复 fastjson 相关漏洞 #9763

对 Canal 版本进行更新以修复 fastjson 安全漏洞

添加了 ADMIN DIAGNOSE TABLET 命令 #8839

通过 ADMIN DIAGNOSE TABLET tablet_id 命令可以快速诊断指定 Tablet 的问题。

下载使用

下载链接

http://doris.apache.org/zh-CN/downloads/downloads.html

升级说明

您可以从 Apache Doris 1.0 Release 版本和 1.0.x 发行版本升级到 1.1 Release 版本,升级过程请官网参考文档。如果您当前是 0.15 Release 版本或 0.15.x 发行版本,可跳过 1.0 版本直接升级至 1.1。

http://doris.apache.org/zh-CN/installing/upgrade.html

意见反馈

如果您遇到任何使用上的问题,欢迎随时通过 GitHub Discussion 论坛或者 Dev 邮件组与我们取得联系。

GitHub 论坛:https://github.com/apache/incubator-doris/discussions

Dev 邮件组:dev@doris.apache.org

致谢

Apache Doris 1.1 Release 版本的发布离不开所有社区用户的支持,在此向所有参与版本设计、开发、测试、讨论的社区贡献者们表示感谢,他们分别是:

@adonis0147

@airborne12

@amosbird

@aopangzi

@arthuryangcs

@awakeljw

@BePPPower

@BiteTheDDDDt

@bridgeDream

@caiconghui

@cambyzju

@ccoffline

@chenlinzhong

@daikon12

@DarvenDuan

@dataalive

@dataroaring

@deardeng

@Doris-Extras

@emerkfu

@EmmyMiao87

@englefly

@Gabriel39

@GoGoWen

@gtchaos

@HappenLee

@hello-stephen

@Henry2SS

@hewei-nju

@hf200012

@jacktengg

@jackwener

@Jibing-Li

@JNSimba

@kangshisen

@Kikyou1997

@kylinmac

@Lchangliang

@leo65535

@liaoxin01

@liutang123

@lovingfeel

@luozenglin

@luwei16

@luzhijing

@mklzl

@morningman

@morrySnow

@nextdreamblue

@Nivane

@pengxiangyu

@qidaye

@qzsee

@SaintBacchus

@SleepyBear96

@smallhibiscus

@spaces-X

@stalary

@starocean999

@steadyBoy

@SWJTU-ZhangLei

@Tanya-W

@tarepanda1024

@tianhui5

@Userwhite

@wangbo

@wangyf0555

@weizuo93

@whutpencil

@wsjz

@wunan1210

@xiaokang

@xinyiZzz

@xlwh

@xy720

@yangzhg

@Yankee24

@yiguolei

@yinzhijian

@yixiutt

@zbtzbtzbt

@zenoyang

@zhangstar333

@zhangyifan27

@zhannngchen

@zhengshengjun

@zhengshiJ

@zingdle

@zuochunwei

@zy-kkk

重大新闻

飞轮科技是一家专注于开源数据仓库技术创新和云端数据仓库商业服务的公司。在开源方面,秉持开源开放的核心理念,大力投入研发力量,加强 Apache Doris 在数据分析技术上的持续创新力,使其成为世界领先的开源分析数据库。在云数仓方面,基于 Apache Doris ,构建运行于多云之上的新一代云原生实时数仓 SelectDB ,为客户提供极简运维和极致性价比的数仓服务。

今天,我们正式上线了 SelectDB Cloud 1.0,开放对外申请使用。SelectDB Cloud是一个运行于多云之上,提供多云使用一致性的云原生数仓,当前支持运行在阿里云上、预计7月份完成对AWS、华为云的支持,对其他云的支持也会陆续完成支持。SelectDB Cloud支持Apache Doris集群运行在客户VPC和SelectDB VPC,提供对集群的升级、变配、扩缩容等可视化管理,提供对集群状态的监控,提供易用的SQL查询用户界面。

img

img

同时,我们也发布了技术支持服务 SelectDB Support。无论你是使用开源的Apache Doris,还是SelectDB Cloud的云数仓,都可以免费使用和付费订阅 SelectDB Support。我们创新推出了付费技术支持的按季度订阅服务,让你可以以最低的成本来体验我们的专业技术支持服务。

相关链接:

SelectDB 官方网站:

https://selectdb.com

SelectDB Cloud:

https://cloud.selectdb.com

重大新闻

全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于美国时间 2022 年 6 月 15 日 宣布, Apache Doris 成功从 Apache 孵化器毕业,正式成为 Apache 顶级项目(Top-Level Project,TLP)。

以下内容译自 Apache Doris 官网

Apache Doris 是一个基于 MPP 的现代化、高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 在多维报表、用户画像、即席查询、实时大屏等诸多业务领域都能得到很好应用。

Apache Doris 最早是诞生于百度内部广告报表业务的 Palo 项目,2017 年正式对外开源,2018 年 7 月由百度捐赠给 Apache 基金会进行孵化,之后在 Apache 导师的指导下由孵化器项目管理委员会成员进行孵化和运营。

“我们很自豪 Doris 能够顺利从 Apache 孵化器毕业,这是一个重要的里程碑。在整个孵化阶段,依靠 Apache 理念的指导和孵化器导师的帮助,我们学会了如何以 Apache 的方式去发展我们的项目与社区,也在这一进程中获得了巨大的成长。” Apache Doris VP 陈明雨说道。

目前 Apache Doris 社区已经聚集了来自不同行业近百家企业的 300 余位贡献者,并且每月活跃贡献者人数也接近 100 位。在孵化期间,Apache Doris 一共发布了 8 个重要版本,完成了包括存储引擎升级、向量化执行引擎等诸多重大功能,并正式发布了 1.0 版本。正是依靠这些来自开源贡献者的力量,才使得 Apache Doris 取得了今天的成绩。

与此同时,Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前, Apache Doris 已经在全球超过 500 家企业的生产环境中得到应用,在中国市值或估值排行前 50 的互联网公司中,有超过 80% 的公司长期使用 Apache Doris,包括百度、美团、小米、京东、字节跳动、腾讯、快手、网易、微博、新浪、360 等知名公司。同时在一些传统行业如金融、能源、制造、电信等领域也有着丰富的应用。

“你可以基于 Apache Doris 快速构建一个简单易用并且性能强大的数据分析平台,非常易于上手,所需要付出的学习成本非常低。并且 Apache Doris 的分布式架构非常简洁,可以极大降低系统运维的工作量,这也是越来越多用户选择 Apache Doris 的关键因素。”

作为一款成熟的分析型数据库项目,Apache Doris 有以下优势:

  • 性能优异:自带高效的列式存储引擎,减少数据扫描量的同时还实现了超高的数据压缩比。同时 Doris 还提供了丰富的索引结构来加速数据读取与过滤,利用分区分桶裁剪功能,Doris 可以支持在线服务业务的超高并发,单节点最高可支持上千 QPS。更进一步,Apache Doris 结合了向量化执行引擎来充分发挥现代化 CPU 并行计算能力,辅以智能物化视图技术实现预聚合加速,并可以通过查询优化器同时进行基于规划和基于代价的查询优化。通过上述多种方式,实现了极致的查询性能。
  • 简单易用:支持标准 ANSI SQL 语法,包括单表聚合、排序、过滤和多表 Join、子查询等,还支持窗口函数、Grouping Set 等复杂 SQL 语法,同时用户可以通过 UDF 和 UDAF 等自定义函数来拓展系统功能。除此以外,Apache Doris 还实现了 MySQL 协议兼容,用户可以通过各类客户端工具来访问 Doris,并支持与 BI 工具的无缝对接。
  • 架构精简:系统只有两个 Frontend(FE)和 Backend(BE)两个模块,其中 FE 节点负责用户请求的接入、查询计划的解析、元数据存储及集群管理等工作,BE 节点负责数据存储和查询计划的执行,自身就是一个完备的分布式数据库管理系统,用户无需安装任何第三方管控组件即可运行起 Apache Doris 集群,并且部署和升级过程都非常简易。同时,任一模块都可以支持横向拓展,集群最高可以拓展到数百个节点,支持存储超过 10PB 的超大规模数据。
  • 稳定可靠:支持数据多副本存储,集群具备自愈功能,自身的分布式管理框架可以自动管理数据副本的分布、修复和均衡,副本损坏时系统可以自动感知并进行修复。节点扩容时,仅需一条 SQL 命令即可完成,数据分片会自动在节点间均衡,无需人工干预或操作。无论是扩容、缩容、单节点故障还是在升级过程中,系统都无需停止运行,可正常提供稳定可靠的在线服务。
  • 生态丰富:提供丰富的数据同步方式,支持快速加载来自本地、Hadoop、Flink、Spark、Kafka、SeaTunnel 等系统中的数据,也可以直接访问 MySQL、PostgreSQL、Oracle、S3、Hive、Iceberg、Elasticsearch 等系统中的数据而无需数据复制。同时存储在 Doris 中的数据也可以被 Spark、Flink 读取,并且可以输出给上游数据应用进行展示分析。

“‍ 毕业不是最终目标,它是新征程的起点。”陈明雨说到。

“在过去,我们发起 Doris 的目标是为更多人提供体验更佳的数据分析工具、解决他们数据分析的难题。成为 Apache 顶级项目一方面是对 Apache Doris 社区过去所有贡献者一直以来辛勤工作的肯定,另一方面也意味着我们在 Apache Way 的指引下建立了一个强大的、繁荣的、可持续发展的开源社区。未来我们将会继续以 Apache 方式运作社区,相信会吸引到更多优秀的开源贡献者参与社区中来,社区也会在所有贡献者的帮助下得到进一步成长。”

“Apache Doris 后续将开展更多富有挑战且有意义的工作,包括新的查询优化器、对湖仓一体化的支持,以及面向云上基础设施的架构演进等等。欢迎更多的开源技术爱好者加入 Apache Doris 的社区,携手共成长。”

“我们再次由衷地感谢所有参与建设 Apache Doris 社区的贡献者们,以及所有使用 Apache Doris 并不断提出改进建议的用户们。同时也感谢一路走来,不断鼓励、支持和帮助过我们的孵化器导师、IPMC 成员以及各个开源项目社区的朋友们。”

相关链接:

Apache Doris 官方网站:

http://doris.apache.org

Apache Doris Github:

https://github.com/apache/doris

Apache Doris 开发者邮件组:

dev@doris.apache.org

重大新闻

导读:致力解决实时数据分析的行业痛点,飞轮科技将持续与广大开发者共建 Apache Doris 开源社区,并基于此研发云原生实时数仓 SelectDB。

36 氪获悉,云原生实时数仓厂商 北京飞轮数据科技有限公司(以下简称飞轮科技)于近期完成超 3 亿元的天使轮和天使 + 轮融资,投资方为 IDG 资本、红杉中国等 VC 。

据了解,飞轮科技成立于 2021 年 12 月,由原百度智能云大数据与视频云总经理连林江创办,团队核心成员来自百度、腾讯、奇安信、阿里、亚马逊、字节跳动、蚂蚁金服、快手等国内外头部互联网和云计算公司。

谈及创业原因,连林江向 36 氪介绍,公司核心团队过去一直深耕于大数据分析和云计算领域,投身在互联网数字经济的趋势中。在整个社会数字化转型加速的背景下,各行各业对大数据实时处理和应用的需求正快速增长,对分析时效性的要求也越来越高。正由此,飞轮科技团队希望贡献自己的技术经验和工程力量解决行业痛点、构建云原生时代具行业普适能力的实时数据仓库。

在技术方面,飞轮科技表示,其团队对于大数据开源软件和云计算有着深度理解。在此基础上,公司将投身于由国人自主研发并开源的实时 OLAP 数据库 Apache Doris,将其作为实时数据分析技术的建设起点。对此连林江强调,当今中国还需要更多的开源技术贡献者和生态建设者,飞轮科技的首要定位是一家开源技术公司,所以团队也将秉持开源开放的核心理念,持续投入研发力量共建开源社区,持续服务好社区用户,与广大社区开发者一起持续提升 Apache Doris 作为分析型数据库开源项目在国际范围内的影响力。

在产品方面,飞轮科技还将研发基于 Doris 内核的云原生发行版 SelectDB。SelectDB 是运行在云上的实时数据仓库,为用户和客户提供开箱即用的能力。据介绍,其主要的特色功能体现在:充分发挥弹性云计算、弹性云存储的优势,实现高性价比;提供可视化、易用的管控平台和用户交互开发平台。另外在场景适配度上,公司表示其产品具备通用性特点,对各个业务场景均具备适用性,可以帮助客户在一套架构中实现对流、批数据以及结构化、半结构化数据的处理和分析,解决繁重架构带来的难以落地及运维难题。

在市场推广方面,公司表示,将推进开放共赢的生态合作战略,致力于和云厂商及 ISV/SI 开展合作,让客户在各家云上都能享受到一致的产品体验。可以看到,当前不少云厂商都会提供自身的数据仓库产品,但在飞轮科技看来,云厂商和独立数据仓库厂商之间的合作在国内外都很常见,双方可以在不同场景下相辅相成、共同满足客户的多样化和差异化需求。尤其客户在多云场景的选择上,独立数据仓库厂商的中立地位难以被取代。当前,飞轮科技已经同部分业内头部云厂商开展合作,同时与更多公有云、行业云厂商的合作也将逐步落地。在行业客户上,飞轮科技表示除泛互联网以外,汽车、金融、电信、零售快消、交通物流、能源、医疗、生物制药、工业制造等行业也不断有客户和飞轮科技建立联系,对产品表现出浓厚兴趣。

团队方面,飞轮科技创始人兼 CEO 连林江曾负责百度智能云大数据、云存储、视频云以及企业应用平台等业务,从零到一开拓了大量客户和商业化收入。联合创始人兼 CTO 衣国垒曾担任百度 Doris 团队技术负责人、腾讯云架构平台部 Clickhouse 负责人。联合创始人兼技术 VP 肖康曾担任奇安信 ToB 大数据平台高级总监、360 大数据/云平台技术总监,成功交付过大量客户。联合创始人兼产品 VP 杨勇强曾担任百度智能云存储部总架构师,主导构建了云存储技术产品体系,他也是 Linux 内核社区贡献者。整体来看,创始团队在技术、产品、开源运营、商业化等方面均拥有十余年的深厚经验。