StarRocks 3.3 重磅发布,Lakehouse 架构发展进入快车道!

StarRocks 3.3 的发布标志着 Lakehouse 架构在数据分析领域迈向了一个新的高度。作为下一代 Lakehouse 架构的代表,StarRocks 3.3 在稳定性、计算性能、缓存设计、物化视图、存储优化和 Lakehouse 生态系统等方面进行了全方位的优化和创新。本文将逐一介绍 StarRocks 3.3 的这些新特性,带你深入了解这款强大的数据分析工具如何提升你的数据处理效率和分析能力。

成熟稳定:全面提升的成熟度级别和大查询稳定性

为了帮助用户更好地理解和使用新功能,StarRocks 3.3 对各项新特性进行了成熟度级别的划分,并采用了更清晰的标记体系:Experimental(实验性质)、Preview(公测阶段)和 GA(生产可用)。这种分级体系使用户能够根据功能的成熟度来决定是否在生产环境中使用。

  • Experimental (实验性质) :这些功能的接口可能会变动,甚至可能被调整或放弃,部分刚合入社区的代码覆盖率尚未达到标准的功能也会先放入这一类别。此类功能需要用户手动打开或主动调用,不会影响其他功能。

  • Preview (公测阶段) :接口基本稳定,但部分参数的语义可能会有微调。可以在非核心场景下使用。

  • GA(Gerneal available) :接口和功能已经明确,虽然还会有一些功能补充,但已有功能基本不会修改,完全达到生产可用状态。

此外,为了进一步提升用户体验,我们针对数据湖分析、存算分离和物化视图等关键功能提供了更完整的产品能力边界和版本对照文档,方便用户理解和使用。

StarRocks 3.3 针对大查询、数据压缩和数据湖场景的内存占用进行了显著优化。通过 GA 级别的算子落盘能力(Spill to Disk),有效地优化了复杂查询的内存占用和 Spill 调度,确保大查询能够稳定执行而不会导致内存溢出(OOM)。此外,支持 Colocate Group Execution,通过分阶段执行 Colocated 表上的查询,大幅降低 Join 和 Agg 算子在执行时的内存占用,从而显著提升大查询的稳定性。

性能提升:新架构,新台阶,新场景

StarRocks 3.3 的发布不仅提升了基础性能,更在真实场景中的性能优化上迈上了新台阶。我们不仅仅拘泥于Benchmark 测试的成绩,而是专注于在实际应用中的性能提升。

首先,在新架构性能优化方面,StarRocks 对 ARM 架构进行了大幅优化,相比 x86 平均成本降低 20%,同时查询性能提升20%,使其成为与 x86 架构同等重要的一等公民。 AWS Graviton 实例上的测试中,ARM 架构的性能提升显著:在 SSB 100G 测试中,ARM x86 11%;在Clickbench 测试中,ARM x86 39%;在 TPCH 100G 测试中,ARM x86 13%;在 TPCDS 100G 测试中,ARM x86 35%。

在数据湖性能优化方面,StarRocks 3.3 提升了 Scan 性能,通过对 Page Index 的优化显著减少了 Scan 的数据规模,降低了 Page 多读的情况。此外,元数据性能也有了突破,显著提升了整体的处理效率。

针对特定场景的性能提升,StarRocks 3.3 进行了多方面的优化:

  • 倒排索引和 ngram 索引的增强显著提升了模糊搜索的效率;

  • FlatJson 对半结构化数据的处理性能也得到了百倍的显著提升,自动加速了 JSON 查询,使其性能接近结构化数据,同时保持了灵活性。

  • Bitmap 优化不仅提升了 Bitmap 系列函数的性能和内存占用,还补充了 Bitmap 导出到 Hive 的能力,以及相应的Hive Bitmap UDF。

  • CodeGen 技术显著提升了复杂表达式的计算效率,而重构后的向量化正则表达匹配也大幅降低了 regexp_replace 函数的 CPU 消耗。

  • 为了应对数据倾斜问题,StarRocks 3.3 增加了外表统计信息中的直方图统计,使得在数据倾斜情况下能生成更准确的执行计划,并优化了数据倾斜时的 Shuffle Join 操作。

  • 此外,全局字典的优化提供了字典对象,可以在各个 BE 节点内存中存储字典表的键值对映射关系通过dictionary_get() 函数直接查询维度值,相对于原先通过 JOIN 维度表获取维度值的方式,查询效率更高。

缓存设计: Lakehouse 架构的最后一块拼图

在 Lakehouse 架构中,缓存设计是实现高效数据处理的关键一环。对于存算分离架构来说,缓存的重要性不言而喻。无论是 Hive、Iceberg、Paimon 等外表,还是 StarRocks 存算分离的内表,缓存命中率的高低直接影响性能的优劣。在缓存命中情况下,性能已经能够追平存算一体的架构,但如何合理、稳定地将热数据保存在缓存中却是一大挑战。

StarRocks 原生开发的缓存功能为用户提供了开箱即用的便捷体验。无需复杂的配置,用户即可利用强大的缓存机制提升数据处理性能。StarRocks 3.3 通过一系列创新功能显著提升了缓存的能力:

  • 预热缓存: 通过 cache warmup 命令,可以预先将关键数据加载到缓存中,减少首次查询的延迟。

  • 缓存优先级 :3.3.1 推出将 cache select 设置较高的缓存优先级,确保最重要的数据得到优先缓存。

  • 内存优化和可观测性: 缓存的内存优化和可观测性的提升,使得缓存的管理和监控更加高效和透明。

在存算分离集群中,StarRocks 3.3 还适配了AWS Express One Zone Storage,大幅提升了读写性能,为未来的全局缓存带来了全新的可能性。

此外,在缓存无法命中或者不希望使用缓存的场景下,冷查性能也得到了显著提升。主要通过优化 tablet 的并行扫描,以及对小 I/O 的自动合并,使得即使在没有缓存支持的情况下,查询性能依然表现优异。

物化视图:连接湖仓的高效纽带

物化视图作为 StarRocks 的核心能力,也是连接 Open lake format 和 StarRocks 内表的纽带。通过外表物化视图,可以透明地为数据湖上的查询进行加速,在保证 single source of truth 的同时,降低数据加工的复杂度。

在 3.3 版本中,我们又进一步做了一些重要优化:

  • 外表物化视图的进一步能力增强: Iceberg 外表物化视图支持分区级别增量刷新,并可在分区方式为 Hidden Partition 的表上创建物化视图。Paimon 外表物化视图补全了改写能力,也支持了分区级别的增量刷新。

  • 更完善的透明改写能力: StarRocks 3.3 支持了基于文本和视图的物化视图改写。 除了原来标准 SJPG 的改写能力之外,基于视图的 MV 改写可以把针对视图的查询改写到对等的物化视图上,适用于建模和指标平台等场景。针对文本的改写能力能对一些非标准 SQL 片段进行文本匹配,解决复杂查询难以透明改写的问题。

  • 多事实表分区刷新优化 此前,物化视图的分区刷新策略仅支持单个事实表增量刷新策略(即当物化视图的分区列和一个 base 表的分区列一致场景下,物化视图的刷新会根据base表的分区来进行变更),3.3 版本新增的多事实表对齐策略,可以降低多事实表关联场景下的物化视图刷新开销。

  • 新增改写策略(Transparent MV): 此前,物化视图的改写主要是把针对 base 表的查询改写到物化视图上,通过开启物化视图属性 transparent_mv_rewrite_mode 后,当用户直接查询物化视图时,StarRocks 会自动改写查询,将已经刷新的物化视图分区中的数据和未刷新分区对应的原始数据做自动 Union 合并。 此模式允许配置 MV base 表数据不一致时的改写行为,实现在数据时效性和查询性能之间的权衡, 适用于 分层建模场景。

开启物化视图属性 transparent_mv_rewrite_mode 后,当用户直接查询物化视图时,StarRocks 会自动改写查询,将已经刷新的物化视图分区中的数据和未刷新分区对应的原始数据做自动 Union 合并。

  • 大规模物化视图调度能力优化 增加 enable_query_rewrite 属性,实现对查询改写的禁用,减少计划开销。通过控制候选物化视图数量,并引入更高效的筛选算法,增加物化视图计划缓存(MV plan cache)。支持全局FIFO 调度,优化嵌套物化视图的级联刷新策略。

存储优化:更高效易用的数据管理

StarRocks 3.3 在存储优化与易用性提升方面做出了诸多改进,进一步增强了系统的性能和用户体验。

首先,StarRocks 3.3 提升了 FE 的可观测性和锁机制优化。提供了详细的内存使用指标,让用户可以更好地管理和监控资源。同时,引入了锁管理器(Lock Manager),实现对元数据锁的集中管理,将元数据锁的粒度从库级别细化为表级别。 这种细化显著提高了导入和查询的并发性能,在 100 并发的导入场景下,导入耗时减少了 35%。

为了增强建表语句的清晰度,StarRocks 3.3 支持了 ORDER BY 语法,使得建表操作更加直观和简洁。此外,还增加了对重命名列(Rename Column)的支持(版本 3.3.1),进一步提升了数据管理的灵活性。

在存储效率方面,StarRocks 3.3 优化了非字符串标量类型数据的存储方式,存储空间下降了 12%。这不仅降低了存储成本,也提升了数据读取的效率。

针对主键表,StarRocks 3.3 实施了多项优化:

  • PK Index 存算分离支持 Remote Storage :主键索引落盘支持落至远程存储,提高了数据的灵活性和可扩展性。

  • 主键表支持 Size-tiered Compaction 策略 :这一策略降低了执行 Compaction 时的写 I/O 和内存开销,适用于存算分离和存算一体的集群。

  • 优化主键表持久化索引的读 I/O :支持按照更小的粒度页读取持久化索引,并改进了持久化索引的 Bloom Filter。这一优化也适用于存算分离和存算一体的集群。

生态支持:Lakehouse 扩展与集成

Hive 生态支持 :在3.3版本中,StarRocks 支持对 ORC 和 Text 文件的写入能力。 单 sink 算子的写入性能达到了 Trino 的 2 倍。

Iceberg 生态支持 :StarRocks 3.3 大幅重构了 Iceberg 元数据查询模块,通过分布式元数据读取提升对 Avro 格式文件的解析性能,避免原生 SDK 的单点瓶颈,对小规模的元数据通过 manifest 缓存来降低重复 I/O,从而大幅提升了Iceberg 的元数据访问性能。同时,增加了对 V2 表 equality delete 的支持,使用户能够高效分析使用 Flink 写入的Iceberg upsert 数据。此外,还引入了对 Iceberg 视图(Iceberg View)的查询支持,使得数据管理和查询更加便捷和直观。

Paimon 生态支持 :StarRocks 3.3 现已全面支持 Paimon 生态系统,包括对最新的 delete vector 的支持、Paimon 系统表的集成以及 scan range 调度的优化。通过这些改进,用户可以更高效地管理和查询 Paimon 中的数据,实现更灵活的数据处理和分析。

ClickHouse Kudu 生态支持 :为了方便用户从 Clickhouse 迁移到 StarRocks,社区贡献了专用的迁移工具,使得数据迁移过程更加平滑和高效。此外,StarRocks 还支持 ClickHouse 和 Kudu 的 Catalog 功能,使得用户可以更便捷地在这两种数据库和 StarRocks 之间进行数据管理和查询。

总结:成熟的 Lakehouse 架构

StarRocks 正在积极向成熟的湖仓架构升级,不仅增强了与开放湖格式的兼容性,还显著提升了湖的写入性能。在数仓功能上,它进一步加强了索引和半结构化数据处理的性能,同时,存算分离架构成为更受青睐的成熟解决方案。

此外,大查询和 ETL 任务的稳定性的提高,为批处理的能力打下基础。这些进步共同推动了 StarRocks 向一套架构,满足所有的分析需求的"One data, All Analytics"愿景的迈进。

更详细的 feature 介绍参考:

Release note: https://docs.mirrorship.cn/zh/releasenotes/release-3.3/

下载: https://www.mirrorship.cn/zh-CN/download/starrocks

直播回放 :https://www.bilibili.com/video/BV1F7421d72D/

更多交流,联系我们:https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/8da64

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/768139.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

软考《信息系统运行管理员》-2.3信息系统运维的外包

2.3信息系统运维的外包 信息系统运维外包的概念/模式 也称为信息系统代维。是指信息系统使用单位将全部或一部分的信息系统维护服务工作,按照规定的维护服务要求,外包委托给专业公司管理。 完全外包运维模式部分外包模式 信息系统运维外包的好处 有利…

诠释长期主义内核,紧抓阶段发展机遇,哪吒汽车迎来IPO新纪元

6月26日,合众新能源汽车股份有限公司(下称“合众新能源”或“哪吒汽车”)向港交所递交上市申请,中金公司、摩根士丹利、中信证券、农银国际及招银国际为其联席保荐人。 自品牌成立以来,哪吒汽车便秉持“科技平权”的价值理念,潜心…

什么是 Socks5 代理?了解和使用 SOCKS5 代理的终极指南

SOCKS5是什么以及它如何工作? 在网络和互联网协议领域,有多种工具和技术在确保安全高效的通信方面发挥着至关重要的作用。 SOCKS5 就是这样一个工具,它代表套接字安全版本 5。 在这篇博文中,我们将深入探讨 SOCKS5 的细节&…

如何在TechNow招聘顶尖AI工程师

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

实用麦克风话筒音频放大器电路设计和电路图

设计目标 输入电压最大值输出电压最大值电源Vcc电源Vee频率响应偏差20Hz频率响应偏差20kHz100dB SPL(2Pa)1.228Vrms5V0V–0.5dB–0.1dB 设计说明 此电路使用跨阻抗放大器配置中的运算放大器将驻极体炭精盒麦克风的输出电流转换为输出电压。此电路的共模电压是固定的&#xf…

MyBatis3(动态SQL 常用的动态SQL 元素 映射器注解 基本注解 结果映射注解)

目录 一、动态SQL 常用的动态SQL 元素 二、if元素 三、choose 、when 、otherwise 元素 四、trim 、where 、set 元素 trim(不常用) where set 五、foreach 元素 六、bind 元素 #{} ${} 区别 示例完整代码 七、映射器注解 八、基本注解 …

代码随想录算符训练营第1天|LeetCode704二分查找,LeetCode27移除元素

704.二分查找 题目链接:704. 二分查找 - 力扣(LeetCode) 文档讲解:代码随想录 (programmercarl.com) 视频链接:手把手带你撕出正确的二分法 | 二分查找法 | 二分搜索法 | LeetCode:704. 二分查找_哔哩哔哩_…

libtorch+torchvision windows编译

libtorch建议直接采用官方的预编译版本,对应好torchvision版本做编译。 1. libtorch预编译版本下载 libtorch官方下载地址 Pybind11编译 git clone https://github.com/pybind/pybind11.git cd pybind11 mkdir build (base) PS E:\project\pybind11-2.13.1> cd .\build…

STMF4学习笔记(天空星)

前言:本篇笔记参考嘉立创文档,连接放在最后 #RTC相关概念定义 Real-Time Clock 缩写 RTC 翻译 实时时钟,是单片机片内外设的一种,作用于提供准确的时间还有日期,这个外设有独立的电源,当单片机停止供电…

Vue移动端地图App:van-uploader导致的卡顿问题

问题描述 基于Vue3+Vant IU 4开发的移动端地图App,在进行地图点位上报、上报记录查看过程中,出现App卡顿、甚至闪退的问题,进行问题定位之后,发现是van-uploader组件导致的问题。 van-uploader文件上传组件 van-uploader组件用于将本地的图片或文件上传至服务器,并在上传…

番外篇 | 斯坦福提出即插即用二阶优化器Sophia :相比Adam实现2倍加速,显著节省大语言模型训练成本

前言:Hello大家好,我是小哥谈。大模型的预训练成本巨大,优化算法的改进可以加快模型的训练时间并减少训练开销。目前大模型的训练优化器基本上都采用Adam及其变体,并且Adam的应用已经有9个年头了,在模型优化方面相当于霸主的地位。但是能否够在优化器方面提高模型预训练效…

第15届蓝桥杯Python青少组选拔赛(STEMA)2023年8月真题-附答案

第15届蓝桥杯Python青少组选拔赛(STEMA)2023年8月真题 题目总数: 11 总分数: 400 一、单选题 第 1 题 单选题 以下不符合 Python 语言变量命名规则的是( )。 A. k B. 2_k C. _k D. ok 答案 B …

全面解析自然语言处理(NLP):基础、挑战及应用前景

自然语言处理 (NLP) 简介与应用前景 自然语言处理(NLP)是人工智能和计算语言学的一个分支,致力于使计算机能够理解、解释和生成人类语言。这篇博文将深入探讨自然语言处理的基础知识、挑战、典型任务及其广泛的应用前景。 一、自然语言处理的…

企业部署 LLM 的四种方法

目录 生产环境中的四种 LLM 方法1. 基于上下文的提示工程 -- Prompt Engineering2. 检索增强生成 -- RAG3. 微调模型 -- Fine Tune4. 训练模型参考随着大型语言模型 (LLM) 的快速发展,企业正积极探索其用例,并将首批生成式 AI 应用部署到生产环境中。自今年 LLM 或 LLMOps 真…

全网最详细的软件测试面试题总结+基础知识(完整版)

一、什么是软件? 软件是计算机系统中的程序和相关文件或文档的总称。 二、什么是软件测试? 说法一:使用人工或自动的手段来运行或测量软件系统的过程,以检验软件系统是否满足规定的要求,并找出与预期结果之间的差异…

python3.8安装详细教程

python3.8下载及安装详细教程 Python 3.8 是一个重要的Python版本,它引入了一系列新功能和改进。以下是对Python 3.8的详细概述,包括其关键特性、安装方法以及版本状态等信息。 Python 3.8的关键特性 海象运算符(Walrus Operator&#xff09…

字符串操作函数

目录 一.strlen函数 二.strcpy函数 三.strcat函数 四.strcmp函数 五.strncpy函数 六.strncat函数 七.strncmp 函数 八.strstr函数 九.strtok函数 十.strchr函数 十一.strrchr函数 十二.strpbrk函数 十三.strspn函数 十四.strcspn函数 一.strlen函数 size_t str…

yaklang window安装 vscode运行得到“hello world”

资源来源:旅程伊始:Yak 语言环境安装与搭建环境 | Yak Program Language 安装yak语言非常简单,管理员权限打开命令行运行以下命令: powershell (new-object System.Net.WebClient).DownloadFile(https://yaklang.oss-cn-beijing…

“穿越时空的机械奇观:记里鼓车的历史与科技探秘“

在人类文明的发展历程中,科技的创新与进步不仅仅推动了社会的进步,也为我们留下了丰富的文化遗产。记里鼓车,作为一种古老的里程计量工具,其历史地位和技术成就在科技史上具有重要的意义。本文将详细介绍记里鼓车的起源、结构原理…

MySQL数据库设计作业 ——《网上书店系统》数据库设计实验报告

数据库设计作业——《网上书店系统》数据库设计 一、功能需求 普通用户:可以进行最基础的登陆操作,可浏览图书、按类别查询图书、查看 图书的详细信息,还可以注册成为会员。会员:需要填写详细信息(真实姓名、性别、手…
最新文章