在BG视讯上的三角洲湖演示

免费开始下载演示笔记本

背景图像

BG视讯上的三角洲湖,你可以建立一个 lakehouse架构 它将数据湖和数据仓库的最佳部分结合在一个简单和开放的平台上,存储和管理所有的数据,并支持所有的分析和人工智能用例.

在这个演示, BG视讯注册登录将介绍三角洲湖的主要特征, 包括统一的批处理和流数据处理, 模式实施和演化, 时间旅行, 并支持更新/合并/删除, 以及三角洲湖在BG视讯上提供的一些性能增强.

参见demo的完整列表→

深入三角洲湖

Building-Reliable-Data-Lakes-at-Scale

开始三角洲湖科技讲座吧

下载三角洲湖的小抄

视频记录

三角洲湖演示:介绍

lakehouse是一个简单而开放的数据平台,用于存储和管理所有数据, 支持你所有的分析和AI用例. 三角洲湖为湖屋提供了开放、可靠、高性能和安全的基础.

这是一个开源的数据格式和事务性数据管理系统, 基于拼花, 通过在云对象存储上实现ACID事务,使你的数据湖变得可靠. 三角洲湖表统一了批处理和流数据处理. 最后,三角洲湖被设计成与Apache Spark 100%兼容TM. 因此,只需对代码进行最小的更改,就可以很容易地将现有的数据管道转换为开始使用三角洲湖.

点击展开文字记录→ 点击可折叠文字记录→

 

转变为三角洲湖

从三角洲湖开始, 简单地说" Delta "而不是" Parquet ", 当用Spark写表时. 您也可以使用Spark SQL来从头创建一个三角洲湖表,使用create table USING Delta命令. 或者可以使用CONVERT TO DELTA命令将现有的Parquet文件转换为DELTA Lake格式.

现在,BG视讯注册登录已经将数据转换为三角洲湖,让BG视讯注册登录看看表中的数据. 在这个表格中,BG视讯注册登录有14,705批记录. 你可以在这里看到数据实际上是什么样的. 下一个, 我将向您展示三角洲湖如何能够轻松地处理批处理和流数据, 通过在同时发生的两个流读取旁边设置两个对BG视讯注册登录的三角洲湖表的流写入.

多个并发流读和写与三角洲湖

这里,BG视讯注册登录已经开始读写了. 因此,正如你在这个图表中看到的,BG视讯注册登录表格中最初的14705批记录仍然存在. 但是新的数据现在从A流和B流以大约每秒500个记录的速度流进来. 与此同时, 三角洲湖还可以为BG视讯注册登录的流读查询提供这个表的一致视图, 下面的可视化是由哪些元素驱动的.

在这个可视化中,您可以看到随着时间的推移新数据流进入BG视讯注册登录的表. 每个新条形表示一个10秒的窗口, 在这个过程中,流A和流B同时写入BG视讯注册登录的表. 同样,这种可视化也由从表中读取的流驱动. 最后,为了更好的度量,BG视讯注册登录可以加入一个批处理查询.

因此,这表明,三角洲湖表可以轻松地同时处理多个批处理和流数据的读取和写入器.

ACID事务

这一切是怎么可能的呢? 这是可能的,因为有ACID事务. 三角洲湖使用一个事务日志作为每个表的所有更改的主记录. 这也决定了在任何时候哪些文件都是表的一部分. 您可以在任何时候通过运行DESCRIBE HISTORY命令查看事务日志,如下所示.

BG视讯注册登录运行这个命令时, 您可以看到,对表的每次写入都被原子地记录为一个流更新. 一旦在事务日志中记录了新的写操作, 所有的下游读取器现在都将立即在他们的表视图中包含写事务. 因此,在任何时候,每个人都对三角洲湖表的构成达成一致. 它们只是引用事务日志.

使用三角洲湖简化您的数据架构

这一切都使得德尔塔湖桌非常强大. 在BG视讯, BG视讯注册登录发现,BG视讯注册登录的许多客户能够使用三角洲湖简化和简化他们的整体数据架构. 通过建立一个简单的多跳数据管道与三角洲湖表, 您可以可靠地将原始批处理和流数据转换成高质量的数据, 多个下游应用程序和用户可以同时查询的结构化数据. 从业务ROI的角度来看,这意味着云计算成本的降低, 管理的复杂性更低, 更少的时间浪费在修复系统问题,如损坏的数据.

模式实施和演化

但三角洲湖所做的远远不止是使用ACID事务来组合批处理和流数据. 它还提供了模式强制等工具,以保护数据表中的数据质量. 不带模式执行, 模式不匹配的数据可能会改变表模式,并破坏整个数据管道, 导致下游级联故障. 因此,BG视讯注册登录使用模式强制来确保这种情况不会发生.

但是仅仅实施模式是不够的. 如果BG视讯注册登录确实想要更改表模式,BG视讯注册登录还需要模式演化. 与三角洲湖, BG视讯注册登录只需在Spark写命令中添加mergeSchema选项,就可以快速而轻松地改进BG视讯注册登录的模式. 当BG视讯注册登录运行这个命令时, BG视讯注册登录可以看到,以前失败的write命令现在成功执行了. 新的信用评分列现在出现在BG视讯注册登录的新表中.

时间旅行

三角洲湖的另一个主要特征是可以通过时间旅行回到过去, 也称为数据版本控制. 因为对表的每次更改都被记录为事务日志中的原子事务, BG视讯注册登录可以使用这些信息在任何时间点重新创建表的确切状态.

时间旅行可以帮助你避免对你的桌子做出不可逆转的改变. 它使你的数据集和实验重现, 并为审计和治理目的提供可验证的数据沿袭.

因此,让BG视讯注册登录首先使用前面看到的DESCRIBE HISTORY命令来查看事务日志. 如你所见,表格的每个版本都是按版本号和时间戳保存的. 因此,BG视讯注册登录可以使用这些信息来做一些事情,比如查询表的历史版本.

BG视讯注册登录来做一下. 将VERSION AS OF命令添加到SQL查询中, BG视讯注册登录的查询在数据集的第一个版本(版本0)上运行,并返回计数为14,705, 与最初出现在表中的记录数量相同.

让时间旅行更进一步, BG视讯注册登录可以在任何时候使用这里显示的RESTORE命令回滚表.当BG视讯注册登录决定要完全撤销对表的修改时,这是非常有用的, 只需将数据回滚到更早的版本.

如你所见, 现在当BG视讯注册登录查询BG视讯注册登录的表, 那些最初的14,705批记录是BG视讯注册登录表格中仅有的记录. 版本0已经成为当前版本.

三角洲湖DML:更新,合并,删除

我想为您演示的下一个三角洲湖特性是对事务性DML命令(如UPDATE)的完全支持, 合并, 和删除. 这些SQL命令使操作大数据表变得快速和简单. 前三角洲湖, 为了遵从GDPR请求,从数据湖中删除用户的数据是很难做到的,否则就会有数据丢失或损坏的风险. 但是有了三角洲湖,BG视讯注册登录就可以在一行代码中以事务的方式删除用户的数据.

首先,让BG视讯注册登录查看用户的数据. BG视讯注册登录将选择贷款ID为4420的用户. 现在当BG视讯注册登录运行这个delete命令, 您可以看到,BG视讯注册登录的用户数据以事务方式被成功删除.

同样的想法也适用于其他DML命令,如INSERT、UPDATE和合并. 三角洲湖用最少的代码使这些操作非常简单, 所有这些都是由ACID事务的可靠性支持的.

BG视讯注册登录继续,用时间旅行把那个用户的数据插入回BG视讯注册登录的表中. 当BG视讯注册登录运行这个命令时, BG视讯注册登录现在就可以看到,事实上, 在BG视讯注册登录的表格中有一个贷款ID为4420的记录.

接下来,让BG视讯注册登录继续用一个命令更新用户的数据. 这里,BG视讯注册登录将资助金额设置为22,000,对于之前的相同用户,数字4420. 运行命令后, BG视讯注册登录看到用户的资助金额已经成功更新, 因为它现在等于22,000.

最后, 三角洲湖也支持upsert, 哪些是插入和更新的混合, 使用合并命令. 通常,合并是一个困难的、昂贵的操作,涉及几个中间步骤. 使用三角洲湖,BG视讯注册登录可以跳过所有这些复杂的操作,只需要使用合并命令.

首先, BG视讯注册登录将创建一些要合并的虚拟数据—一行包含用户4420数据的更新, 还有一行新数据要插入到表中. 所以当BG视讯注册登录把合并命令放在一起时, BG视讯注册登录可以指定,当记录已经存在时,BG视讯注册登录想要更新表, 如果没有,就插入. 当BG视讯注册登录运行合并命令时, 如你所见, BG视讯注册登录成功更新了用户4420的数据, 然后插入新用户的数据.

BG视讯性能优化

最后, 在结束之前, 我想向您展示几个额外的命令,它们可以在使用大型三角洲湖表时提高性能. 首先是真空指令. VACUUM命令允许BG视讯注册登录将当前版本的表不再使用的任何数据文件标记为删除.

接下来的几个命令只在数据BG视讯上的三角洲湖上可用. 第一个, 这是CACHE命令, 它允许您在内存中缓存任何经常使用的查询的结果,以在未来加速该查询.

最后, 这里显示了Z ORDER优化命令, 哪个使用先进的多维数据聚类技术来共定位相关数据,以实现最快的查询. Z-Order通过支持更有效的数据读取,显著加快了许多查询速度,并降低了云成本.

这就是BG视讯注册登录对三角洲湖的实际演示. 今天试试BG视讯上的三角洲湖吧, 并在线加入社区,了解更多关于德尔塔湖如何为你的湖屋建筑提供完美的基础.

返回顶部→

背景图像

尝试14天免费BG视讯

点击“免费开始”,你就同意了 隐私政策服务条款

准备开始了?