从数据湖中运行查询
Amazon Redshift announced 2023年7月25日的新功能,该功能允许开发人员,数据分析师和数据科学家在已提供的环境中使用查询编辑器V2轻松地运行SQL查询,或通过查询AWS GLUE DATA CATALOG的数据来查询数据,以通过查询Amazon Redshift服务器来运行SQL查询。 P>
课程目标
在本课程中,您将学习如何:
- 更改数据目录自动安装的系统级配置。
- 在awsdatacatalog中命名的数据库中显示一个模式列表。
- 在模式中显示表列表。
- 在表中显示列列表。
这是如何运作的?
这种新的AWS服务集成意味着开发人员和分析师将不再需要从Amazon RedShift创建外部架构,以便能够从数据湖中查询数据(即Amazon S3 Bucket) AWS胶水数据目录。
我在下面包含了一个图像,以证明不再需要创建外部模式。
因此,您将可以使用查询编辑器V2查询AWS胶数据目录中已分类的数据。
(注意:所有亚马逊红移区域都不可用AWS胶水数据目录)。
解决方案概述
这是我对解决方案体系结构的解释,使用Amazon Redshift无服务器之间的这种新集成使用查询编辑器v2.0。
先决条件
如果您想了解有关使用AWS Glue和AWS Glue Studio开始的更多信息,则可以在下面阅读我以前的博客文章:
How to ETL with AWS Glue and AWS Glue Studio to transform your data - Part 1
How to ETL with AWS Glue and AWS Glue Studio to transform your data - Part 2
教程:使用Amazon RedShift无服务器查询AWS胶水数据目录。
步骤1:登录您的AWS帐户。
如果您没有AWS帐户,则可以创建一个here。
步骤2:登录AWS管理控制台作为IAM管理员用户。
如果您没有IAM管理用户角色,则可以创建一个here。
步骤3:导航到AWS胶水仪表板。
我以前创建了一个名为“社区”的数据库。
我有一张名为“ aws_community_builders_apj”的表,我去年在数据目录中分类了。
步骤3:我已经通过导航到Amazon Redshift仪表板创建了Amazon RedShift无服务器的实例。
如果您想知道如何开始使用Amazon Redshift Serverless,则可以阅读我以前的博客here。
步骤4:创建了Amazon Redshift Serverless的实例,请单击名称空间。在此示例中,我将单击“ default-namespace”。
步骤5:导航到左侧菜单,然后选择“查询编辑器V2”。
步骤6:双击无服务器-Workspace 并输入您的数据库凭据。输入数据库名称,用户名和您的密码。
步骤7:在查询编辑器中v2输入这些SQL命令。
此命令将显示是否为Amazon Redshift无服务器数据仓库安装AWSDATACATALOG。
SHOW data_catalog_auto_mount;
步骤8:Alter命令将在暂停或恢复Amazon Redshift Server时更改系统级配置。
ALTER SYSTEM SET data_catalog_auto_mount = on;
步骤9:显示AWS胶水数据目录中已分类的模式列表。
SHOW SCHEMAS FROM DATABASE awsdatacatalog;
步骤10:在社区架构中显示表格列表。
SHOW TABLES FROM SCHEMA awsdatacatalog.community;
步骤11:显示表中的列列表。
SHOW COLUMNS FROM TABLE awsdatacatalog.community.aws_community_builders_apj;
步骤12:如果您想查询AWS胶水数据目录,则必须授予用户必要的许可。例如,IAM用户角色访问数据库。
GRANT USAGE ON DATABASE awscatalog to'IAM:myIAM USER"
参考
直到下一课,学习愉快! ð
上周 - AWS峰会纽约,2023年7月26日,分析,数据库和机器学习主题副总裁,Swami Sivasubramanian博士
您可以从分析,数据库和机器学习副总裁Swami Sivasubramanian中观看AWS峰会纽约主题演讲。
您还可以阅读分析,数据库和生成ai here的所有最新公告和亮点。
下个月 - AWS Innovate-数据版-2023年8月30日
您可以加入我们并注册AWS Innovate,2023年8月30日在APJ中的Data Edition。您可以注册here以及如何解锁数据的价值并制定您的数据策略。