数据科学家如何将Kedro和Databricks结合在一起?
#python #datascience #kedro #databricks

在最近的研究中,我们发现数据映是主要的
Kedro用户使用的机器学习平台。

这项研究的目的是确定将Kedro与数据映射一起使用的任何障碍;我们正在与Databricks团队合作,以创建优先的促进集成机会列表。

例如,Kedro最好与IDE一起使用,但是Databricks上的IDE支持仍在不断发展,因此我们渴望了解Kedro用户与Databricks结合时所面临的痛点。

我们的研究从16次访谈中获取了定性数据,以及来自麦肯锡和开源Kedro用户群的民意调查(140名参与者)和一项调查(46名参与者)的定量数据。我们分析了两次用户旅程。

如何确保在Databricks工作区中可用Kedro管道可用

我们考虑的第一个用户旅程是用户如何确保其管道代码库的最新版本可在Databricks工作区内使用。最常见的工作流程是使用git,但是我们研究集中几乎三分之一的用户说,有很多步骤要遵循。

使用DBX Sync与Databricks Repos使用的替代工作流程不到10%的用户使用,这表明对此选项的认识很低。

Slide from presentation about Kedro and Databricks research

如何使用Databricks群集运行Kedro管道

第二个用户旅程是用户如何使用数据链球群群集运行Kedro管道。我们研究中有80%以上参与者使用的最流行的方法是使用Databricks笔记本,该笔记本是运行Kedro Pipelines的切入点。

我们发现许多用户不知道iPython扩展名,这大大减少了在Databricks Notebooks中运行Kedro Pipelines所需的代码数量。

我们还发现,有些用户通过包装并在Databricks上运行所得Python软件包来运行其Kedro管道。但是,在造成问题的第18.5版之前,Kedro不支持配置的包装。

一些用户选择的最终选项是使用databricks connect,但这不建议这样做,因为它很快
databricks将日落。

Slide from presentation about Kedro and Databricks research

我们研究的产出

为了使Kedro和Databricks配对变得更加容易,我们正在更新Kedro的文档,以涵盖最新的Databricks功能和工具,尤其是使用DBX在Databricks上的Kedro的开发和部署工作流程。目的是帮助Kedro用户利用在IDE本地工作的好处,但仍部署到Databricks
轻松。

您可以期望此新文档在接下来的一到两周内发布。

我们还将创建一个Kedro Databricks插件或入门项目模板来自动化文档中的建议步骤。

即将推出...

我们在Kedro DataSet Repo中提供了一个托管的Delta表数据集,该数据集将很快用于公众消费。我们还计划支持Databricks上的托管MLFlow。

我们已经设置了一个milestone on GitHub,因此您可以检查我们的进度并做出贡献。要向我们提出功能,报告错误或仅查看我们现在正在处理的内容,请访问GitHub上的Kedro项目。

我们欢迎所有大小的贡献。

了解有关Kedro的更多信息

有很多方法可以了解有关Kedro的更多信息:

寻找即将进行的训练课程,以帮助您的团队与Kedro一起上船。