Amazon SageMaker是一项完全托管的机器学习(ML)服务,提供多种构建、训练和部署机器学习模型的工具与功能。而Amazon DataZone是一项数据管理服务,旨在帮助客户快速便捷地对存储于AWS、本地及第三方来源的数据进行编目、发现、共享及治理。
我们非常高兴地宣布,Amazon SageMaker与Amazon DataZone的集成,旨在协助用户设置具有安全控制的基础设施,促进机器学习项目的协作,并治理数据和机器学习资产的访问权限。
在解决业务问题的过程中,用户需从训练数据创建机器学习模型,并将这些模型集成到业务应用中,以便做出预测决策。例如,利用机器学习模型为贷款申请处理提供辅助决策,如批准或拒绝贷款。当部署此类机器学习模型时,有效的机器学习治理有助于提升由机器学习驱动的应用的信任度、降低风险,并推动责任AI实践。
全面的治理策略涵盖了基础设施、数据与机器学习。机器学习治理需要实施政策、程序和工具,以识别和减轻与机器学习用例相关的各种风险。在机器学习生命周期的每个阶段应用治理实践,对于成功最大化组织的价值极为重要。例如,在构建用于贷款申请处理的机器学习模型时,用户可以将模型开发和部署与组织的总体治理政策和控制进行对齐,创建有效的贷款审批工作流程。
然而,在整个机器学习生命周期中应用治理可能具有挑战性且耗时,因为这通常需要定制工作流程和多个工具的集成。借助SageMaker和Amazon DataZone之间的新内置集成,用户可以通过几次点击来简化针对基础设施的机器学习治理的设置,协作业务计划,并治理数据和机器学习资产。
在本文中,我们将深入探讨如何设置和治理机器学习用例,包括SageMaker和Amazon DataZone集成的端到端旅程。此外,我们还将展示如何利用自助服务能力发现、订阅、消费与发布数据和机器学习资产,以支持机器学习生命周期的各个阶段。
通过Amazon DataZone,管理员和数据专员能够管理和治理组织的数据资产。这些控制设计旨在以适当的权限和上下文强制执行访问。Amazon DataZone使工程师、数据科学家、产品经理、分析师和业务用户能够轻松访问组织中的数据,从而发现、使用并协作获得数据驱动的洞察。下图展示了Amazon DataZone与Amazon SageMaker集成的示例架构。
通过此集成,用户可以使用蓝图部署SageMaker基础设施。新的SageMaker蓝图提供了一个良好架构的基础设施模板。利用该模板,机器学习管理员可以从多个服务如Amazon虚拟私有云 (VPC), Amazon密钥管理服务 (KMS),和AWS身份与访问管理 (IAM)构建具有适当控制的SageMaker环境配置文件,同时使机器学习构建者能够在数分钟内使用该环境配置文件来部署SageMaker域。当创建SageMaker环境时,Amazon DataZone会为其配置项目权限、数据和机器学习资产目录、以及IAM角色。下图展示了SageMaker环境如何与Amazon DataZone项目中的现有环境相适应。
为了从SageMaker Studio促进数据和机器学习资产的治理,我们进一步扩展了SageMaker Studio,包括以下组件:
资产 可发布到目录或项目清单、可被发现和共享的数据或机器学习资源。原始的Amazon DataZone资产包括Amazon Redshift 表和AWS Glue 表。通过此集成,我们新增了两个资产类型:SageMaker特征组和模型包组。拥有资产 仅对项目成员可发现的项目资产清单。该资产清单中包含的资产在明确发布到Amazon DataZone商业目录之前,不对Amazon DataZone域用户公开。资产目录 Amazon DataZone商业目录中可发布的资产集合,具备商业上下文,帮助组织中的所有人快速找到以其用例所需的资产。订阅资产 经Amazon DataZone商业目录批准的资产集合。在用户能够消费这些资产之前,资产所有者必须批准访问请求。下图展示了一个类似CustomerChurnModel的机器学习资产生命周期的示例。
在以下部分中,我们将通过示例展示SageMaker和Amazon DataZone集成的用户体验。我们将演示如何设置Amazon DataZone,包括域、项目和SageMaker环境,以及如何使用SageMaker Studio进行资产管理。下图说明了我们的工作流程。
在Amazon DataZone控制台中,管理员创建Amazon DataZone域,获取Amazon DataZone数据门户的访问权限,并为特定数据和用户配置新的项目。
管理员使用具有企业级安全控制的SageMaker蓝图设置SageMaker环境配置文件。随后,具有适当组织边界的SageMaker基础设施将在数分钟内部署,使机器学习构建者能够开始使用它来处理他们的机器学习用例。
在Amazon DataZone数据门户中,机器学习构建者可以创建或加入项目,共同解决业务问题。为开始在SageMaker进行机器学习用例,他们会使用管理员创建的SageMaker环境配置文件来创建SageMaker环境或使用现有环境。
机器学习构建者可以在Amazon DataZone数据门户中轻松切换到SageMaker Studio,仅需几次点击。SageMaker Studio中可以进行以下操作:
订阅 SageMaker允许用户发现、访问并消费Amazon DataZone商业目录中的资产。当用户在目录中找到希望访问的资产时,需订阅该资产,从而向资产所有者提交访问请求。发布 作为资产所有者,SageMaker允许用户将其资产及其元数据发布到Amazon DataZone商业目录,这样组织中的其他人可以根据他们的机器学习用例进行订阅和消费。在SageMaker Studio中,机器学习构建者可以搜索、发现并订阅其商业目录中的数据和机器学习资产。用户可以利用这些资产进行数据准备、模型训练以及SageMaker Studio和SageMaker Canvas中的特征工程。在完成机器学习任务后,机器学习构建者可以将数据、模型和特征组发布至商业目录,以便治理和可发现性。
机器学习构建者在SageMaker Studio中进行身份验证后,可以在导航面板中查看资产选项。
在资产页面,机器学习构建者可以在无额外管理员负担的情况下搜索和发现数据资产及机器学习资产。
搜索结果会显示所有与搜索条件对应的资产,包括名称和描述。机器学习构建者还可以根据资产类型进一步筛选以缩小结果。以下屏幕截图是从搜索结果中展示可用资产的示例。
机器学习构建者从搜索结果中发现资产后,可以选择该资产查看如模式或元数据等详细信息,以了解该资产是否对其用例有用。
鲤鱼加速器免费签到要获取资产的访问权限,选择订阅以向资产所有者发起访问请求。此操作允许资产所有者进行数据治理,以确定哪个成员可以访问其资产。
资产所有者可以在资产页面的收到的订阅请求部分查看该请求。资产所有者可以依据理由批准或拒绝请求。机器学习构建者还可以在资产页面的发出的订阅请求部分查看相应操作。以下屏幕截图展示了资产请求管理的示例及已订阅资产标签。在接下来的步骤中,我们将演示订阅的数据资产如mktslstable和机器学习资产如CustomerChurnModel如何在SageMaker中使用。
在机器学习构建者获得对已订阅资产的访问权限后,他们可以选择在SageMaker Studio中使用Amazon SageMaker Canvas或JupyterLab。在这一部分,我们将探讨机器学习构建者可以如何消费已订阅资产的不同场景。
在SageMaker Studio中消费已订阅的模型包组机器学习构建者可以通过选择资产详细信息页面上的在模型注册表中打开,查看SageMaker Studio中所有已订阅的模型包组。机器学习构建者还能够通过将模型部署到端点进行预测,来消费已订阅的模型。以下屏幕截图展示了打开订阅模型资产的示例。
在SageMaker Canvas中消费已订阅的数据资产当机器学习构建者从SageMaker Studio打开SageMaker Canvas应用时,他们可以使用Amazon SageMaker Data Wrangler和数据集。机器学习构建者可以查看其已订阅的数据资产,进行实验和构建模型。作为此集成的一部分,机器学习构建者可以在subdb下查看其已订阅的资产,并通过pubdb发布他们的资产。所创建的模型可以随后在SageMaker Canvas中注册到Amazon SageMaker模型注册表。以下屏幕截图是订阅资产mktslstable在SageMaker Canvas中进行数据准备的示例。
在JupyterLab笔记本中消费已订阅的数据资产机器学习构建者可以在SageMaker Studio的JupyterLab中打开笔记本以开始数据实验。在JupyterLab笔记本中,机器学习构建者能够查看订阅数据资产以在其笔记本中查询并用于实验和模型构建。以下屏幕截图展示了订阅资产mktslstable在SageMaker Studio中进行数据准备的示例。
经过实验和分析后,机器学习构建者可以通过将资产发布到Amazon DataZone商业目录,将其分享给组织的其他成员。用户也可以选择仅对项目成员发布他们的资产,只需将其发布到项目清单中。机器学习构建者可以通过使用SageMaker SDK 或者直接从SageMaker Studio进行发布。
用户可以通过导航到特定资产标签并选择发布到资产目录或发布到清单来发布机器学习资产。以下屏幕截图展示了如何将特征组发布到资产目录。
以下屏幕截图展示了如何将模型组发布到资产目录或项目清单。

在资产页面上,用户可以使用数据源功能发布数据资产,如AWS Glue表或Redshift表。
治理是一项多面向的工作,涵盖基础设施管理、数据管理、模型管理、访问管理、政策管理等多个控制。机器学习治理在帮助组织成功扩展其机器学习使用范围、显著降低技术及运营风险方面扮演着重要角色。
新的SageMaker与Amazon DataZone的集成为组织提供了简化基础设施控制和权限管理的能力,同时增强了机器学习项目中的数据和机器学习资产治理。配置的机器学习环境安全、可扩展、可靠,支持团队访问数据及机器学习资产并进行模型构建与训练。
我们希望了解这项新能力如何帮助您的机器学习治理用例。请关注更多关于数据和机器学习治理的博客文章。试用这一新SageMaker集成的机器学习治理能力,并在评论区留下您的反馈。
Siamak Nariman是AWS的高级产品经理,专注于AI/ML技术、数字化转型以及提高整体组织效率和生产力的自动化。他在多个技术部署上拥有超过7年的自动化经验。Siamak喜欢户外探险、长跑和体育运动。
Kareem SyedMohammed是AWS的产品经理,关注机器学习可观察性和治理。在此之前,他在Amazon QuickSight负责嵌入式分析和开发者体验。此外,他还曾在AWS市场和Amazon零售担任产品经理。Kareem的职业生涯起步于呼叫中心技术的开发,曾任Expedia的本地专家和广告管理顾问,并在麦肯锡担任管理顾问。
Dr Sokratis Kartakis是AWS的首席机器学习与运营解决方案架构师,专
留言框-