综合MLOps平台的主要特点
插图:© IoT For All --> 人工智能(AI)和机器学习(ML)为各类企业带来了巨大的发展机遇,它们具有帮助组织做出更准确的预测、为客户提供创新服务并加快业务成果实现的潜力。财务团队、运营部门、客户成功团队和市场营销部门都可从中受益。话虽如此,组织在将机器学习模型投入生产时面临挑战和延迟的根本原因在于:模型与传统软件不同,而大多数组织尚未建立起处理这些差异的框架和流程。让我们来看看MLOps平台如何在效率与协作方面提供帮助。"'任何MLOps平台都应以人为本——意味着它被设计成能够向用户提供他们所需的关键信息。"——Navin Budhiraja 点击推文 什么是MLOps? MLOps是机器学习模型生命周期中一个子集的实践方法,旨在帮助团队部署、管理并维护机器学习模型,从而在整个组织中实现一致性和效率。与DevOps相似——后者是一套将软件开发与IT运维整合在一起的实践方法——MLOps通过自动化来简化从模型准备就绪后开始的流程步骤的编排。一个机器学习模型的生命周期包括许多步骤,通常这些步骤由不同人在离散系统中分别处理,而这些系统需要相互连接。这些系统用于数据收集、数据处理、特征工程、数据标注、模型构建、训练、优化、部署、风险监控以及重新训练。而在每个组织中,不同的人员和团队可能会负责其中的一个或多个步骤。理想情况下,机器学习模型正在解决公司问题并推动更优的决策分析。然而,只有少数模型进入了生产阶段。即便如此,根据Gartner的数据,一个成功的模型通常还需要数月时间才能开始运行。这是因为将机器学习模型部署到生产中的过程往往脱节。数据工程师、数据科学家、IT运维人员、审计员、业务领域专家和ML工程团队等团队在各自独立的“孤岛”中工作,这种零散的安排会严重拖慢整个流程。 MLOps的短板之一是,MLOps作为一门学科仍处于发展初期,不同组织中的不同人员在执行与MLOps相关的工作。在某些组织中,数据科学家可能会参与模型生命周期中的几乎每一个步骤;而在另一些组织中,可能会为每个阶段设立独立的团队,或者由一个团队负责一个或多个领域。为了充分发挥机器学习的全部价值,组织需要能够快速且大规模地将模型投入生产。因此,组织需要一套适合其企业目标和团队结构的MLOps操作指南。正因为如此,MLOps平台在加快企业机器学习进程方面正发挥着越来越关键的作用。这些平台有潜力提供一种蓝图式策略,帮助企业构建可重复、可优化的流程,无论其行业是制造业还是金融服务,抑或其他任何行业。端到端的平台可以节省大量时间,因为它们能够同时部署和监控多个模型,并以企业所需的高速度运行。最佳的MLOps平台为所有机器学习利益相关者提供了解决方案,使他们不仅能大规模部署和管理模型,还能通过协作和沟通促进效率提升。让我们来看看一个成功的MLOps平台的四个主要方面。 一个成功的MLOps平台 #1:所有利益相关者的协作体验 由于从数据团队到工程师再到风险审计人员等关键利益相关者在许多组织中往往各自为政,简化流程以使任何用户都可以高效执行特定角色,将有助于提升任务执行的成果。那些能够跨组织协作的平台,能够让团队快速地将模型投入运行,无论数据科学家使用了什么工具来构建这些模型。不再需要限制其他用户,例如机器学习工程师或IT团队。每个平台用户都应可以使用他们已有的工具,并利用其在这类工具上的专业知识。拥有一个单一、协作式且能够直观引导用户完成抽象步骤的用户界面,是MLOps的重要组成部分。 #2:以用户为中心的模块化架构 鉴于许多组织可能以不同的方式处理MLOps,那些能够契合组织当前状态的平台可以立即带来价值。采用模块化架构的平台,可以为组织提供必要的灵活性,使其快速启动并运行,因为它允许每个人在需要的时候使用平台提供的功能,而不需要线性地操作。例如,一个组织可能有使用特定工具集的数据科学家,但缺乏轻松部署和监控生产中模型的能力。一个以开放和用户为导向设计的MLOps平台,将提供易于插拔的组件,使每个用户能够决定使用哪种云、数据库、存储库等组件,而无需进行大规模的更改。每家公司都会以略有不同的方式实施模型操作流程,而模块化架构允许MLOps团队充分利用其全套工具,并无缝地将平台的具体组件纳入其机器学习工作流程中。 #3:对优化的高度重视 随着模型变得越来越大、越来越复杂,企业面临的一个挑战是硬件或计算资源需求的大幅增加。机器学习本质上是数据密集型的,如果没有对基础设施的周全考虑,它将给企业带来巨大的成本。模型部署所需的时间较长,加之硬件成本上升,容易引发企业高管对企业在机器学习模型和生产方面的投资回报率(ROI)产生忧虑。那些能够优化模型并以帮助用户根据自身最重要的因素进行决策的方式呈现模型性能和节省成本数据的MLOps平台,可以缓解企业在机器学习模型和生产方面面临的部分挑战。随着越来越多的公司将更多机器学习模型部署到云端、边缘设备或本地设备上,模型优化的能力将变得越来越重要。 #4:能够持续监控生产中的模型 MLOps平台的重要任务之一是加速模型进入生产环境的过程。但一旦进入生产环境,真正的工作才刚刚开始,平台需要使团队能够持续监控风险,如模型性能和非结构化数据,并迅速采取行动,以减轻运营和声誉风险。机器学习模型并非静态不变的。它们是在受控环境中进行训练和测试的,但一旦部署到生产环境中,模型将基于完全不同的现实世界数据做出预测。例如,模型的预测性能或准确性可能发生改变。模型还会经历各种类型的“数据漂移”,如消费模式发生显著变化时出现的“数据漂移”。例如,疫情期间就曾发生过这种情况,导致以前的分布模式不再准确。 简化流程 为了帮助团队持续监控生产中的模型,MLOps平台应简化以下能力: 1. 根据自定义阈值设置警报。 2. 快速获取关键数据点,查看哪些模型正在失败。 3. 快速识别根本原因并采取行动。 使用集成平台可以创建部署前后的定制化风险监控计划。全面的风险缓解方法包括评估数据中的不确定性,以引导AI/ML团队走上正确的路径。 平台必须以人为本 我们目前仍处于探索如何在企业中最佳使用机器学习的早期阶段。任何MLOps平台都应以人为本——意味着它被设计成能够向用户提供他们所需的关键信息、一种直观完成任务的方式,以及与利益相关者和同事协作沟通的能力。以人类工作者为先的平台有助于建立人与机器学习之间的信任。这种获得的“人机”信任感可以缓解工作者的担忧,并允许技术执行大量统计任务,从而协助这些工作者。这类平台的有意设计将继续专注于增强和放大人类智能,并为推动AI和ML计划的协作创造新机会。 推文 分享 邮件 人工智能 自动化 数据分析 机器学习 人工智能 自动化 数据分析 数据科学家 机器学习
查看全文
作者最近更新
-
Edge and IoT Predictions For 2024iotforall2023-12-22
评论0条评论