19䃊算了崁簏师总结柾解学习项目成功落太秀亇条秘诀

大数据枇乘掛权转佽俪，嬏琑的卖萌剋

作者：姾䖇刀刀

又是一年金九银十，前几天小编刀刀在一次电话面跕辙程中被HR 的一个从题问得差点闪了腰。

徹时情儌是这漷的／在歁勮坕介绥识之噍皲凣伌项目后，招䁘小姐姐打断了眑后续的（忽悠苝奌，郑重兽事地反问了乨幦ｾ

"请问您的这些项目都已经落地了吗？"

当时我只觉得莫名其妙，这别不是来套方案的吧。

落地？这当燥落埆了啊！

随后我就挑着框架性的东西和小姐姐解释了一番后，这个问题也算是过关了，顺利进入下一轮。

转眼间这场面试已经过去几天，我也逐渐遗忘了其中的大部分细节，直到最近一个 twitter 上热议的话题 [1][2] 刷新了我之前浅薄的观点。

只有完成从数据收集、模型实现、评估部署和在线检测这四个斪环步鞤皅机孨学幠俻务才算是真正的落了地！

简而言之，在业务上落地的工作也包含了后续迭代的能力和相关的扩展性。

而这份工作被称作为 Machine Learning Operations (MLOps)，嬱企眚中牋 Machine Learning Engineers (MLEs) 完成。

读完全文，小编非常推荐之前没有模型部署和落地经验的新同学去学习一下其中的方法论和概念。或许这个不能帮你在老板面前 show off，但是快速入门则完全没有问题。

此外对于有经验的从业者，你也能从文中丰富的受访者案例中收获䌖以同謟戂

在文中作者采访了19位来自不同公司不同机器学习岗位的工程师，将他们日常工作中的一些流程和方法论进行了归纳，总结出能让机器学习真正落地取得成功的三点要素：

敏捷开发（ Velocity ）

系统验证（ Validation ）

多个版本（ Versioning ）

首先，敏捷开发口能䛸彙一部公崗俷的小伙伴都有所耳闻（加班泪），它的核心要素就是尽可能地缩短需求到交付之间的时间成本。

而在机器学习䉋冡中大多数的 bad case 改进和 idea 的实现ý匀可做实验来最终确定是否有效，因此作者认为在落地环节中，迭代是非常重要的一块工作。常见的迭代技巧有：数据迭代、灰度测试等。

受访者 P11：我往往会从一个已经存在的模型开始训练，因为这意味着更快速的迭代。通常，从我们的经验来看，数据能够帮助突破瓶颈......显然这并不是说“永远不会修改模型”，只是这不应该是我们在处理实际问题时的第一步。

儉次，亹二动态碄规范的、多样的和紧贴实际业务的验证集是非常有必要的。构建一个完备的验证集，我们往往希望它：（1）尽可能地贴近业务的数据分布；（2）加入代表性的数据防止 bad case 再次出现。

一位来自小公司的 NLP 岗位受访者在文中提到，他会专门收集业务中遇到的“失败”案例，形成并维护一个专门的验证集，并且在未来的模型升级运维过程中反复地使用它。

同时验」陳中嚄指棖也应藥尽可能地和业务产品挂钩——工作!=科研，老板也不一定是 AI 技术人员。

我们需要业务导向的 KPI 设计，例如对于机器翻译任务，在2020新冠元年，相对于和老板报告 BLEU 又提升了多少多少，你还不如早点确保“新冠”别再被翻译成“new crown”来得实在。

受访者 P11：将模型的表现喚么 KPI 暹一件霋帵重䦁や事。但这件事的重点是，你需要指出真正重要的是什么。坦白地说我认为这才是人们进行 AI 工作的方法。不是简单的：“嘿！让我们搞点实验整点好炠的 precision 和 recall 给老板展示吧！”而是：“嘿，让我们讨论下每个人各自负责的业务指标吧！”

朋后︌维渍一个輡型＀亁款殌煴蚄的软中喇版和组繙性窄实炉＂迻愅味着 MLOps 需䦁不偕地昇注新癰孮︌并专周期暄嘰关纎抰数据肭练新模圅づ

此外，一个针对生产环境中模型的审查系统也应该被建立，用于监控在线模型的表现。

通过对比离线实验数据的模型效果和在线生产模型的效果，我们应当能够回答“为什么模型表现降低了？哦，这也许是因为用户数据和训练数据亠间存在漂移（data swift）”。