Skip to main content

最重要的事情

Created on December 9|Last edited on January 27
本报告是作者Brandon Rohrer所写的"The Most Important Thing"的翻译

你有没有听说过那个匍匐在路灯下到处摸索的那个家伙?他的朋友在那里遇到他。

"你在做什么?"

"正在寻找我的钥匙。"

"你把它们丢在哪儿了"

"在那边的篱笆那里。"

"那你为什么要在这里找?"

"因为这里有光啊。."

我们很自然地会被吸引到可以在几分钟或几小时内取得肉眼可见的进步的问题上。当进度需要几天或几周的时间时,我们就很难保持动力。解决大问题的常见策略是将其分解为较小的问题。这样我们就回到了短期奖励制度中,仿佛一切都很好。

但这个转换中可能会遗漏了什么。短期的进步可能最终对你的大目标毫无用处。 “爬梯子登上月球”就是一个典型的例子。您会在小目标上取得出色的进步,直到用尽梯级。

在机器学习研究中,仅围着基准数据集打转也是“爬梯子登上月球”。我们可以花费整个职业生涯,对着一小撮数据来调整激活函数(activation functions)、尝试不同的优化器(optimizers)、探索模型结构,以实现小小的进步。在此过程中,我们忘记了创建这些方法是为了解决实际问题。在有机环境(也就是Production)中机器学习面临的限制可能会变得很烦人。分布外样本的稳健性、数据质量和非平稳性(随时间变化的数据特征)很难衡量,但对于想要使用机器学习来阻止垃圾邮件或开车的人来说至关重要。忽略它们就是在光下找钥匙。

让自己避免这个错误的方法是着手解决一个具体问题。您脑海中需要一个目标——一个您可以轻松地向十岁的孩子解释的目标。这是最重要的事情,这个奇怪的技巧将确保您的研究工作是有实质内容的。这不必是一个宏伟的目标,例如消除贫困或找到一个统一大理论。它只需要具体即可,例如预测城镇河流的洪水位或检测蜂鸟何时访问您的后院喂食器。

您的目标也不必是终生的追求。您可以随意更改它。了解像机器学习这样不成熟的领域,意味着有很多荒野地带可以通过反复试验来探索。当您陷入僵局,或是您的目标不再激发您的好奇心时,改变目标方向并不会让您损失什么。有方向是最重要的。

处理一个具体问题的缺点是您必须学习一个具体问题。现实世界是无可救药的。我们所知道的信息是有偏差的,而我们所能够知道的信息又非常有限。甚至真实值(ground truth)的概念也失去了它的本义——标签可能有错误,而且通常它们并不是我们要查找的类别。但从另一方面说,我们有很多现存的特征丰富的模式可以利用,有很多领域知识可以拿来充实自己的工作,从而为我们提供巨大的领先优势。可能会花费大量时间和精力来了解什么是已知的,什么是未知的,和介于两者之间的内容。那我们可以理解,为什么有些人更愿意将这个复杂工作放在一边,转而做一些定义明确的基准任务。

研究一个具体问题能够放飞思想。基准驱动的方法研究很有用,但现在已经是一个非常拥挤的领域。如果您希望有更多的空间,请选择一个实际应用。这样问题就不再是想出一个没有人尝试过的新点子。问题变成了对您接下来要尝试的一百个想法进行选择。发挥空间很大。对图像进行分类和预测文本流中的下一个单词只是两个问题。但这之外还有一百万个实际问题。如果您想推动最先进的技术,请选择要解决的问题。很快,您将达到人类知识的极限,并且如果继续努力,就能将其扩大。

只需要记住,您正在找钥匙,您正在尝试登月。这就是最重要的事情。




Run set
1