利用权阈写NeurIPS论文
引言
为2020神经信息处理系统大会(NeurIPS)写一篇论文需要什么?在这篇文章中,我们让读者们抢先看看前沿发展实验室(FDL)的参加者如何在NeurIPS发表论文。
塞拉姆·孙达雷桑(Sairam Sundaresan) 和艾曼纽·约翰逊(J. Emmanuel Johnson) 合著了《RotNet:利用卷积神经网络快速、可扩展地估算恒星自转周期》(《RotNet: Fast and Scalable Estimation of Stellar Rotation Periods Using Convolutional Neural Networks》),他们描述自己参加前沿发展实验室 的经历,以及如何借助于权阈(Weights & Biases)做到跨国协作训练模型。
前沿发展实验室
前沿发展实验室(FDL)将人工智能技术应用于科学领域,目的就是推动研究的前沿以及开发新工具来帮助解决人类面临的一些最大挑战。来自不同科学学科的研究人员共同迎接这个历时8周的挑战。
问题陈述
恒星的磁场活动表现为其表面上的黑点,这种黑点会改变望远镜观察到的亮度。这些光变曲线包含了恒星自转的重要信息。然而,准确估算自转周期需要高昂的计算成本,是因为缺乏真实信息、噪声数据和大参数空间,这都会导致难解的解决方案。
该团队的目标就是利用开普勒光变曲线准确预测恒星自转周期。
团队首先用一周的时间来搞懂问题陈述并集思广益找办法。然而,这次参赛冲刺是在网上进行,难以并肩协作,团队就依靠线上平台,如Miro和权阈。
简言之,他们的目标就是开发一个模型,提供光变曲线数据后这个模型要能准确预测恒星的自转周期。为了解决这个有监督的学习难题,至关重要的是要有高质量的带标签数据。团队决定先建造一个基本的管道。
两个“豁然开朗”时刻
团队用接下来的6-7周研发解决方案。咋一看,多个光变曲线看起来完全一样,没有可分辨的模式。问题非常难解。他们从简单模型着手,如随机森林、卷积神经网络。不过,损失是持平的。模型没找到什么东西。
他们不得不通过物理上可行的顶尖模型(论文中提到的ACF)利用原始数据计算自转周期。他们发现,目录中的全部恒星的ACF估算都是嘈杂的,这就造成模型无法收敛。之后他们清洗我们的训练集、测试集和验证集,只保留能进行McQuillan自转估算的恒星。这是他们的第一个“豁然开朗”时刻。
最初,团队把那些时间数列输入到一维的卷积神经网络回归元。但这个模型有其限制,达不到足够高的精确度。第二个“豁然开朗”时刻就是当他们把光变曲线映射到图像,其方法就是利用三次转换并把结果堆放到通道轴。
调试、复现性
“如果不能一边记录一边实验,我们就做不到这么多。”
当谈到调试实验,作者明智地选择用权阈检查结果。就是通过这种调试,团队意识到自己需要质量更高的标签。而利用权阈,他们能确保管道正常工作。为了缩小搜索范围并找到恰当的超参数,团队用权阈的扫描(Sweep)。他们进行了很多次超参数扫描,找到了一组超参数能得出最低损失。
"权阈改变了我对模型训练的看法。"
得益于权阈,这个团队无须依赖整套代码。作者创建了大量仿真并在权阈中统一整理。实验的方方面面都是可完整复现的,对此他们特别自豪。没有复现性的话,他们就达不到这种级别的统一性,尤其是当他们需要调试时。权阈让他们安心、对代码充满信息,因为他们可以随时做验证。
作者充分利用可视化功能来调试实验。
当问到他们使用权阈的体验,作者说他们只需要10分钟即可搭建完成,简洁易懂。用权阈作为协作的核心平台,对此他们非常重视。
结果
系外行星搜寻任务和调查(例如开普勒和TESS)产生了以TB计的恒星光变曲线,可谓是数据宝藏,可用于了解系外行星宿主、恒星自转以及磁力学。然而,用于估算恒星性质的传统算法,如ACF,费用高,需要较长的观察基准。我们在此表明,我们的管道(RotNet)基于有监督的、预训练卷积神经网络,能够估算恒星自转周期,准确度与完整ACF方式处于相似水平。但我们少用了65倍的数据点,快了10,000倍。
对于组建机器学习项目的建议
最后,作者根据自己参加前沿发展实验室2020的经验,对组建机器学习项目给出了一些优质建议。
- 正确地组建代码非常重要。
- 当使用分支仓库时,一定要遵循命名规范并提交名称。
- 选择用笔记本还是脚本,要根据你开发的项目而定。
- 当团队尝试使用Tensorboard,他们发现Tensorboard没有清晰的组织,还没有扫描和自定义可视化。
- 团队选择使用PyTorch Lightning。因为基本训练和评估循环都是标准化的,他们就可以集中精力于组建实验和自定义数据加载器。