深度学习2015十佳论文 下载本文

【arXiv】2015 深度学习年度十大论文

2016-01-09

新智元原创1

来源:Kdnuggets 译者:王婉婷 作者:Matthew Mayo

由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将之向所有人开放的地方。这里汇聚了无数科学领域中最前沿的研究,机器学习也包括在内。它反映了学术界当前的整体趋势,我们看到,近来发布的机器学习研究有许多都与深度学习有关。

HuhoLarochelle博士是加拿大舍布鲁克大学(Université de Sherbrooke)机器学习教授,Twitter的研究员,有名的神经网络研究者,以及深度学习狂热爱好者。从2015年夏天开始,他就一直在撰写并发布他对于arXiv上他感兴趣的机器学习论文所做的笔记。

以下是HuhoLarochelle评选出的arXiv深度学习年度十佳论文。

1、无穷维度的词向量

Infinite Dimensional Word Embeddings

Eric Nalisnick, Sachin Ravi

2015/11/17

摘要:

我们描述了一种用随机维度(stochastic dimensionality)学习词向量的方法。对于给定的某个词向量、它的语境向量(context vector)、以及它们的维度,我们的无穷Skip-Gram模型(iSG)给出了一种基于能量的联合分布(energy-based joint distribution)。通过运用追踪无穷受限玻尔兹曼机(Infinite Restricted

Boltzmann Machine)变化的技术,我们定义了可数无穷范围内的词向量维度,使得向量在训练中可以根据需要增加。

Hugo的点评:

这是对于我们在iRBM中引入的“无穷维度(infinite dimensionality)”的一种相当有创意的用法。这并不完全是一个“即插即用(plug and play)”的方法,所以作者们需要聪明地估算所需的iSG的训练量。

定性结果显示出了维度数量的条件如何隐含了多义性信息,非常简单利落!分布式词向量背后的假定之一就是它们应该能够表征出一个词的多种含义,所以看到这一点得到验证是一件让人愉快的事。

我觉得这篇论文唯一缺少的东西就是与传统skip-gram(可能还有其他词向量方法)在某个特定任务或是词语相似性任务中进行比较。论文的第二个版本中,作者们的确提到了他们正在做这件事,所以我非常期待能看到结果!

2、利用可逆学习进行基于梯度的超参数优化

Gradient-based Hyperparameter Optimization through Reversible Learning

Dougal Maclaurin, David Duvenaud, Ryan P. Adams

2015/2/11

摘要:

通过在整个训练过程中不断向后链接导数(chaining derivatives backwards),我们计算了对于所有超参数交叉验证的表现的具体梯度。这些梯度让我们能够优化数以千计的超参数,包括步长(step size)和动量(momentum)、初始权重分布、丰富参数化的正则化方法(richly parameterized regularization schemes)、以及神经网络结构。

Hugo的点评:

这是我2015年最喜欢的文章之一。虽然展开梯度下降的一些步骤(论文中写了100次迭代)让这种方法对于大型网络来说有一些不切实际(这可能就是为什么他们考虑的是一个每层仅含50个隐藏单元的3层网络),它为我们打开了一扇有趣到不可思议的窗户,让我们看到什么样的方法才是为神经网络选择超参数的

好方法。值得注意的是,为了大幅降低这种方法需要的内存,作者们在对网络权重变化进行编码的时候表现出了非同一般的创造力和智慧。

有不计其数的有趣实验我想推荐这篇文章读者去看一看(见论文的section3部分)。

“对训练集做训练”的实验——生成10个例子(每个类别一个例子),使得通过这些例子进行训练的网络的验证集损失最少——是一个相当酷的想法(它在本质上是在MNIST上学习从数字0到数字9的原型图像)。

要注意的是,和这篇文章提到的方法类似的这一类方法,会让自动微分工具变得极其有价值。同样由论文作者发布的自动微分Python包,Python autograd(https://github.com/HIPS/autograd,这给了我们灵感开发了我们自己的Torch autograd:https://github.com/twitter/torch-autograd),事实上就是在这个研究进行的时候开发的。

3、在线加速学习

Speed Learning on the Fly

Pierre-Yves Massé, Yann Ollivier

2015/11/8

摘要:

我们将学习轨迹的整体表现视为是关于步长(step size)的函数,提出了通过对步长本身做梯度下降来适应(adapt)步长。重要的是,这种适应的计算可以用很少的代价在线进行,无需向后迭代全部数据。

Hugo的点评:

我觉得作者们准确无误地击中了在线学习面临的挑战。如果是在线训练神经网络的话,我想这些挑战可能会变得更艰巨,现在对此几乎没有让人满意的解决方法。所以这是一个让我非常兴奋的研究方向。

在这篇文章里,实验中考虑到的都是相当简单的学习情景,但我并没有看到任何障碍、使这种方法无法应用到神经网络上。结果中一个有趣的地方是,“学习速