【转载请注明出处】chenrudan.github.io
2016年1月20日Bengio在Quora上做了一次面向网友的问答,回答了83个问题,这里记录一下感兴趣的几个问题。因为不是全部翻译过来而是选取了一些我觉得有价值的内容,所以有的地方可能会失去原来的感觉,每个问题都附上了原文链接可以点击查看。目录如下:
- 1. 什么是深度学习?
- 2. 深度学习在沿着什么样的方向发展?
- 3. 2015年读过最好的机器学习paper?
- 4. 距离了解为什么深度学习有效还有多远?
- 5. 深度学习研究的领域有哪些?
- 6. 为什么bengio认为当前机器学习算法限制在于它们需要足够多的数据来学习?
- 7. 为什么无监督重要?
- 8. 怎么看待Are ML and Statistics Complementary?这篇论文,由于深度学习机器学习是不是离统计学变远了?
- 9. 神经网络是否有概率解释?
- 10. 除了重构输入,其他的无监督学习目标还有什么?
- 11. 算法是否可能从噪声中提取有用信息?
Quora原文地址: Session with Yoshua Bengio
1. 什么是深度学习?
Yoshua Bengio: What is Deep Learning?
深度学习是在学习多层表达来帮助学习者完成感兴趣的任务,较高级别的表达会通过深层组合计算来获取更抽象的概念。
2. 深度学习在沿着什么样的方向发展?
Yoshua Bengio: Where is deep learning research headed?
研究即探索,并不知道什么能够成功而是需要探索很多条路,因此以下是一些比较有挑战的方向。
- 无监督学习非常重要,而我们现在做的并不正确
- 深度学习会继续从传统模式识别的任务扩增到全面的人工智能任务,包括symbolic manipulation, memory, planning and reasoning,从而能够更好的理解人类的自然语言和对话(通过图灵测试)。此外还扩增到了强化学习、控制学、机器人学等领域。
- 人工智能方面,需要更加深入的理解人类大脑并尝试找到通过机器学习来解释大脑运作的方法
- 改进极大似然方法,在复杂的高维空间中,并不是绝对需要学习最优的目标
- 计算能力(特别是硬件)的提升会让基于深度学习的AI获利,因为AI需要特别多关于这个世界的数据和知识,并基于这些来进行推理,然后需要大型网络来训练大量数据集。
3. 2015年读过最好的机器学习paper?
Yoshua Bengio: What is the most exciting machine learning research paper you read in 2015?
- Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,因为对训练大型结构有效,并且被人们认为是标准方法
- Semi-Supervised Learning with Ladder Networks,让半监督重回人们视野,特别是去噪的自编码网络很有意思
- Generative Adversarial Nets、nsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks等关于generative adversarial networks (GAN),LAPGAN,DCGAN网络的论文,因为它们提出了图片生成模型,使得无监督在去年有快速的发展
- Pointer Networks、Attention-Based Models for Speech Recognition等基于内容的关注机制content-based attention mechanisms的文章,研究了机器翻译、神经图灵机和端到端的记忆网络等。
4. 距离了解为什么深度学习有效还有多远?
Yoshua Bengio: How far along are we in understanding why deep learning works?
bengio认为我们已经有一定的了解基础了。我们知道表示学习、深层结构、卷积结构和递归结构的每个元素对应到某个函数的参数选择(或者说某种先验信息)。我们已经有理论解释为什么这些参数选择能够起到一个重要(指数)统计优势(即能够用更少的数据获得更高的正确性)On the Number of Linear Regions of Deep Neural Networks。我们知道为什么在训练深度网络中的优化问题并不像以前认为的那样难以解决,即绝大多数的局部最小值也是很好的解。Identifying and attacking the saddle point problem in high-dimensional non-convex optimization、The Loss Surfaces of Multilayer Networks
此外,在另外一个问题中,bengio认为当前的深度学习算法还有东西无法学到无法解决,但随着深度学习的逐渐发展,以后都能学到。
5. 深度学习研究的领域有哪些?
Yoshua Bengio: What are the open research areas in Deep Learning?
- 无监督学习会有很了不起的发展,其中包括
- 从自然图片和声音中生成清晰图像和语音的生成模型
- 当有label的数据集不干净时半监督学习能够发挥作用
- 学习从数据到空间独立变量的双向变换
- 在模型中引入推理能力
- 大规模的自然语言理解和知识表达
- 多时间尺度的分层表达的模型
- 更好的理解某些优化问题,例如无监督学习或者有长期依赖的递归网络中产生的一些问题
- 训练模型将planning(能够执行what-if的情景)纳入学习过程,并且能够做决策
- 提升强化学习的规模
- 最大似然有一些缺点需要解决,例如在训练和测试条件下有错误匹配的问题
- 连接深度学习与生物学
- 加大对深度学习的理论理解(优化问题,表达和统计理论)
- 制造特殊的硬件,不仅仅能够离线训练模型,而且能训练更大的模型,使得模型能容纳更多信息
- 健康领域,存在的特殊问题是缺失数据,通过迁移学习来从其他小任务中采集数据
6. 为什么bengio认为当前机器学习算法限制在于它们需要足够多的数据来学习?
人一生下来的前两年,孩子们能看到的数据实际上是没有label的,在幼年时代孩子们所接触到的自然语言比我们用来训练系统的要少的多。这是因为人类能够更好的利用少量的数据,bengio认为人类建造了一个关于这个世界的内在模型并且能够获取一些构成因果关系因子。这样能够让我们在某种假设条件下预测会发生什么,即使这些假设条件跟我们经历过的完全不一样。我们可能从来没有经历过一次车祸,但是我们能够在脑子里将它模拟出来。
(笔者:这个问题我保持怀疑态度,这里面举出来的例子个人认为并不合适,比如我们没有经历车祸但是我们看到过,所以我觉得模拟出来的也差不多是我们记忆中看到的车祸。而孩子们接触到的自然语言,也没有一个量化的标准说明它比网络用来训练的少)
7. 为什么无监督重要?
深度学习是在学习表示,获取中间概念,特征和隐藏变量的统计依赖性。这些依赖是指监督学习中的输入到输出的依赖或者无监督学习中的观测变量之间的关系。监督学习会给电脑展示非常多的例子,这些例子中会出现某些概念,然后“教”电脑知道哪些概念对我们来说很重要。但是这并不是人们学习的方式,人们在接受新概念时不一定同时有label来告诉他们,例如成年人不会告诉孩子一张图中每个像素点是什么或者每张图中每个物体是什么,也不会告诉他们听到的句子中每个词的意思和语法结构。而从简单的观察中提取大量的信息是无监督正在做的。我们希望无监督能从少量的有lable数据发现所有的概念。
而科学家们也会进行无监督学习,比如他们在观察这个世界,想出一些有解释能力的模型,通过观察现象来测试它们,然后持续尝试改进围绕着我们的世界的因果模型。
8. 怎么看待Are ML and Statistics Complementary?这篇论文,由于深度学习机器学习是不是拉开了与统计学的距离?
Max总结了三个深度学习成功的原因:计算能力,大数据集,大模型。bengio加了第四条,powerful biases,它是指函数的参数选择,也可以认为是贝叶斯理论中的先验信息)。因为在深度学习中有很多的假设:假设有很多隐藏因子,假设有很多因子的组合,equivariance(?)和时间相干性假设(卷积网络),时间平稳的假设(递归网络)等。bengio同意max认为的解释数以亿计参数的意义是不现实的,但是能理解这些隐藏的或者显在的引入网络的先验信息。因此,仍然有很多关于深度学习的理论需要被挖掘,其中统计学会占有重要地位。
9. 神经网络有效是否有概率解释?
Yoshua Bengio: Can neural networks have a purely probabilistic interpretation for why they work?
可以这样理解,有监督深度学习在学习条件概率,无监督学习方法在估计数据生成的联合分布。但是由于它既包括统计问题又包括优化问题,所以为什么深度学习有效不是一个概率问题。
10. 除了重构输入,其他的无监督学习目标还有什么?
- 在给定其他变量情况下预测一个变量(pseudolikelihood)
- 在给定其他变量情况下预测一小组变量(generalized pseudolikelihood)
- 在给定前一组变量情况下预测这一组中的某个变量(fully-visible Bayes nets, autoregressive nets, NADE, generative RNNs)
- 在给定一个被损坏的观测点情况下将原始干净的点还原出来(denoising)
- 预测输入是否来自数据产生的分布还是其他分布,类似概率分类器(Noise-Constrastive Estimation)
- 学习一个逆转函数
- 学习一个能够多次使用的复杂变换并收敛到接近数据产生的分布(Generative Stochastic Networks, generative denoising autoencoders, diffusion inversion = nonequilibrium thermodynamics)
- 学习产生不能被分类器区分的样本(GAN = generative adversarial networks)
- 极大化某个概率模型的似然函数
11. 算法是否可能从噪声中提取有用信息?
只有当噪声中真正存在某种潜在的统计结构时才可以。例如猫在听人讲话觉得是噪声,人听外语也会觉得是噪声。因此当构建合适的模型让噪声也变得结构化才能提取有用信息。