英语论文csdn

2个回答默认排序

默认排序

按时间排序

满天星RF

已采纳

中国论文门户_论文发表_论文辅导网-英语论文人脸识别英文国外博士论文2 - 下载频道 - CSDN.NET美国斯坦福大学免费全文资源 HighWire Press 国外硕博论文全文下载（超好用！) 快速检索按作者名检按系（专业）检索

英语论文csdn

248 评论（11） 1小时前发布

健康&平安

在最近的图片分类项目中，出现了一个违背自己直觉的现象：batch size越大，最后的结果反而越差。一直认为，batch size越大，梯度每次更新的方向越准确，收敛速度应该越快，并且精度越高。百思不得其解的情况下，找到了这篇论文，也算是解答了自己的部分疑惑。 On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima 本来是想自己操刀写的，毕竟论文看了两天，但是写的时候百度了一下发现CSDN上有大神分享了自己的解读，我也就直接搬运了，毕竟项目紧张。这篇文章探究了深度学习中一个普遍存在的问题——使用大的batchsize训练网络会导致网络的泛化性能下降（文中称之为Generalization Gap）。文中给出了Generalization Gap现象的解释：大的batchsize训练使得目标函数倾向于收敛到sharp minima（类似于local minima），sharp minima导致了网络的泛化性能下降，同时文中给出了直观的数据支持。而小的batchsize则倾向于收敛到一个flat minima，这个现象支持了大家普遍认为的一个观点：小的batchsize存在固有噪声，这些噪声影响了梯度的变化。 [CSDN大神对论文的解读] ( ) 总结一下几个点吧。首先，LB与SB方法在训练的时候实际上得到的损失值是差不多的，这个现象的可能原因有下面几点，论文讨论的是第三点和第四点：这里只介绍两种可以提升测试精度的，一种依旧处于sharpness，一种减轻了sharpness。（a）是否有人能够证明大batch的训练方法在神经网络的优化过程中严格收敛到sharp minima？（b）优化过程的sharp和flat两种minimum的密度如何？（c）是否有人能够设计出一种适合采用大的batch用来训练的CNN网络结构？（d）能够找到一种合适的初始化方法使得大batch的方法能够收敛到flat minimum上面去？（e）能够从一个算法的机制上面去找到一个算法，使得大batch方法远离sharp minima？自己的英语水平很捉急，看论文的过程很痛苦，推导的过程也很痛苦，但是耐下性子整个做下来了收获还是颇丰。希望自己今后遇到了问题不仅可以百度谷歌，更多的是去自己查阅论文动手解决自己的疑惑。项目很忙，但是还是希望自己能多多总结，记录自己成长的轨迹，东西都是学了忘忘了翻阅，自己写下来了，之后来翻阅自己写的东西捡起来也就快了。

112 评论（15） 6小时前发布

英语论文csdn

2个回答 默认排序 默认排序 按时间排序

相关问答

英语培训

向你推荐

热门问题

热门百科

2个回答默认排序

默认排序

按时间排序