最优化理论与方法课件4gradientdescent

VIP免费
2025-01-13 0 0 1.52MB 16 页 5.9玖币
侵权投诉
4 无约束优化的方法:梯度下降法 LHY-SMS-BUAA
最优化理论与方法 I ( 最优化基
)
梯度下降法
梯度下降法 (gradient decent, GD)
已知
(GD)
其中是步长 (step-size)
,其中
4 无约束优化的方法:梯度下降法 LHY-SMS-BUAA
最优化理论与方法 I ( 最优化基
)
梯度下降法的动机
注意,当范数不同时,得到的最速下降方向不同;
函数在一点沿负梯度方向的变化率最小 (函数值
减小最快 )
极小化在的 (局部近似 )二阶近似
m inimize 𝒅
𝑇
𝛻 𝑓 (𝒙
𝑘
)
¿ ¿
𝒅
2
=1
局部近似是优化算法的利器 . 牛顿法、拟牛顿法和临近梯
度法的思想与此有相似之处
Cauchy-Schwartz 不等
𝒅=𝛻 𝑓 (𝒙
𝑘
)
𝛻 𝑓 (𝒙
𝑘
)
2
𝑥
𝑘+1
=arg min
𝒙
𝑛
𝑓
(
𝒙
𝑘
)
+𝛻 𝑓
(
𝒙
𝑘
)
𝑇
(
𝒙𝒙
𝑘
)
+1
2𝛼
𝑘
𝒙𝒙
𝑘
2
2
4 无约束优化的方法:梯度下降法 LHY-SMS-BUAA
最优化理论与方法 I ( 最优化基
)
全局收敛
定理 4.1.1 假设与初始点关联的的下水平集
是紧的 (有界闭集 ),并且在包含的某开集上连续可微 .
么对于步长满足 Armijo 法则的 GD 来说,
i) (有界性 )迭代轨迹不离开
ii) (下降性 )除非得到驻点;否则严格单调递减
iii) 轨迹有聚点,并且每个聚点均是的驻点 .
梯度法逃离严格鞍点的研究是机器学习当前的研究热点之一 !
4 无约束优化的方法:梯度下降法 LHY-SMS-BUAA
最优化理论与方法 I ( 最优化基
)
复杂性分析
梯度是 Lipschitz (可能非凸 )
函数
梯度是 Lipschitz 函数
梯度是 Lipschitz 强凸函数
定义 4.2.1 设 称函数的梯度在开集上是,如果
.
. 是的 .
称的梯度在集合上是的,如果存在开集使得的梯度在开集上
是的 .
4.2.1 已知对称矩阵和向量 . ,
体会函数性质
对算法复杂性
的影响
则 是 .
是的,有时也称是光滑的 .
摘要:

4无约束优化的方法:梯度下降法LHY-SMS-BUAA最优化理论与方法I(最优化基础)梯度下降法梯度下降法(gradientdecent,GD)已知(GD)其中是步长(step-size),其中4无约束优化的方法:梯度下降法LHY-SMS-BUAA最优化理论与方法I(最优化基础)梯度下降法的动机注意,当范数不同时,得到的最速下降方向不同;函数在一点沿负梯度方向的变化率最小(函数值减小最快)极小化在的(局部近似)二阶近似minimize()¿¿‖‖2=1局部近似是优化算法的利器.牛顿法、拟牛顿法和临近梯度法的思想与此有相似之处Cauchy-Schwartz不等式...

展开>> 收起<<
最优化理论与方法课件4gradientdescent.pptx

共16页,预览4页

还剩页未读, 继续阅读

声明:本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。玖贝云文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知玖贝云文库,我们立即给予删除!
分类:计算机 价格:5.9玖币 属性:16 页 大小:1.52MB 格式:PPTX 时间:2025-01-13

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 16
客服
关注