pytorch复习笔记--loss.backward()、optimizer.step()和optimizer.zero_grad()的用法
创始人
2024-03-05 01:17:55
0

目录

1--loss.backward()的用法

2--optimizer.step()的用法

3--optimizer.zero_grad()的用法

4--举例说明

5--参考


1--loss.backward()的用法

作用:将损失loss向输入测进行反向传播;这一步会计算所有变量x的梯度值 \small \frac{d}{dx}loss,并将其累积为\small x*grad 进行备用,即 \small x*grad=(x*grad)_{pre}+\frac{d}{dx}loss ,公式中的 \small (x*grad)_{pre} 指的是上一个epoch累积的梯度。

2--optimizer.step()的用法

作用:利用优化器对参数x进行更新,以随机梯度下降SGD为例,更新的公式为:\small x = x - lr*(x*grad),lr 表示学习率 learning rate,减号表示沿着梯度的反方向进行更新;

3--optimizer.zero_grad()的用法

作用:清除优化器关于所有参数x的累计梯度值 \small x*grad,一般在loss.backward()前使用,即清除 \small (x*grad)_{pre}

4--举例说明

① 展示 loss.backward() 和 optimizer.step() 的用法:

import torch# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)# 模拟网络运算,计算输出值y
y = 100*x# 定义损失
loss = y.sum() print("x:", x)
print("y:", y)
print("loss:", loss)print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)

② 展示不使用 optimizer.zero_grad() 的梯度:

import torch# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)# 模拟网络运算,计算输出值y
y = 100*x# 定义损失
loss = y.sum() print("x:", x)
print("y:", y)
print("loss:", loss)print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)# 再进行一次网络运算
y = 100*x# 定义损失
loss = y.sum()# 不进行optimizer.zero_grad()
loss.backward()  # 计算梯度grad, 更新 x*grad 
print("不进行optimizer.zero_grad(), 参数的梯度为: ", x.grad)

③ 展示使用 optimizer.zero_grad() 的梯度:

import torch# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)# 模拟网络运算,计算输出值y
y = 100*x# 定义损失
loss = y.sum() print("x:", x)
print("y:", y)
print("loss:", loss)print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)# 再进行一次网络运算
y = 100*x# 定义损失
loss = y.sum()# 进行optimizer.zero_grad()
optim.zero_grad()
loss.backward()  # 计算梯度grad, 更新 x*grad 
print("进行optimizer.zero_grad(), 参数的梯度为: ", x.grad)

通过②和③的对比,能看出 optimizer.zero_grad() 的作用是清除之前累积的梯度值。

5--参考

参考1

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...