深度学习:01 神经网络与激活函数
创始人
2024-05-06 17:37:34
0

目前,最广泛使用的定义是Kohonen于1988年的描述:

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。

目录

对神经网络的概述 

神经网络的表示

激活函数

为什么激活函数都是非线性的

sigmoid 函数

tanh 函数

ReLU 函数

Leaky Relu 函数

参考资料


对神经网络的概述 

只用到高中阶段中学到的生物神经网络,我们便能知道在这个网络当中,每个神经元会与其他的神经元相连,当产生兴奋时,会向其相连的神经元发送化学信号,从而改变这些神经元内的电位,当某个神经元的电位超过了一个阈值,神经元被激活,也就是兴奋了,接着不断地传递信号给其他神经元。

a4edf9eaa2004370a368e5dcca61ee88.png

而在如今地深度学习也是借鉴了这样地结构,每一个神经元接收输入x,通过带权重地w地连接进行传递,将总输入信号与神经元的阈值进行比较,最后通过激活函数来确定是否激活,并将激活后的计算结果y输出,而我们所说的训练,所训练的就是这里面的权重w。

从数学地角度来说,就是输入x,输出y,斜率w。

 

神经网络的表示

我们可以将神经元拼接起来,两层神经元,即输入层+输出层(M-P神经元),构成感知机。 而多层功能神经元相连构成神经网络,输入层与输出层之间的所有层神经元,称为隐藏层:

8e54302344e14481a59240d0701cb9bc.png

如上图所示,输入层和输出层只有一个,中间的隐藏层可以有很多层(输出层也可以多个,例如经典神经网络GoogleNet)

激活函数

在概述时已经说到,神经元会受到化学物质的刺激,当达到一定程度的时候,神经元才会兴奋,并向其他神经元发送信息。神经网络中的激活函数就是用来判断我们所计算的信息是否达到了往后面传输的条件。

900508c14c6c4f4cac9d09c5a6ba81c6.png

为什么激活函数都是非线性的

在神经网络的计算中,无非就是矩阵相乘,输入的是线性,不论输出层有多少,相当于n个矩阵相乘,和一层相乘所获取的信息差距不大,那我们无非是要引入非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中,增加了神经网络模型泛化的特性。

早期研究神经网络主要采用sigmoid函数或者tanh函数,输出有界,很容易充当下一层的输入。 近些年Relu函数及其改进型(如Leaky-ReLU、P-ReLU、R-ReLU等),由于计算简单、效果好所以在多层神经网络中应用比较多。

下面来总结下较常见的激活函数:

# 下面内容都要有此片段
import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
x= torch.linspace(-10,10,60)

sigmoid 函数

gif.latex?a%3D%5Cfrac%7B1%7D%7B1+e%5E%7B-z%7D%7D

导数 :gif.latex?a%5E%5Cprime%20%3Da%281%20-%20a%29

在sigmoid函数中我们可以看到,其输出是在(0,1)这个开区间,它能够把输入的连续实值变换为0和1之间的输出,如果是非常大的负数,那么输出就是0;如果是非常大的正数输出就是1,起到了抑制的作用。

ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data', 0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data', 0))
plt.ylim((0, 1))
sigmod=torch.sigmoid(x)
plt.plot(x.numpy(),sigmod.numpy())

f8cf9213f6d44657a1512fefc4e14fb3.png

但是sigmod由于需要进行指数运算(这个对于计算机来说是比较慢,相比relu),再加上函数输出不是以0为中心的(这样会使权重更新效率降低),当输入稍微远离了坐标原点,函数的梯度就变得很小了(几乎为零)。在神经网络反向传播的过程中不利于权重的优化,这个问题叫做梯度饱和,也可以叫梯度弥散。这些不足,所以现在使用到sigmod基本很少了,基本上只有在做二元分类(0,1)时的输出层才会使用。

tanh 函数

gif.latex?a%3D%5Cfrac%7Be%5Ez-e%5E%7B-z%7D%7D%7Be%5Ez+e%5E%7B-z%7D%7D

 导数:gif.latex?a%5E%5Cprime%20%3D1%20-%20a%5E2

tanh是双曲正切函数,输出区间是在(-1,1)之间,而且整个函数是以0为中心的。

ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data', 0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data', 0))
plt.ylim((-1, 1))
tanh=torch.tanh(x)
plt.plot(x.numpy(),tanh.numpy())

24a4a23d91e74e5a806316f36c0fd364.png

与sigmoid函数类似,当输入稍微远离了坐标原点,梯度还是会很小,但是好在tanh是以0为中心点,如果使用tanh作为激活函数,还能起到归一化(均值为0)的效果。

一般二分类问题中,隐藏层用tanh函数,输出层用sigmod函数,但是随着Relu的出现所有的隐藏层基本上都使用relu来作为激活函数了。

ReLU 函数

Relu(Rectified Linear Units)修正线性单元

a=max(0,z)a=max(0,z) 导数大于0时1,小于0时0。

也就是说: z>0时,梯度始终为1,从而提高神经网络基于梯度算法的运算速度。然而当 z<0时,梯度一直为0。 ReLU函数只有线性关系(只需要判断输入是否大于0)不管是前向传播还是反向传播,都比sigmod和tanh要快很多,当输入是负数的时候,ReLU是完全不被激活的,这就表明一旦输入到了负数,ReLU就会死掉。但是到了反向传播过程中,输入负数,梯度就会完全到0,这个和sigmod函数、tanh函数有一样的问题。 但是实际的运用中,该缺陷的影响不是很大。

ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data', 0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data', 0))
plt.ylim((-3, 10))
relu=F.relu(x)
plt.plot(x.numpy(),relu.numpy())

86b1a5f038a5460bafa9815facdecd41.png

Leaky Relu 函数

为了解决relu函数z<0时的问题出现了 Leaky ReLU函数,该函数保证在z<0的时候,梯度仍然不为0。 ReLU的前半段设为αz而非0,通常α=0.01 a=max(αz,z)

ax = plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data', 0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data', 0))
plt.ylim((-3, 10))
l_relu=F.leaky_relu(x,0.1) # 这里的0.1是为了方便展示,理论上应为0.01甚至更小的值
plt.plot(x.numpy(),l_relu.numpy())

433d87ee72994ee98f2dcd6ced6f9874.png

理论上来讲,Leaky ReLU有ReLU的所有优点,但是在实际操作当中,并没有完全证明Leaky ReLU总是好于ReLU。

ReLU目前仍是最常用的activation function,在隐藏层中推荐优先尝试!

参考资料

神经网络简介 [D. Kriesel] (dkriesel.com)

neuronalenetze-en-zeta2-1col-dkrieselcom.pdf

相关内容

热门资讯

语文高分作文范文高考【推荐6... 语文高分作文范文高考 篇一《文字的魅力》语文在高考中占据着重要的地位,其高分作文更是备受考生们的关注...
带着镣铐舞蹈高考满分作文(精... 带着镣铐舞蹈高考满分作文 篇一在人生道路上,我们经常会遭遇各种各样的困难和挑战。有时候,我们会觉得自...
全国高考语文作文(精彩6篇) 全国高考语文作文 篇一我与书的故事书是人类的良师益友,它陪伴着我度过了许多难忘的时光。我与书的故事始...
责任的高三作文800字【最新... 责任的高三作文800字 篇一责任的重要性责任是一种使命感和担当精神,是对自己和他人的承诺。对于高三学...
回到原点高考满分作文(最新4... 回到原点 高考满分作文 篇一走出误区,回到原点高考,是每个学生人生中的一次重要考试,也是一个人人都希...
浙江卷语文高考满分作文【精彩... 浙江卷语文高考满分作文 篇一:《传统与创新的融合》传统与创新一直是人们对于文化发展的两个关键词。传统...
高三作文生命是宝贵(实用6篇... 高三作文生命是宝贵 篇一生命是宝贵生命是宝贵的,它是我们存在于世界上的根本,无论是人类还是其他生物,...
全国各地高考语文作文汇总完整... 全国各地高考语文作文汇总完整版 篇一高考语文作文是考生们表达自己观点和思想的重要途径,也是考察他们语...
高考优秀范文及解析(实用6篇... 高考优秀范文及解析 篇一:如何提高高考英语作文得分高考英语作文是考生最容易失分的部分之一,但只要掌握...
浙江高考的状元总分为723理... 浙江高考的状元总分为723理综满分 篇一近日,浙江省高考成绩出炉,一位学子以723分的总分夺得了状元...
高三开学通知模板范文5篇【优... 高三开学通知模板范文5篇 篇一高三开学通知亲爱的同学们:大家好!经过漫长的暑假,新的学年即将开始。在...
仰望的高三作文(精选3篇) 仰望的高三作文 篇一我的高三生活即将结束了,回想起这段时光,我不禁感慨万分。这是一个充满挑战和压力的...
高三励志语录【优质5篇】 高三励志语录 篇一高三,是每个学子都经历的一段艰辛而又充实的时光。在这个阶段,我们需要时刻保持积极向...
高考百日冲刺给高三学子的寄语... 高考百日冲刺给高三学子的寄语 篇一亲爱的高三学子们:大家好!现在距离高考只有不到百日的时间了,这段时...
弦歌不辍,薪火相传800字高... 弦歌不辍,薪火相传800字高三作文 篇一在历史的长河中,音乐一直扮演着重要的角色。它不仅是人类情感的...
给高三学生的寄语【优秀6篇】 给高三学生的寄语 篇一高三这一年对于每个学生来说都是非常关键的一年,不仅是升学的分水岭,更是决定未来...
新学期的规划高三作文(推荐3... 新学期的规划高三作文 篇一新学期的规划新学期开始了,对于我们高三的学子来说,这是一个至关重要的时刻。...
生活的风尘高三作文(精选5篇... 生活的风尘高三作文 篇一:繁忙与压力下的高三生活高三生活,是一个充满风尘的阶段。在这个阶段,我们面临...
上海英语高三作文范文6篇(优... 上海英语高三作文范文6篇 篇一:城市发展与环境保护随着城市化进程的加快,城市发展与环境保护成为一个亟...
转眼间我们高三了作文 随着我们这些同学被搬到了高三部,我才开始醒悟原来高三已经不请自来了。下面是小编为大家搜集提供到的关于...