[激活函数] 非线性原因分析、Sigmoid、TanH、ReLU和ELU-白红宇

[激活函数] 非线性原因分析、Sigmoid、TanH、ReLU和ELU

阅读量：3978 次

发布时间：2019-05-24

本文共 3493 字，大约阅读时间需要 11 分钟。

本篇主要整理下激活函数的相关内容。

首先讲下激活函数需要满足的条件：

计算简单

非线性

为什么需要满足非线性呢？我们来看下面这个例子。

如图单隐层神经网络，我们在计算的时候有如下公式：

\begin{aligned} z_1^{[2]} &amp;= w^{[1]}x+b^{[1]} \\ a_1^{[2]} &amp;= g^{[1]}(z_1^{[2]}) \end{aligned}

其中，

g

表示激活函数，假设激活函数是线性函数，其表达式为：

g (x) = w x + b

，则

\begin{aligned} a_1^{[2]} &amp;= g^{[1]}(z_1^{[2]}) \\ &amp;=wz_1^{[2]}+b \\ &amp;=w(w^{[1]}x+b^{[1]} )+b \\ &amp;=ww^{[1]}x+wb^{[1]}+b \end{aligned}

我们令 $w'=ww^{[1]}$ ， $b'=wb^{[1]}+b$ ，则 $a_1^{[2]}=w'x+b'$ ，这和没有经过激活函数处理的结果一样，因此如果激活函数是线性的，则无论有多少隐层，其和具有线性激活函数的单隐层网络效果一样。因此，为了得到更好的效果，我们需要激活函数是非线性的。一般而言，线性激活函数只有的输出层才使用，比如，你需要预测一个回归问题，线性激活函数可以将结果映射为实数。

下面介绍几种常用的激活函数：

1、sigmoid

sigmoid函数也成logistic函数，其公式为：

\begin{aligned} \sigma(x)=\frac{1}{1+exp(-x)} \end{aligned}

下图是sigmoid函数对应的图像()：

从上图可以看出，sigmoid函数的性质如下：

关于 $(0, 0.5)$ 中心对称，其值全部大于0

sigmoid可以将实数域的值映射到 $(0, 1)$ 之间，赋予了概率的意义。

在sigmoid函数值 $x > 5$ 或者 $x < - 5$ 的区域，出现了饱和区域，函数值几乎平稳不变。

上述性质便带来了以下问题：

一般而言，我们期望神经网络内数值的期望为0，方差为1（lecun的论文有说明这种情况下效果最好），但是很明显sigmoid函数的期望大于0。

sigmoid函数存在的一个非常大的弊端便是它的饱和性，在函数值 $x > 5$ 或者 $x < - 5$ 的区域，sigmoid值几乎不变，也就是说梯度几乎为0，这会导致在反向传播过程中导数处于该区域的误差很难甚至无法被传递到前层（因为在梯度传递过程中，有乘以 $\sigma'(x)$ 这一项），梯度消失，进而导致整个网络无法正常训练。这种现象叫做“梯度饱和”，也称为“梯度消失”。