笔记:多变量函数的链式法则及梯度下降法


多变量函数的链式法则

变量$z$为$u$、$v$的函数,如何$u$、$v$分别为$x$,$y$的函数,则$z$为$x$,$y$的函数,此时下式(多变量函数的链式法则)成立

$$
\frac{\partial z}{\partial x}=\frac{\partial z}{\partial u} \frac{\partial u}{\partial x}+ \frac{\partial z}{\partial v} \frac{\partial v}{\partial x}
$$

单变量函数的近似公式

$$
f(x+\Delta x) \fallingdotseq f(x)+f^{\prime}(x) \Delta x
$$

多变量函数的近似公式

$$
f(x+\Delta x, y+\Delta y) \fallingdotseq f(x, y)+\frac{\partial f(x, y)}{\partial x} \Delta x+\frac{\partial f(x, y)}{\partial y} \Delta y
$$

可简洁表示为:
$$
\Delta z \fallingdotseq \frac{\partial z}{\partial x} \Delta x+\frac{\partial z}{\partial y} \Delta y
$$
通过这样的表示方式,就很容易将近似公式 进行推广。例如,变 量$z$ 为三个变量 $w$、$x$、$y$ 的函数时,近似公式如下所示。
$$
\Delta z \fallingdotseq \frac{\partial z}{\partial w} \Delta w+\frac{\partial z}{\partial x} \Delta x+\frac{\partial z}{\partial y} \Delta y
$$

近似公式的向量表示

三个变量的函数的近似公式可以表示为如下两个向量的内积 $\Delta z$的形式。
$$
\nabla z=\left(\frac{\partial z}{\partial w}, \frac{\partial z}{\partial x}, \frac{\partial z}{\partial y}\right), \Delta x=(\Delta w, \Delta x, \Delta y)
$$

二变量函数的梯度下降法的基本式

当向量$b$ 满足以下条件式时,可以使得内积$ a · b $取最小值。

即:
$$
b=-ka
$$
内积的这个性质就是梯度下降法的数学基础。

根据以上讨论我们可以知道,从点 $(x, y)$ 向点 $(x + ∆x, y + ∆y) $移动时, 当满足以下关系式时,函数 $z = f (x, y)$ 减小得最快。这个关系式就是二变量函数的梯度下降法的基本式
$$
(\Delta x, \Delta y)=-\eta\left(\frac{\partial f(x, y)}{\partial x}, \frac{\partial f(x, y)}{\partial y}\right) \quad(\eta \text { 为正的微小常数 })
$$
上述等号右边的向量称为函数$f(x,y)$在点$(x,y)$处的**梯度(gradient)**,这个名称来自于它给出了最陡的坡度方向。

哈密顿算子$\nabla$

在数学的世界中,有一个被称为向量分析的领域,其中有一个经常 用到的符号 ∇ 。 ∇ 称为哈密顿算子,其定义如下所示。
$$
\nabla f=\left(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \cdots, \frac{\partial f}{\partial x_n}\right)
$$
上述梯度下降基本式可化为:
$$
\left(\Delta x_1, \Delta x_2, \cdots, \Delta x_n\right)=-\eta \nabla f \quad(\eta \text { 为正的微小常数 ) }
$$
其中,左边的向量称为位移向量,记为$\Delta x$。
$$
\Delta x=\left(\Delta x_1, \Delta x_2, \cdots, \Delta x_n\right)
$$
则梯度下降基本式可变化为:
$$
\Delta x=\eta \nabla f \quad(\eta \text { 为正的微小常数 ) }
$$

η 的含义以及梯度下降法的要点

到目前为止,η 只是简单地表示正的微小常数。而在实际使用计算机 进行计算时,如何恰当地确定这个 η 是一个大问题。

η 可以看作人移动时的“步长”,根据 η 的 值,可以确定下一步移动到哪个点。如果步长较大,那么可能会到达最 小值点,也可能会直接跨过了最小值点(左图)。而如果步长较小,则可 能会滞留在极小值点(右图)。

在神经网络的世界中,η 称为学习率。遗憾的是,它的确定方法没有 明确的标准,只能通过反复试验来寻找恰当的值。