笔记：多变量函数的链式法则及梯度下降法

Posted on 2022-12-31 Edited on 2024-04-10 In 学习笔记 , 数学 Views: Disqus: Word count in article: 2k Reading time ≈ 2 mins.

多变量函数的链式法则

变量$z$为$u$、$v$的函数，如何$u$、$v$分别为$x$,$y$的函数，则$z$为$x$,$y$的函数，此时下式（多变量函数的链式法则）成立

$$
\frac{\partial z}{\partial x}=\frac{\partial z}{\partial u} \frac{\partial u}{\partial x}+ \frac{\partial z}{\partial v} \frac{\partial v}{\partial x}
$$

单变量函数的近似公式

$$
f(x+\Delta x) \fallingdotseq f(x)+f^{\prime}(x) \Delta x
$$

多变量函数的近似公式

$$
f(x+\Delta x, y+\Delta y) \fallingdotseq f(x, y)+\frac{\partial f(x, y)}{\partial x} \Delta x+\frac{\partial f(x, y)}{\partial y} \Delta y
$$

可简洁表示为：
$$
\Delta z \fallingdotseq \frac{\partial z}{\partial x} \Delta x+\frac{\partial z}{\partial y} \Delta y
$$
通过这样的表示方式，就很容易将近似公式进行推广。例如，变量$z$ 为三个变量 $w$、$x$、$y$ 的函数时，近似公式如下所示。
$$
\Delta z \fallingdotseq \frac{\partial z}{\partial w} \Delta w+\frac{\partial z}{\partial x} \Delta x+\frac{\partial z}{\partial y} \Delta y
$$

近似公式的向量表示

三个变量的函数的近似公式可以表示为如下两个向量的内积 $\Delta z$的形式。
$$
\nabla z=\left(\frac{\partial z}{\partial w}, \frac{\partial z}{\partial x}, \frac{\partial z}{\partial y}\right), \Delta x=(\Delta w, \Delta x, \Delta y)
$$

二变量函数的梯度下降法的基本式

当向量$b$ 满足以下条件式时，可以使得内积$ a · b $取最小值。

即：
$$
b=-ka
$$
内积的这个性质就是梯度下降法的数学基础。

根据以上讨论我们可以知道，从点 $(x, y)$ 向点 $(x + ∆x, y + ∆y) $移动时，当满足以下关系式时，函数 $z = f (x, y)$ 减小得最快。这个关系式就是二变量函数的梯度下降法的基本式。
$$
(\Delta x, \Delta y)=-\eta\left(\frac{\partial f(x, y)}{\partial x}, \frac{\partial f(x, y)}{\partial y}\right) \quad(\eta \text { 为正的微小常数 })
$$
上述等号右边的向量称为函数$f(x,y)$在点$(x,y)$处的**梯度(gradient)**，这个名称来自于它给出了最陡的坡度方向。

哈密顿算子$\nabla$

在数学的世界中，有一个被称为向量分析的领域，其中有一个经常用到的符号 ∇ 。 ∇ 称为哈密顿算子，其定义如下所示。
$$
\nabla f=\left(\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \cdots, \frac{\partial f}{\partial x_n}\right)
$$
上述梯度下降基本式可化为：
$$
\left(\Delta x_1, \Delta x_2, \cdots, \Delta x_n\right)=-\eta \nabla f \quad(\eta \text { 为正的微小常数 ) }
$$
其中，左边的向量称为位移向量，记为$\Delta x$。
$$
\Delta x=\left(\Delta x_1, \Delta x_2, \cdots, \Delta x_n\right)
$$
则梯度下降基本式可变化为：
$$
\Delta x=\eta \nabla f \quad(\eta \text { 为正的微小常数 ) }
$$

η 的含义以及梯度下降法的要点

到目前为止，η 只是简单地表示正的微小常数。而在实际使用计算机进行计算时，如何恰当地确定这个 η 是一个大问题。

η 可以看作人移动时的“步长”，根据 η 的值，可以确定下一步移动到哪个点。如果步长较大，那么可能会到达最小值点，也可能会直接跨过了最小值点（左图）。而如果步长较小，则可能会滞留在极小值点（右图）。

在神经网络的世界中，η 称为学习率。遗憾的是，它的确定方法没有明确的标准，只能通过反复试验来寻找恰当的值。