线性回归分析

回归性分析

由多个变量组成的数据中,着眼于其中一个特定的变量,用其余的变 量来解释这个特定的变量,这样的方法称为回归分析。回归分析的种类有很多。为了理解它的思想,我们来考察一下最简单的一元线性回归分析。 一元线性回归分析是以两个变量组成的数据为考察对象的。下图给 出了两个变量 x、y 的数据以及它们的散点图。

一元线性回归分析是用一条直线近似地表示右图所示的散点图上的 点列,通过该直线的方程来考察两个变量之间的关系。 这条近似地表示点列的直线称为回归直线。

这条回归直线用一次关系式表示如下:
$$
y=px+q \quad(p,q {为常数 ) }
$$
这个式子称为回归方程。

x、y 是为了将构成数据的各个值代入而设定的变量,右边的 x 称为 自变量,左边的 y 称为因变量。常数 p、q 是这个回归分析模型的参数, 由给出的数据来决定。 注:p 称为回归系数,q 称为截距。

通过具体例子来理解回归分析的逻辑

下面让我们通过具体的例子来看看回归方程是如何确定的。

例题:下表是 7 个高中三年级女学生的身 高与体重数据。根据这些数据,求以体重 y 为因变量、身高 x 为自变量的回归方程 $y = px + q $(p、q 为常数)。

解:

设所求的回归方程如下所示。
$$
y=px+q \quad(p,q {为常数 ) }
$$
将第 $k$个学生的身高记为 $x_k$,体重记为 $y_k$,可以求得第 $k$个学生的回 归分析预测的值(称为预测值),如下所示。
$$
px_k+q
$$
我们将这些预测值加以汇总,如下表所示。

如下算出实际的体重 $y_k$ 与预测值的误差 $e_k$。
$$
e_k = y_k – (px_k + q)
$$

这些 $e_k$ 的值既可以为正也可以为负。接下来我们来考虑下面的值 $C_k$, 这个值称为平方误差
$$
C_k=\frac{1}{2}\left(e_k\right)^2=\frac{1}{2}\left{y_k-\left(p x_k+q\right)\right}^2
$$
注:系数$\frac{1}{2}$ 是为了方便进行之后的处理,这个值对结论没有影响。

根据之前的表以及式 (5),用$ p、q $的式子表示误差总和$ C_T$,如下所示。
$$
\begin{aligned}
C_{\mathrm{T}}= & \frac{1}{2}{45.5-(153.3 p+q)}^2+\frac{1}{2}{56.0-(164.9 p+q)}^2 \
& +\cdots+\frac{1}{2}{50.8-(156.7 p+q)}^2+\frac{1}{2}{56.4-(161.1 p+q)}^2
\end{aligned}
$$
我们的目标是确定常数 p、q 的值。回归分析认为,p、q 是使误差总 和式 (6) 最小的解。知道这个解的思路后,后面就简单了。我们利用以下 的最小值条件即可。
$$
\frac{\partial C_{\mathrm{T}}}{\partial p}=0, \quad \frac{\partial C_{\mathrm{T}}}{\partial q}=0
$$
根据偏导数的链式法则,可得
$$
\begin{aligned}
\frac{\partial C_{\mathrm{T}}}{\partial p}= & -153.3{45.5-(153.3 p+q)}-164.9{56.0-(164.9 p+q)}- \
& \cdots-156.7{50.8-(156.7 p+q)}-161.1{56.4-(161.1 p+q)}=0 \
\frac{\partial C_{\mathrm{T}}}{\partial q}= & -{45.4-(153.3 p+q)}-{56.0-(164.9 p+q)}- \
& \cdots-{50.8-(156.7 p+q)}-{56.4-(161.1 p+q)}=0
\end{aligned}
$$
上式的实际含义:

整理后得到下式。
$$
1113.4 p+7 q=372.1, \quad 177312 p+1113.4 q=59274
$$
解这个联立方程,可得
$$
p=0.40 ,\quad q=-12.06, \quad C_T=27.86
$$