10.1. 一元线性回归模型

本章当中, 我们将对线性回归 (linear regression) 进行简单的介绍. 与前几章不同的是, 在线性回归以及更一般的回归分析问题中, 我们不再只关注单个变量的概率分布情况, 而是考虑两个或多个取值连续的变量并考察它们的依赖关系. 具体而言, 我们认为这些具有依赖关系的取值连续的变量由一些确定性的变量 与一些随机变量 给出, 其中

看成自变量 (independent variable). 的其它名称还包括 regressors, exogenous variables, explanatory variables, covariates, input variables, predictor variables 等.

看成是带有随机因素的因变量 (dependent variable), 其 (联合) 概率分布的具体形式取决于 的值. 的其它名称还包括 regressands, endogenous variables, response variables, output variables 等.

而回归分析的基本任务, 就是通过收集样本数据, 对 的分布以何种方式依赖于 的取值进行推断; 或者说, 我们希望考察, 当把 的分布与 的取值的关系用某种统计模型进行建模以后, 这个统计模型能否与收集到的样本数据相吻合.

在本章中, 我们主要考察自变量 与因变量 均为一维变量 (也就是一元回归) 的情形. 我们假定样本由成对数据给出, 其中每个 均为确定性的量, 而 则与自变量取值为 时的因变量 同分布, 且 之间相互独立. 通常, 我们不会让 都等于同一个值, 否则我们只能推断 等于单个值时 的分布信息, 而无法推断 变动时 的分布对 的依赖关系.

在一元线性回归分析中, 我们将自变量 与因变量 之间的依赖关系用如下方式进行建模: (10.1.1)其中 服从期望为 、方差为 的某个分布, 且该分布与 的取值无关. 被称为回归系数 (regression coefficient), 它们与方差 均为未知的参数. 函数 则被称为回归函数, 有时也会用符号 来表示它. 我们通常把 看作对 进行观测时产生的随机误差. 对于样本 , 则有(10.1.2)其中随机误差 独立同分布且期望为 、方差为 . 式 (10.1.1) 给出了一种用于描述 之间依赖关系的统计模型, 我们将其称为一元线性回归模型.

注 10.1.1. 需要指出的是, 一元线性回归模型中的 “一元” 指的是自变量的维数为 , 而 “线性” 则是指 关于回归系数 是线性的. 例如, 若 之间的关系由如下式子给出: 其中 为任意函数, 那么我们依然可以把它作为一元线性回归模型进行处理, 这是因为只需令 即可将模型化为 (10.1.1) 的形式, 随后直接套用一元线性回归模型的理论与方法即可.

对于一元线性回归模型, 我们可以提出如下几类问题:

若线性回归模型 (10.1.1) 很好地描述了 之间的依赖关系, 则应当如何对未知参数 进行点估计、区间估计与假设检验?

给定一个新的自变量的值 , 如何基于线性回归模型 (10.1.1) 与获得的样本, 对 的取值进行预测?

如何判断线性回归模型 (10.1.1) 能否足够好地解释观测数据?

在接下来的几节, 我们将对前两类问题给出解答, 而对第三类问题只作简要介绍.