10.1. 一元线性回归模型
本章当中, 我们将对线性回归 (linear regression) 进行简单的介绍. 与前几章不同的是, 在线性回归以及更一般的回归分析问题中, 我们不再只关注单个变量的概率分布情况, 而是考虑两个或多个取值连续的变量并考察它们的依赖关系. 具体而言, 我们认为这些具有依赖关系的取值连续的变量由一些确定性的变量 与一些随机变量 给出, 其中
• | 看成自变量 (independent variable). 的其它名称还包括 regressors, exogenous variables, explanatory variables, covariates, input variables, predictor variables 等. |
• | 看成是带有随机因素的因变量 (dependent variable), 其 (联合) 概率分布的具体形式取决于 的值. 的其它名称还包括 regressands, endogenous variables, response variables, output variables 等. |
而回归分析的基本任务, 就是通过收集样本数据, 对 的分布以何种方式依赖于 的取值进行推断; 或者说, 我们希望考察, 当把 的分布与 的取值的关系用某种统计模型进行建模以后, 这个统计模型能否与收集到的样本数据相吻合.
在本章中, 我们主要考察自变量 与因变量 均为一维变量 (也就是一元回归) 的情形. 我们假定样本由成对数据给出, 其中每个 均为确定性的量, 而 则与自变量取值为 时的因变量 同分布, 且 之间相互独立. 通常, 我们不会让 都等于同一个值, 否则我们只能推断 等于单个值时 的分布信息, 而无法推断 变动时 的分布对 的依赖关系.
在一元线性回归分析中, 我们将自变量 与因变量 之间的依赖关系用如下方式进行建模: (10.1.1)其中 服从期望为 、方差为 的某个分布, 且该分布与 的取值无关. 被称为回归系数 (regression coefficient), 它们与方差 均为未知的参数. 函数 则被称为回归函数, 有时也会用符号 来表示它. 我们通常把 看作对 进行观测时产生的随机误差. 对于样本 , 则有(10.1.2)其中随机误差 独立同分布且期望为 、方差为 . 式 (10.1.1) 给出了一种用于描述 与 之间依赖关系的统计模型, 我们将其称为一元线性回归模型.
注 10.1.1. 需要指出的是, 一元线性回归模型中的 “一元” 指的是自变量的维数为 , 而 “线性” 则是指 关于回归系数 是线性的. 例如, 若 与 之间的关系由如下式子给出: 其中 为任意函数, 那么我们依然可以把它作为一元线性回归模型进行处理, 这是因为只需令 即可将模型化为 (10.1.1) 的形式, 随后直接套用一元线性回归模型的理论与方法即可.
对于一元线性回归模型, 我们可以提出如下几类问题:
• | 若线性回归模型 (10.1.1) 很好地描述了 与 之间的依赖关系, 则应当如何对未知参数 与 进行点估计、区间估计与假设检验? |
• | 给定一个新的自变量的值 , 如何基于线性回归模型 (10.1.1) 与获得的样本, 对 时 的取值进行预测? |
• | 如何判断线性回归模型 (10.1.1) 能否足够好地解释观测数据? |
在接下来的几节, 我们将对前两类问题给出解答, 而对第三类问题只作简要介绍.