线性模型

在线性关系中,由于第二个变量的变化而导致的第一个变量的变化量不依赖于第二个变量的值。

线性模型

在线性模型中,自变量x的变化,会导致因变量y的线性变化,用如下方程表示:

y = mx + b

其中,m等于直线的斜率,b等于截距,即当自变量等于0时的因变量值。

线性回归模型的目标是找到能够最小化到各数据点的直线。回归线越靠近数据,模型解释的数据越多,R2就越大(得到解释的百分比越大)。如果数据全部都恰好位于回归线上,R2就等于100%。

R2的计算

围绕均值的残差平方和(有时候也称围绕均值的平方和):

SS(mean) = (data - mean)2

围绕均值的变异(即数据的方差),其中:n=样本数:

Var(mean) = SS(mean) / n

围绕拟合直线的残差平方和(有时候也记作围绕拟合直线的平方和):

SS(fit) = (data - line)2

围绕拟合直线的变异(即围绕拟合直线的数据方差),其中n=样本数:

Var(fit) = SS(fit) / n

R2可由SS(mean)、SS(fit)计算得出,也可由Var(mean)、Var(fit)计算得出,二者的结果完全等价

R2 = [ Var(mean) - Var(fit) ] / Var(mean)

or

R2 = [ SS(mean) - SS(fit) ] / SS(mean)

R2可以表示考虑x与y的量化关系时,拟合直线所能减小的总体变化百分比,取值范围 [-1, 1]

  • R2 = 1

    表示所有的样本数据均位于拟合直线上,变量x与y完全相关,变量x完全可以解释变量y的变异

  • R2 = 0

    x与y变量没有线性关系,变量x完全不能可以解释变量y的变异。但是有可能有其他关系

符号、显著性和大小

线性回归可以告诉我们关于自变量系数的如下内容:

符号:自变量与因变量之间的正相关或负相关。

显著性(p值):系数上非零符号的概率。

大小:对自变量系数的最佳估计。

y = mx + b。原假设 m = 0,当计算出与m相关的统计量的p值小于显著性水平α(α 一般取0.05或0.01)时,就拒绝原假设,即认为m不是0.

在单变量回归中,回归线与数据拟合得越好,我们对系数的符号和大小就越有信心。统计学家使用p值来表示系数的显著性,p值等于基于回归的系数不为零的概率。p值为5%意味着数据由一个系数等于零的过程生成的概率为0.05。显著性的标准阈值是5%(通常用*表示)和1%(通常用表示)。值越小,显著性越高**。但是,显著性并不是我们唯一关心的东西。一个系数可能是显著的,但是却很小。如果真的是这样,就可以对相关关系很有信心,但是变量的影响其实不大。又或者,也可能系数虽然不显著但却很大,这通常发生在有噪声数据或数据带有许多遗漏变量的情况下。

相关关系 vs. 因果关系

回归所揭示的是变量之间的相关关系,而不是因果关系。使用5%的显著性水平阈值,每检验20个变量就会发现有一个是显著的。因此,如果尝试足够的变量,肯定会发现某些显著但虚假的相关性。

我们可以通过创建训练集(training set)和检验集(testing set)来避免报告虚假相关。在训练集上发现的相关性,如果也存在于检验集上,就更可能是真实的。但即便是这样,我们仍然无法保证那就是因果关系。为了证明因果关系,还需要进行一个实验来操纵自变量并观察因变量是否会随之发生变化,或者也可以想办法找到可以证明这类因果关系的自然实验。

多元线性模型

大多数现象都有不止一个因果变量和相关变量。必须记住,随着添加更多的变量,也就需要更多的数据,不然无法得到显著的系数。

实力-运气方程

任何成功,无论是日常工作中的成功、体育运动上的成功,还是游戏时的成功,都可以视为实力-运气的一个加权线性函数。

实力-运气方程

成功 = a × 实力 +(1-a)× 运气

其中,a位于区间[0,1]上,是技能的相对权重。

如果给实力和运气分配适当的权重(也许通过利用现有数据进行回归,可以得到这样的权重),我们就能够运用这个模型来预测结果。

在那些“运气决定了成功”的行业中,董事会不应该向CEO发放高额奖金。石油公司的利润取决于原油的市场价格,那是一个公司无法控制的变量。因此,一家石油公司的董事会不应该因为某一年公司业绩不错就给CEO发放巨额奖金。相反,广告公司则不然:如果广告公司业绩表现良好,那么给CEO发放巨额奖金就是一件明智的事情。简而言之,要奖励实力,而不要为运气去买单。事实上,那些很成功的公司都不会为运气付出太多。

进一步思考这个方程可以发现,即便是在那些成功几乎完全取决于实力的环境中,如果不同的参赛者之间实力差异很小,那么运气就会在很大程度上决定谁输谁赢。我们可以预期,在竞争最激烈的比赛中,比如奥运会,进入决赛的选手之间的实力差异很小,因而运气就非常重要了。莫布森把这种情况称为“实力悖论”(paradox of skill)。 </i>

多元线性回归

假设学生在数学考试中的成绩,是学生学习的小时数(HRS)、学生家庭社会经济状况(SES)和上“快班”课程的数量(AC)的函数。

数学成绩=21.1+9.2 **×HRS+0.8×SES+6.9 *×AC

据回归分析的结果,学生每多学习一个小时,数学成绩会提高9.2分。这个系数有两个*号,因此它在1%的水平上显著,这意味着很强的相关性,尽管不是因果关系。这个方程也表明,每参加一个“快班”课程,数学成绩能够提高近7分,这个系数也是显著的,但仅仅在5%的水平上显著。家庭社会经济状况这个变量的取值为从1(低)到5(高),系数也为正,但是与零没有显著差异,因此我们可以认为它可能没有什么因果关系。

有了这样一个(或任何形式的)回归方程,我们就可以预测结果。这个模型预测,如果花7个小时学习,并同时参加一个“快班”课程,数学成绩就能够达到90分左右。这个模型还可以用来指导行动,但必须保持谨慎,因为我们无法推断因果关系。数据表明,花时间学习和参加“快班”课程的学生成绩更好。但是,花时间学习和参加“快班”课程这两个因素也可能没有什么用,因为也许存在选择性偏差(selection bias),那些花更多时间学习、参加“快班”课程的学生,数学成绩可能本来就更好。 </i>

大系数与新现实

对数据的依赖(通常意味着线性回归模型),可能会导致我们过于倾向边际行动(marginal action),远离重要的新思想。企业、政府或基金会,都致力于收集数据,拟合线性回归模型,试图找到有最高统计显著性系数的变量,这种努力几乎肯定会导致调整该变量并获得边际收益的行为。

在采取行动的时候,最好选择具有较大系数的变量,而不要选择具有较小系数的变量。与此同时,它会使我们将注意力集中到较小的改进上,而无法再关注全新的政策。

“大系数至上”的另一个问题是大系数的大小对应于给定现有数据的边际效应。通常这种效应将会随着变量值的增大而减少。如果确实是这样,那么当我们试图利用它时,大系数就会变小

线性回归揭示了自变量与我们感兴趣的(因)变量之间的相关程度。如果这种相关是因果关系,那么具有大系数变量的变化就会产生很大的影响。基于大系数的政策在保证能够带来改进的同时,排除了涉及更多根本性变化的新现实。然而,也许新现实政策带来的效果可能比大系数带来的要好。

总结

线性模型需要假定效应大小不变。在现有数据范围之外推断线性效应时必须非常小心。我们也不应该用线性模型对过于久远的未来进行预测。

线性模型只是一个开始,大多数有趣的现象都不是线性的。因此,回归模型通常会包括非线性项,比如年龄的平方。在给定了数据的情况下,可以使用线性模型来检验我们的直觉判断。然后,我们可以构建更精细的模型,其中变量的影响会随着它的增加(收益递减)或变得更强大(正回报)而减弱。