线性回归背后的数学 线性回归数学题( 三 )

Z是否与轴的单位无关?Z并不表示一个点离中心有多远,而是表示它离中心有多少个标准差 。
如果把点的坐标乘以一千,标准差也会大一千倍 。比如说:
因为标准差与坐标轴具有相同的 "单位",一个点离中心的标准差的数始终保持不变 。因此,Z与坐标轴的单位无关 。
因此,使用z-score使公式与使用的单位无关 。新公式现在看起来像这样:
使用这个公式,图6.a的相关系数等于10.413,图6.b的相关系数为13.93 。
这个公式仍有一个问题 。该公式的输出取决于数据点的数量 。例如,假设在图6.a中增加了一个x坐标为13、y坐标为8的点,这个点会削弱相关性,因为它根本不在一条可能的直线附近 。但是,用目前的公式,我们的相关系数甚至会略有增加 。
为了解决这个问题,我们可以从求和中取所有项的平均值 。由于我们已经在计算所有的项,只需要再除以点的数量,即n 。确切地说,是n-1,这方面的原因超出了本文的讨论范围,只需知道在这种情况下,用n-1除所有项的平均值即可 。最终公式便是皮尔逊公式了:
现在,对于图6.a,r = 0.69;对于图6.b,r = 0.93 。
最小二乘法在本文的开头,我向大家介绍了吉诺 。吉诺想从散点图中计算出最适合给定数据点的直线的函数 。正如我前面提到的,这个函数的计算被称为线性回归
这种回归背后的方法被称为最小二乘法 。
看一下下面的图:

  • 图7:线性回归
在这个图上,我们称每个点的y坐标为y_i,直线上与y_i对应的纵坐标为?_i 。y_i称为y的观测值,?_i称为y的预测值 。
当画线时,我们希望从每一个点到线的y距离越小越好 。这个距离等于观察值和预测值之间的差 。
这个方程的问题是,当?_i大于y_i时,d是负的 。而我们只想对正值进行处理 。为了解决这个问题,我们可以简单地将差值平方 。
这就是 "最小二乘法 "这个名字的由来 。
  • 图8:最小二乘法 。
回归线现在是所有d_i之和最小的那条直线 。
这条线的函数如下:
这可以通过数学方法或计算机模拟来证明 。
吉诺回归(Gino’s regression)现在我们知道如何计算线性回归了 。让我们试着计算一下1888年比萨斜塔的预期倾斜度 。下面是吉诺获取的数据:


对于相关系数,计算得出r = 0.995,这是一个非常高的系数 。线性回归肯定是有效的 。对于函数,我们计算如下:
为了确保没有犯任何错误,可以在我们的散点图上画出这条线 。
看起来很不错吧?
现在可以用这条线来预测未来的倾斜度 。
对于1988年,我们预测的倾斜度为767.8 。
最后这篇文章的目的不是让你记住很多公式,也不是让你能够徒手计算出线性回归的结果 。我主要是想展示某个公式背后的思考过程 。线性回归几乎总是用计算器或电脑来完成 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: