Skip to content

一元线性回归

先画图

对于一元线性回归来说,应该先根据目前已知的数据画出散点图,然后简单拟合一下直线,可以帮助你简单判断该数据是不是“一元线性回归”

图片来源:https://zhuanlan.zhihu.com/p/45973297

核心思想

  • 线性关系:假设 x 和 y 之间是直线关系(y 随 x 增加而均匀增加或减少)
  • 误差:实际数据点可能不完美落在直线上(因为测量误差、随机变异等),回归模型会尽量让所有点到直线的距离之和最小
  • 目标:量化关系的强度和方向(比如斜率表示变化率)

回归方程的标准表示:

y^=a+bx

其中:

  • y:因变量
  • x:自变量
  • a:截距
  • b:斜率

需要注意的是,yx 并不是相关影响的关系

回归方程的参数计算

计算的关键是求出截距 a 和斜率 b

其中斜率 b

b=(xix¯)(xix¯)2=xynx¯y¯(x)2nx¯2

由于线性回归方程恒过 (X¯,Y¯)

故,截距 a

a=Y¯aX¯

对于某组数据 (2,35),(3,36),(4,41),(5,45),(6,44),可以将其绘制成表:

xyxyx2
235704
3361089
44116416
54522525
64426416
X¯=4,Y¯=40.2,xy=831,(x2)=90

其中 n=5

b=xynX¯Y¯(x)2n(X¯)2=8315×4×40.2905×42=2.7a=Y¯bX¯=40.22.7×4=29.4

故:

y^=a+bx=29.4+2.7x

线性回归的检验

原假设

H0:β=0 XY 没有显著的直线关系 Ha:β XY 有显著的直线关系

使用单因素方差检验来判断是否存在回归关系

ANOVA 表

来源(Source)平方和(SS)自由度(df)均方(MS)
回归 (Regression)SSR1MSR
残差 (Error)SSEn-2MSE
总体SSTn-1-

总平方和(总的变异)

SST=(yiY¯)2

回归平方和(模型解释的变异)

SSR=(yi^Y¯)2

残差平方和(模型未解释的变异)

SSE=(yiyi^)2

故,F 统计量为:

F=MSRMSE

计算简式

Sxx=xi2(xi)2n(等价于 SSx )Syy=yi2(yi)2n(总平方和 SST)Sxy=xiyi(xi)(yi)n(协方差)SSR=b2Sxx=bSxySSE=SyybSxySST=Syy

最后更新于:

Released under the MIT License.