用下面的数据做相关分析和一元线性回归分析:
选用普通高等学校毕业生数和高等学校发表科技论文数量做相关分析和一元线性回归分析。 一、相关分析 1. 作散点图
普通高等学校毕业生数和高等学校发表科技论文数量的相关图
从散点图可以看出:普通高等学校毕业生数和高等学校发表科技论文数量的相关性很大。
2. 求普通高等学校毕业生数和高等学校发表科技论文数量的相关系数
把要求的两个相关变量移至变量中,因为都是定距数据,选择相关系数中的Pearson,点击确定,可以得到下面的结果:
Correlations 普通高等学校毕业生数(万人) 高等学校发表科技论文数量(篇) .998 .000 **普通高等学校毕业生数(万人) Pearson Correlation Sig. (2-tailed) N 高等学校发表科技论文数量(篇) Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed). 1 14 .998 .000 14 **14 1 14 两相关变量的Pearson相关系数=0.0998,表示呈高度正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性),即毕业生人数好发表科技论文数之间的相关性显著。
3. 求两变量之间的相关性
选择相关系数中的全部,点击确定:
Correlations Kendall's tau_b (万人) 1.000 . 14 1.000 . 14 1.000 . 14 1.000 . 14 ****(篇) 1.000 . 14 1.000 . 14 1.000 . 14 1.000 . 14 ****(万人) Correlation Coefficient Sig. (2-tailed) N (篇) Correlation Coefficient Sig. (2-tailed) N Spearman's rho (万人) Correlation Coefficient Sig. (2-tailed) N (篇) Correlation Coefficient Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed). 注解:两相关变量(毕业生数和发表论文数)的Kendall相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。
两相关变量(毕业生数和发表论文数)的Spearman相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。
4. 普通高等学校毕业生数和高等学校发表科技论文数量的相关系数
将所求变量移至变量,将控制变量移至控制中,选中显示实际显著性水平,点击确定:
Correlations
普通高等学校毕高等学校发表科技业生数(万人)
论文数量(篇)
普通高等学校毕业生数(万人) Pearson Correlation Sig. (2-tailed) N 高等学校发表科技论文数量(篇) Pearson Correlation Sig. (2-tailed) N **. Correlation is significant at the 0.01 level (2-tailed). 1 .998 .000 ** 14 .998 .000 14 **14 1 14 注解:两相关变量(普通高校毕业生数和发表论文数)的偏相关系数=0.998,呈正相关;对应的偏相关系数双侧检验p值0,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性),即普通高校毕业生数与发表论文数之间相关性显著。
二、一元线性回归
从前面的相关分析可以看出普通高等学校毕业生数和高等学校发表科技论文数量呈高度正相关关系,所以,下面对这两个变量做一元线性回归分析。 1. 建立回归方程
点击选项,选中使用F的概率,如上图所示。点击继续,确定:
Variables Entered/Removed Variables Model 1 Entered (篇) abVariables Removed Method . Enter a. All requested variables entered. b. Dependent Variable: (万人) 此图显示的是回归分析方法引入变量的方式。
Model Summary Adjusted R Model 1 R .998 aStd. Error of the Estimate 11.707 R Square .996 Square .996 a. Predictors: (Constant), (篇) 此图是回归方程的拟合优度检验。 注解:上图是回归方程的拟合优度检验。
第二列:两变量(被解释变量和解释变量)的相关系数R=0.998.
第三列:被解释变量(毕业人数)和解释变量(发表科技论文数)的判定系数
𝑅2=0.996是一元线性回归方程拟合优度检验的统计量;判定系数越接近1,说明回归方程对样本数据的拟合优度越高,被解释变量可以被模型解释的部分越多。 第四列:被解释变量(毕业人数)和解释变量(发表科技论文数)的调整判定系数𝑅2=0.996。这主要适用于多个解释变量的时候。
第五列:回归方程的估计标准误差=11.707. ANOVA Model 1 Regression Residual Total Sum of Squares 448318.6 14.535 449963.199 df 1 12 13 Mean Square 448318.6 137.045 F 3271.335 Sig. .000 ab a. Predictors: (Constant), (篇) b. Dependent Variable: (万人) 注解:回归方程的整体显著性检验—回归分析的方差分析
第二列:被解释变量(毕业人数)的总离差平方和=449963.199,被分解为两部分:回归平方和=448318.6;剩余平方和=14.535.
F检验统计量的值=3271.335,对应概率的P值=0.000,小于显著性水平0.05,应拒绝回归方程显著性检验的原假设(回归系数与0不存在显著性差异),结论:回归系数不为0,被解释变量(毕业人数)与解释变量(发表科技论文数)的线性关系是显著的,可以建立线性模型。
Coefficients Standardized Unstandardized Coefficients Model 1 (Constant) (篇) a. Dependent Variable: (万人) B -316.259 .001 Std. Error 14.029 .000 Coefficients Beta t -22.543 .998 57.196 Sig. .000 .000 a
注解:回归方程的回归系数和常数项的估计值,以及回归系数的显著性检验。
第二列:常数项估计值=-316.259;回归系数估计值=0.001. 第三列:回归系数的标准误差=0.000 第四列:标准化回归系数=0.998.
第五、六列:回归系数T检验的t统计量值=57.196,对应的概率P值=0.000,小于显著性水平0.05,拒绝原假设(回归系数与0不存在显著性差异),结论:回归系数不为0,被解释变量(毕业人数)与解释变量(发表科技论文数)的线性关系是显著的。 于是,回归方程为: 𝑦𝑖=-316.259+0.001x
2. 回归方程的进一步分析
(1)在统计量中选中误差条图的表征,水平百分之95.
点击继续,然后点击确定,输出每个非标准化回归系数的95%置信区间:
选中统计量中的描述性,点击继续,然后确定,输出变量的均值、标准差相关系数矩阵和单侧检验概率值: Descriptive Statistics (万人) (篇) Mean 465.92 932780.57 Std. Deviation 186.044 221459.019 N 14 14 Correlations (万人) 1.000 .998 . .000 14 14 (篇) .998 1.000 .000 . 14 14 Pearson Correlation (万人) (篇) Sig. (1-tailed) (万人) (篇) N (万人) (篇)
(2)残差分析
选中统计量中的个案诊断,所有个案,点击继续,然后确定:
Residuals Statistics a Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value Minimum 137.72 -1.767 3.153 Maximum 707.16 1.299 6.536 Mean 465.92 .000 4.320 Std. Deviation 185.704 1.000 .995 N 14 14 14 139.53 -26.276 -2.245 -2.511 -32.6 -3.491 .015 .000 .001 713.78 19.112 1.633 1.696 20.618 1.862 3.123 .795 .240 466.40 .000 .000 -.018 -.473 -.073 .929 .100 .071 185.620 11.247 .961 1.048 13.403 1.259 .0 .205 .068 14 14 14 14 14 14 14 14 14 a. Dependent Variable: (万人) Casewise Diagnostics Case Number 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Std. Residual -2.245 .811 .834 .314 -.542 .061 -.418 1.633 .370 -.259 1.070 -.447 -.842 -.341 (万人) Predicted Value Residual 707.16 9.87 628.96 621.02 614.50 574.71 536.00 492.84 443.45 380.53 294.27 244.33 197.55 137.72 -26.276 9.494 9.759 3.678 -6.341 .711 -4.6 19.112 4.336 -3.032 12.527 -5.228 -9.852 -3.993 a681 659 639 625 608 575 531 512 448 378 307 239 188 134 a. Dependent Variable: (万人)
从上表可以看出,第8例的残差和标准化残差最大。