多重共线性介绍
多重共线性,是指线性回归模型中的若干解释变量或全部解释变量的样本观测值之间具有某种线性关系。
(1)多重共线性的产生与后果
回归模型中存在多重共线性问题,将给模型的估计带来一系列后果。如果解释变量之间存在完全的多重共线性,那么无法估计模型参数,参数估计的方差将为无穷大,这将使回归模型的普通最小二乘法估计完全失效;对于不完全多重共线性可能产生的后果主要有:①各个解释变量对被解释变量的影响很难精确鉴别;②模型回归参数估计量的方差会很大,这将使得进行显著性检验时认为回归参数的值与零无显著差异。从而导致将相应的解释变量从模型中剔除,但这并不是因为该解释变量对被解释变量无影响作用,而只是由于样本数据不适于精确区分各解释变量的单独影响;③模型参数的估计量对删除或增加少量的观测值以及删除一个不显著的解释变量都可能非常敏感。
(2)多重共线性的检验
对于一个给定的线性回归模型和一组样本数据,其解释变量的样本数据中是否存在多重共线性以及共线性的严重程度有多大,这个问题显然需要用一定的方法来进行检验。实践中,常用的检验方法主要有简单相关系数检验法、容限度(ToLerance)法、方差扩大因子(VIF,VarianceInfLationFactor)法、特征值和条件指数(Eigen-valueandConditionIndexes)法、Theil多重共线性效应系数法等。本文采用的是简单相关系数检验法。
(3)多重共线性的处理
对于给定的样本数据,如果其存在较严重的多重共线性,那么就必须采取一些措施进行处理,以减轻其不良影响。常用的处理方法有删除不重要的解释变量、追加样本信息、利用非样本先验信息、改变解释变量形式、逐步回归法等。本文采用的是删除不重要的解释变量的处理方法。
依据简相关关系的多重共线性分析结果,本研究选择含水率、TOC和粘土矿物含量来作为分析影响土壤理化参数与有机氯农药之间的相关关系的主要因子。
多重共线性的典型表现是什么?判断是否存在多重共线性的方法有哪些
多重共线性的典型表现是,线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。主要产生原因是经济变量相关的共同趋势,滞后变量的引入,样本资料的限制。判断是否存在多重共线性的方法有特征值,存在维度为3和4的值约等于0,说明存在比较严重的共线性。条件索引列第3第4列大于10,可以说明存在比较严重的共线性。比例方差内存在接近1的数,可以说明存在较严重的共线性。判断是否存在多重共线性的方法:1.方差膨胀因子:共线性主要考察的是自变量之间是否存在线性关系。所以很自然地,我们会考虑[公式]对[公式](除[公式]以外的其他自变量)的线性回归拟合以及由此得到的可决系数[公式]。如果自变量之间存在很强的线性关系,则[公式]会很大,甚至会接近1。[公式]即为方差膨胀因子。其值若大于10,则认为存在较强的共线性问题。2.常用的评价指标有两个:(1)容许度和膨胀因子(VIF)。容许度=1-Rj^2。其中的R是第j个自变量与其余变量进行回归时的判定系数。容许度越接近1,表示多重共线性越弱。膨胀因子:膨胀因子是容许度的倒数。膨胀因子越接近1(膨胀因子理论最小值是1),表示解释变量之间的多重共线性越弱,通常膨胀因子=10,说明膨胀因子存在严重多重共线性。 在SPSS中可以通过在回归分析时勾选“统计”选项卡的“共线性诊断”自动计算容许度和膨胀因子,来判断自变量是否高度相关,是否存在多重共线性问题。 多重共线性的处理方法 若自变量之间存在多重共线性就需要对自变量进行处理后才能进行回归分析,处理方法为主成分分析(Principal Component Analysis,PCA)。 (2) PCA 主成分分析法是运用降维的思想将一组高度相关的自变量转换为一组相互独立的、不存在线性关系的变量,转换后的变量称为主成分,主成分可反映原始数据的大部分信息。一般在自变量个数太多或者存在严重相关关系时使用主成分分析对自变量进行处理,主成分分析一般作为研究中的一个中间环节。 3.常用统计量 主成分分析中的几个统计量: ⑴特征根。主成分特征根的大小可反映该主成分的影响力度,表示该主成分可以解释平均多少个原始变量的信息。例如若特征根λi=3.998,表示该主成分可以解释平均3.998个原始变量。若特征根λi
回答于 2021-12-06
什么是多重共线性
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。
多重共线性产生的原因主要有3各方面:
1、经济变量相关的共同趋势。
2、滞后变量的引入。
3、样本资料的限制。
多重共线性的主要影响:
完全共线性下参数估计量不存在;近似共线性下OLS估计量非有效。
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)。
参数估计量经济含义不合理;变量的显着性检验失去意义,可能将重要的解释变量排除在模型之外。
模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
多重共线性检验方法?
计量经济学中多重共线性的检验方法有哪些
一、一般线性回归:
proc reg data=abc;
model y=x1-x4
run;
二、多重共线性的检验
1、简单相关系数检验法
proc corr data=abc;
var x1-x4;
run;
2、方差扩大因子法
proc reg data=abc;
model y=x1-x4/vif;
run;
3、直观分析法(略)
4、逐步回归检测法
这在SAS中有多重筛选解释变量的方法:forward、backword、stepwise、maxr、minr、rsquare,主要采用stepwise
proc reg data=abc;
model y=x1-x4/selection=stepwise sle=0.05 sls=0.10;
run; quit;
5、特征值和病态指数
proc reg data=abc;
model y=x1-x4/collin;
run;
三、多重共线性的补救措施
1、提出变量法(根据前面的检测剔除掉vif值大的变量……略)
2、增大样本容量(略)
3、变换模型形式
常使用变量的差分方式,一阶差分形式如下:
data abc;
set abc;
x1lag1=lag(x1);
x2lag1=lag(x2);
x3lag1=lag(x3);
x4lag1=lag(x4);
ylag1=lag(y);
if nmiss(x1lag1,x2lag1,x3lag1,x4lag1,ylag1)0 then delete;
dx1=x1-x1lag1;
dx2=x1-x2lag1;
dx3=x1-x3lag1;
dx4=x1-x4lag1;
dy=x1-ylag1;
run;
proc reg data=abc;
model y=x1-x4;
run;quit;
4、利用非样本先验信息(即已知某些解释变量之间的等式从而可剔除掉一些解释变量,略)
5、横截面数据与时间序列数据并用
属于先验信息法的变种,首先利用横截面数据估计出部分参数代入原方程,再利用时间序列数据估计出另外的部分参数,其前提是前一部分参数在不同时间上变化很小。
6、变量变换
绝对指标转为相对指标;
名义数据转为实际数据;
小类指标合并为大类指标(主成分分析和因子分析,后面再予补充)
7、逐步回归法(参见检验部分,略)
8、岭回归
当自变量存在多重共线关系时, 均方误差将变得很大,故从均方误差的角度看, 普通最小二乘估计不是系数的好估计,减少均方误差的方法就是用岭回归估计替代最小二乘估计。但使得均方误差达到最小的k值依赖于未知参数系数和随机干扰项的方差,因此k 值的确定是岭回归分析中关键。
在实际应用中, 通常确定k值的方法有以下几种:①岭迹图法, 即对每个自变量xi, 绘制随k值的变化岭回归估计的变化曲线图。一般选择k使得各个自变量的岭迹趋于稳定;②方差膨胀因子法, 选择k使得岭回归估计的VIF10;③控制残差平方和法, 即通过限制岭回归估计的残差平方和不能超过cQ(其中c1为指定的常数,Q为最小二乘估计的残差平方和)来找出最大的k值。
data abc;
input x1-x3 y;
cards;
149.3 4.2 108.1 15.9
161.2 4.1 114.8 16.4
171.5 3.1 123.2 19.0
175.5 3.1 126.9 19.1
180.8 1.1 132.1 18.8
190.7 2.2 137.7......
多重共线性的检验方法
,出现了相关系数与回归方程系数符号相反的问题,经过研究,确认是多重共线性问题并探索了解决方法。
在此将多重共线性的相关知识整理如下。
解释变量理论上的高度相关与观测值高度相关没有必然关系,有可能两个解释变量理论上高度相关,但观测值未必高度相关,反之亦然。所以多重共线性本质上是数据问题。
造成多重共线性的原因有一下几种:
1、解释变量都享有共同的时间趋势;
2、一个解释变量是另一个的滞后,二者往往遵循一个趋势;
3、由于数据收集的基础不够宽,某些解释变量可能会一起变动;
4、某些解释变量间存在某种近似的线性关系;
判别:
1、发现系数估计值的符号不对;
2、某些重要的解释变量t值低,而R方不低
3、当一不太重要的解释变量被删除后,回归结果显著变化;
检验;
1、相关性分析,相关系数高于0.8,表明存在多重共线性;但相关系数低,并不能表示不存在多重共线性;
2、vif检验;
3、条件系数检验;
解决方法:
1、增加数据;
2、对模型施加某些约束条件;
3、删除一个或几个共线变量;
4、将模型适当变形;
5、主成分回归
处理多重共线性的原则:
1、 多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;
2、 严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。
3、 如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果;
怎么用SPSS做多重共线性检验
例如在回归分析中,线性回归-统计量-有共线性诊断。多重共线性:自变量间存在近似的线性关系,即某个自变量能近似的用其他自变量的线性函数来描述。多重共线性的后果:整个回归方程的统计检验Pa,不能纳入方程去掉一两个变量或记录,方程的回归系数值发生剧烈抖动,非常不稳定。多重共线性的确认:做出自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。容忍度(Tolerance):有 Norusis 提出,即以每个自变量作为应变量对其他自变量进行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严重。陈希孺等根据经验得出:如果某个自变量的容忍度小于0.1,则可能存在共线性问题。方差膨胀因子(Variance inflation factor, VIF): 由Marquardt于1960年提出,实际上就是容忍度的倒数。特征根(Eigenvalue):该方法实际上就是对自变量进行主成分分析,如果相当多维度的特征根等于0,则可能有比较严重的共线性。条件指数(Condition Idex):由Stewart等提出,当某些维度的该指标数值大于30时,则能存在共线性。多重共线性的对策:增大样本量,可部分的解决共线性问题采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。从专业的角度加以判断,人为的去除在专业上比较次要的,或者缺失值比较多,测量误差比较大的共线性因子。进行主成分分析,用提取的因子代替原变量进行回归分析。进行岭回归分析,它可以有效的解决多重共线性问题。进行通径分析(Path Analysis),它可以对应自变量间的关系加以精细的刻画。
怎么用SPSS做多重共线性检验啊
SPSS回归分析中有共线性诊断,分析—回归—线性回归——统计量,在弹出的对话框中选择“共线性诊断”就可以了
根据SPSS分析结果如何判断是否共线性
如果容差(tolerance)=0.1或方差膨胀因子VIF(是容差的倒数)=10,则说明自变量间存在严重共线性情况
条件索引(condition index)10或方差比例(variance proportions)0.5时,自变量间存在严重共线性
求spss怎么做多重共线性检验,相关系数矩阵怎么得到?在线等
已百度Hi发过去了,看看
多元线性回归多重共线性检验及避免方法,简单点的
多重共线性指自变量问存在线性相关关系,即一个自变量可以用其他一个或几个自变量的线性表达式进行表示。若存在多重共线性,计算自变量的偏回归系数β时,矩阵不可逆,导致β存在无穷多个解或无解。
而在使用多元线性回归构建模型过程中,变量之间存在多重共线性问题也是比较常见的。那么当发现多重线性回归模型中存在多重共线性时我们该如何处理呢?
可通过以下方法予以解决:
(1)逐步回归
使用逐步回归可以在一定程度上筛选存在多重共线性的自变量组合中对反应变量变异解释较大的变量,而将解释较小的变量排除在模型之外。
但这种方法缺点是当共线性较为严重时,变量自动筛选的方法并不能完全解决问题。
(2) 岭回归
岭回归为有偏估计,但能有效地控制回归系数的标准误大小。
(3) 主成分回归
可以使用主成分分析的方法对存在多重共线性的自变量组合提取主成分,然后以特征值较大的(如大于1)几个主成分与其他自变量一起进行多重线性回归。得出的主成分回归系数再根据主成分表达式反推出原始自变量的参数估计。
该方法在提取主成分时丢失了一部分信息,几个自变量间的多重共线性越强,提取主成分时丢失的信息越少。
(4) 路径分析
如果对自变量间的联系规律有比较清楚的了解,则可以考虑建立路径分析模型,以进行更深入的研究。
如何解读SPSS共线性诊断结果以及解决多重共线性问题的方法
多重共线性的诊断是在回归中进行的,所以先打开回归的对话框: *** yse--regression--linear,打开线性回归对话框
将自变量因变量都放到各自的位置,然后点击statistic
在该对话框中,有一个多重共线性诊断的选项,勾选他,如图所示,点击continue按钮,返回主对话框
点击ok按钮,开始输出诊断结果
我们先来看这两个参数,特征根(Eigenvalue):多个维度特征根约为0证明存在多重共线性;条件指数(Condition Index):大于10时提示我们可能存在多重共线性
6
接着来看相关系数矩阵,找到数值接近1的相关,这也提示出可能存在多重共线性。
多重共线性的典型表现是什么?判断是否存在多重共线性的方法有哪些
多重共线性的典型表现是线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。主要产生原因是经济变量相关的共同趋势,滞后变量的引入,样本资料的限制。
判断是否存在多重共线性的方法有特征值,存在维度为3和4的值约等于0,说明存在比较严重的共线性。条件索引列第3第4列大于10,可以说明存在比较严重的共线性。比例方差内存在接近1的数,可以说明存在较严重的共线性。
多重共线性产生的原因有哪些?检验多重共线性的方法思路是什么
多重共线性的产生原因、判别、检验、解决方法
分类:
数据挖掘(6)
最近做回归分析,出现了相关系数与回归方程系数符号相反的问题,经过研究,确认是多重共线性问题并探索了解决方法。
在此将多重共线性的相关知识整理如下。
解释变量理论上的高度相关与观测值高度相关没有必然关系,有可能两个解释变量理论上高度相关,但观测值未必高度相关,反之亦然。所以多重共线性本质上是数据问题。
造成多重共线性的原因有一下几种:
1、解释变量都享有共同的时间趋势;
2、一个解释变量是另一个的滞后,二者往往遵循一个趋势;
3、由于数据收集的基础不够宽,某些解释变量可能会一起变动;
4、某些解释变量间存在某种近似的线性关系;
判别:
1、发现系数估计值的符号不对;
2、某些重要的解释变量t值低,而R方不低
3、当一不太重要的解释变量被删除后,回归结果显著变化;
检验;
1、相关性分析,相关系数高于0.8,表明存在多重共线性;但相关系数低,并不能表示不存在多重共线性;
2、vif检验;
3、条件系数检验;
解决方法:
1、增加数据;
2、对模型施加某些约束条件;
3、删除一个或几个共线变量;
4、将模型适当变形;
5、主成分回归
处理多重共线性的原则:
1、 多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施;
2、 严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低。要根据不同情况采取必要措施。
3、 如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果;