统计学原理中相关与回归的区别

来源:学生作业帮助网 编辑:作业帮 时间:2024/05/01 17:48:38
统计学原理中相关与回归的区别

统计学原理中相关与回归的区别
统计学原理中相关与回归的区别

统计学原理中相关与回归的区别
问:请详细说明相关分析与回归分析的相同与不同之处
相关分析与回归分析都是研究变量相互关系的分析方法,相关分析是回归分析的基础,而回归分析则是认识变量之间相关程度的具体形式.
下面分为三个部分详细描述两种分析方法的异同:
第一部分:相关分析
一、相关的含义与种类
(一)相关的含义
相关是指自然与社会现象等客观现象数量关系的一种表现.
相关关系是指现象之间确实存在的一定的联系,但数量关系表现为不严格相互依存关系.即对一个变量或几个变量定一定值时,另一变量值表现为在一定范围内随机波动,具有非确定性.如:产品销售收入与广告费用之间的关系.
(二)相关的种类
1. 根据自变量的多少划分,可分为单相关和复相关
2. 根据相关关系的方向划分,可分为正相关和负相关
3. 根据变量间相互关系的表现形式划分,线性相关和非线性相关
4.根据相关关系的程度划分,可分为不相关、完全相关和不完全相关
二、相关分析的意义与内容
(一)相关分析的意义
相关分析是研究变量之间关系的紧密程度,并用相关系数或指数来表示.其目的是揭示现象之间是否存在相关关系,确定相关关系的表现形式以及确定现象变量间相关关系的密切程度和方向.
(二)相关分析的内容
1. 明确客观事物之间是否存在相关关系
2. 确定相关关系的性质、方向与密切程度
三、直线相关的测定
(一)相关表与相关图
1. 相关表
在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上,以观察它们之间的相互关系,这种表就称为相关表.
2. 相关图
把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相关图.利用相关图和相关表,可以更直观、更形象地表现变量之间的相互关系.
(二)相关系数
1. 相关系数的含义与计算
相关系数是直线相关条件下说明两个变量之间相关关系密切程度的统计分析指标.相关系数的理论公式为:

(1) 协方差 x的标准差 y的标准差
(2) 协方差对相关系数 的影响,决定:
简化式

变形:分子分母同时除以 得
=
= =
= =
=
2. 相关系数的性质
(1) 取值范围: 1 -1 1
(2) =1 = 1 表明x与y之间存在着确定的函数关系.
(3) >0 表明两变量成正相关. <0 成负相关 =0 不相关
(4) 1 存在着一定的线性相关; 绝对值越大,相关程度越高.
<0.3 微弱相关, 0.3 <0.5 低度相关,
0.5 <0.8 显著相关, 0.8 <1 高度相关.
3. 相关系数运用的几点说明
(1)计算相关系数时,两个变量哪个作为自变量,哪个作为因变量,对于相关系数的值大小没有影响.
(2)相关系数指标只能用于直线相关程度的判断,当其数值很小甚至为0时只能说明变量之间直线相关程度很弱或者不存在直线相关关系,但不能就此判断变量之间不存在相关关系.
(3)对于相关系数的绝对值大与0.8时,变量之间存在高度线性相关关系,通常还需要进行相关系数的显著检验.
第二部分:回归分析
一、回归分析的意义
(一)回归分析的含义
对具有相关关系的两个或两个以上变量之间的数量变化的一般关系进行测定,确立一个相应的数学方程式,描述变量变动的相互关系,以便从一个已知量来推测另一个未知量,为估计预测值提供一个重要的方法.根据回归分析建立的数学方程称为回归方程(一元,多元,……)
(二)回归分析的种类
1. 按照自变量的个数:一元回归与多元回归
2. 按照回归的表现形式:线性回归与非线性回归
研究一个因变量与一个自变量之间的线性关系,称为一元线性回归或简单线性回归;研究一个因变量与多个自变量之间的线性关系,称为多元线性回归.
(三)一元线性回归的特点
1. 回归分析是研究两变量之间的因果关系,所以必须通过定性分析来确定哪个是自变量,哪个是因变量;相关分析则是两变量之间的关系,没有自变量和因变量之分.
2. 回归方程在进行预测估计时,只能给出自变量的数值求因变量的可能值.即只能由x推出y的估计值 ,而不能据 逆推x.
3. 线性回归方程中自变量的系数称为回归系数,回归系数为正,说明变量正相关,为负说明负相关
4. 回归分析对于因果关系不甚明确,或可以互为自变量的两个变量,可以求出y依据 的回归方程,还可求出 依据y的回归方程;而相关分析中两个变量的相关程度指标,相关系数是唯一的.
二、一元线性回归方程
(一)回归方程
一元线性回归方程是用来近似描述两个具有密切相关关系的变量之间变动关系的数学方程式.该方程在平面坐标系中表现为一条直线,回归分析中称为回归直线,即;

表示y的估计值,借以区别y的实际观察值;a表示直线的起点值,即纵轴截距;b表示斜率,即回归系数.
(二) (回归系数)与 (相关系数)
=
运用数学等量关系式,故有
1. 因为 均是正值,所以 的符号是一致的,所以我们可以通过回归系数 来确定 的符号,从而来判断相关的方向.
2. 的大小成正比例,所以还可以利用 来说明相关程度.
三、估计标准误与区间估计
(一)估计标准误
估计标准误就是实际值与估计值之间的偏差平均程度,用来说明回归方程代表性或推算结果的准确程度的分析指标计算公式如下:

是估计标准误,计算结果若 值越小,说明各个散点离回归直线越近,实际值与估计值的偏差越小,回归直线的代表性越高,估计越准确可靠;计算结果若 值越大,说明各个散点离回归直线越远,实际值与估计值的偏差越大,回归直线的代表性越低,估计准确性越差.
(二)区间估计
根据变量之间的线性关系,建立直线回归方程的目的,在于给定自变量的值来估计因变量的可能值,该估计值是理论值,与实际值之间存在差异,差异的一般水平用估计标准误来表示,因此可以对因变量的取值范围作区间估计,而不是只给一个估计值.
实际值通常以估计值为中心,上下在一定的区间范围内波动,在平面坐标图上各个散点总是围绕回归趋势直线上下在一定区间分布,如果成正态分布或近似正态分布,可以用正态分布的性质对实际值的分布范围(区间)进行可靠性估计.
四、应用回归分析中应注意的问题
(一)从严格意义上讲,根据已知的资料建立回归方程,应该对回归方程的参数的有效性进行显著性统计检验,以判断回归估计的有效性.
(二)利用回归直线进行估计预测时,如果所给定的自变量的值在样本观察值的区间范围内,其估计通常比较准确;如果所给定的自变量的值在样本观察值的区间范围之外,一般要求所给定的自变量值不宜偏离样本观察数据的平均值太远,否则预测就会不准确.
第三部分:相关分析与回归分析的联系与区别
  相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续.相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度.只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义.如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”.与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的.
  二者的区别主要体现在以下三个方面:
  1.相关分析主要通过相关系数来判断两个变量之间是否存在着相互关系及其关系的密切程度,其前提条件是两个变量都是随机变量,且变量之间不必区别自变量和因变量.而回归分析研究一个随机变量(Y)与另一个非随机变量(X)之间的相互关系,且变量之间必须区别自变量和因变量.
  2.相关系数只能观察变量间相关关系的密切程度和方向,不能估计推算具体数值.而回归分析可以根据回归方程,用自变量数值推算因变量的估计值.
3.互为因果关系的两个变量,可以拟合两个回归方程,且互相独立、不能互相替换.而相关系数却只有一个,即自变量与因变量互换相关系数不变.
  很重要的一点,变量之间是否存在“真实相关”,是由变量之间的内在联系所决定的.相关分析和回归分析只是定量分析的手段,通过相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无法判断变量之间的因果关系.因此,在具体应用过程中,一定要始终注意把定性分析和定量分析结合起来,在准确的定性分析的基础上展开定量分析.

重点调查概念:重点调查是指在调查对象中,只选择一部分重点单位进行调查,以了解基本情况的一种非全面调查方式。重点单位是指这些单位在全部总体中虽然数目不

有区别的