R软件在因子分析中的应用

阅读: 评论:0

R软件在因子分析中的应用
摘要:
本文主要叙述了R软件在多元统计分析中的因子分析中的应用。因子分析是一种常用的多元统计分析(即多指标的统计分析)方法,是一种化繁为简,将指标数尽可能压缩的降维(即空间压缩)技术,也是一种综合评价方法。本文通过举例,分析了主成分算法的原理,加上一些分析结果,体现了R软件自主灵活的特点,同时加深对因子分析思想的理解和掌握,并为解决实际问题奠定基础。1、概述
因子分析的思想始于1904年查尔斯. 斯皮尔曼对学生考试成绩的研究。它是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多元统计分析方法。根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就是公共因子。这些因子能够反映原来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关系。对于所研究的问题就可以试图用最少个数的不可测的公共因子的线性函数和特殊因子之和来描述原来观测的每一分量。
2、因子分析基本原理
湖南旅游必去的景点
设对于某个问题的研究涉及到p个指标,分别用X1,X2,X3…XP表示,这个指标构成的p维随机向量设为,对X进行线性变换,可以通过线性组合的方式形成新的综合变量,这里用C表示。新的综合变量和原来变量之间的关系可以用下面的公式表示:
C1=u
11X1+u
12
X2+⋯+u
p
1
XP
C2=u
西安未来30天天气预报
21X1+u
22
X2+⋯+u
p
2
XP
CP=u
1p X1+u
2p
X2+⋯+u
pp
XP
上式中的线性组合可以是任意的,由不同的线性变换得到的综合变量的统计特征也是不一样的。为了使综合变量可以较好的描述原变量的特征,应该要让Ct=ut,X的方差尽可能的大,并且Ci之间相互独立。为此,上式要满足以下的约束:
(1)u2
1i +u2
怎么在58同城发布招聘信息2i
+⋯u2
ip
=1(i=1,2,3,…,p);
m
λλλλλλ...21mCm ...2C21C1+++++    (2)Ci 和Cj 互不相关( (i ≠j ;i ,j=1,2,3,…,p));
(3)C1是X1,X2,X3,…,Xp 所有满足约束1)的线性组合中方差最大的,C2 是线性组合中方差第二大的,其他的依次类推。
以上三条约束确定X1,X2,X3,…,XP 分别被称为原始变量的第一,第二,…,第p 个因子。各因子对变量的总方差贡献的大小不同,在实际的研究过程中,一般挑选前面几个方差最大的因子(累积方差贡献率在80%到90%之间)来分析问题,从而达到降低问题复杂程度,抓住主要矛盾的目的。
3、因子分析过程
一般而言,用因子方法对问题进行分析时,主要包含以下的基本过程:    (1)为了消除不同变量在数量级和量纲上的差异,将收集的原始数据进行标准化;尼山圣境一日游攻略
(2)求标准化后数据的相关矩阵;    (3)求相关矩阵的特征值和特征向量;
(4)根据特征值计算方差贡献率与累积方差贡献率,根据前几个主成分累积方差贡献率大于80%的原则,确定主成分为C1,C2,…,Cm ;
(5)构建综合评价函数,其数学形式为:C=
(6)根据综合评价函数计算总得分,然后排序并评价。
4、R 软件在因子分析中的应用
如何客观、准确地评价企业经营业绩的问题是多年来一直未能很好解决的
问题,由于企业的经营业绩是多因素共同作用的结果,其众多的财务指标为分析上市公司经营业绩提供了丰富的信息,但同时也增加了问题分析的复杂性。由于各指标之间存在着一定的相关关系,因此可以用因子分析方法,将较少的综合指标分别综合存在于各单独指标中的信息,而综合指标之间彼此不相关,即各综合指标代表的信息不重叠,代表各类信息的综合指标即为因子。本例以上市公司中的水泥行业为例,研究因子分析方法在公司经营业绩评价分析中的应用。    为了说明R 软件和是如何应用于因子分析中的,本文选取行业上市公司14家,分析其主营业务利润率(X1)、销售毛利润(X2)、速动比率(X3)、资产负债率(X4)、主营业务增长率(X5)、营业利润增长率(X6)。数据如下:            14家水泥上市公司经营业绩六项指标数据
公司 X1 X2 X3 X4 X5 X6 海螺股份 36.29 36.96 0.27 58.31 70.85 117.59 冀东水泥 33.8
34.75 0.67 59.77 15.49 16.35
福建水泥34.51 35.44 0.38 61.61 23.91 -163.99
祁连山33.31 34.3    1.17 45.8 12.18 39.46
华新水泥25.08 26.12 0.64 69.35 22.38 -10.2
太行股份30.45 31.13    1.02 46.14    6.57 -16.59
四川金顶28.74 29.4 0.6 65.46 -33.97 -55.02
西水股份20.84 21.17    1.08 48.45 65.09 54.81
四川双马22.86 23.47 0.61 42.8 35.48 -49.22
天鹅股份25.52 26.73    1.1 47.02 -4.51 -68.79
尖峰集团16.94 17.26 0.61 52.04 9.03 -94.05
牡丹江19.05 19.95    1 48.51 -12.32 -65.99
大同水泥27.54 28.04    2.36 35.29 -20.96 -46.45
狮头股份28.14 28.84    2.51 24.52 -6.43 -15.94
用数据框的形式输入数据,用princomp()作主成分分析,由前面的分析,选择相关矩阵作因子更合理。
因此,这里选择的参数是cor=TRUE。最后用summary()列出因子分析的值,这里选择loadings=TRUE。以下是数据输入相应的程序:
>cement=data.frame(
x1=c(36.29,33.8,34.51,33.31,25.08,30.45,28.74,20.84,22.86,25.52,1 6.94,19.05,27.54,28.14),
x2=c36.96,34.75,35.44,34.3,26.12,31.13,29.4,21.17,23.47,26.73,17. 26,19.95,28.04,28.84),
x3=c(0.27,0.67,0.38,1.17,0.64,1.02,0.6,1.08,0.61,1.1,0.61,1,2.36, 2.51),
x4=c(58.31,59.77,61.61,45.8,69.35,46.14,65.46,48.45,42.8,47.02,52 .04,48.51,35.29,24.52),
x5=c(70.85,15.49,23.91,12.18,22.38,6.57,-33.97,65.09,35.48,-4.51, 9.03,-12.32,-20.96,-6.43),
x6=c(117.59,16.35,-163.99,39.46,-10.2,-16.59,-55.02,54.81,-49.22, -68.79,-94.05,-65.99,-46.45,-15.94))
(1)在R软件中输入代码,对数据进行标准化:
>sd=scale(cement)
>sd
得到的结果:(标准化后的变量值)
(2)在R软件中输入代码,进行因子分析:
>cement=sd
>cement.pr <- princomp(cement, cor = TRUE)
>summary(cement.pr, loadings=TRUE)
>cement
得到因子分析的结果:
第一因子的贡献率为41.6%,第二个因子的贡献率为28.9%,第三因子的贡献率为21.3%。前三个因子的积累贡献率为91.9%,基本上能全面地反映六项财务指标的信息。所以我们提取前三个因子作为公因子,另三个因子可舍去,达到降维的目的。
(3)在R软件中输入代码,做碎石图:
>screeplot(pca,type="lines")
中国四大古镇排名
得到结果:
北戴河旅馆预订横坐标为因子数目,纵坐标为特征根。可以看出:
由碎石图可知,第一个因子的特征根值很高,对解释原有变量的贡献最大;第四个以后的因子特征值都较小,对解释原有的贡献很小,已经成为可被忽略的“高山脚下的碎石”,因此提取三个因子是合适。
(4)在R软件中输入代码,求相关矩阵、求相关矩阵的特征值和特征向量、输出特征值:
>dcor=cor(cement)
>deig=eigen(dcor)
>deig$values
>dcor
>deig
得到的结果:

本文发布于:2023-08-21 15:12:35,感谢您对本站的认可!

本文链接:http://www.035400.com/whly/3/590514.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:变量   因子   综合   分析   问题   指标   信息   评价
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2024-2030 Comsenz Inc.Powered by © 文化旅游网 滇ICP备2022007236号-403 联系QQ:1103060800网站地图