您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页多元统计分析方法在学生成绩评价中的应用

多元统计分析方法在学生成绩评价中的应用

来源:保捱科技网
安徽工程大学毕业设计(论文)

多元统计分析方法在学生成绩评价中的应用

摘 要

多元统计分析是统计学中迅速发展起来的一个重要分支,已经被广泛地应用到经济、金融、医药、卫生等领域,而其在教育教学中的应用仍处于起步阶段,却已被证实效果良好。学生成绩评价的含义,通常是指学校根据一定的标准,即以教学大纲、教学中的准则为标准,对教学过程中学生所产生或者即将产生的思想、学业、行动和个性等方面的变化,或者变化的发展趋势,做出恰如其人的估价。 本文研究以多元统计分析为基本的理论基础,研究主成分分析方法和因子分析方法以及之间的密切联系,对学生成绩进行因子分析及主成分分析,同时指出因子分析方法在选取因子时的相应规则以及因子分析在学生的综合素质评价中的应用,即通过收集到的相关数据,对学生的成绩进行因子分析,进而对学生进行综合评价以及大学期间课程设置的合理性和不同类型的学生的不同特征并对其就业进行具体指导。也阐述了用SPSS进行聚类分析时要注意的问题。对学生成绩进行实证统计分析,并给出了综合评价的有效方法。结论将对科学高效地开展学生成绩综合评定,深层次的挖掘学生的潜在能力,指导毕业生考研升学及就业,开展教育教学研究,提高教学管理部门工作质量、效率提有力支持,同时作为高校教师应该掌握这种科学的管理方法,从多方面来指导自己的教育教学工作,掌握了多元统计分析方法具有切实可行的指导意义,能使高校教师的各项工作达到科学化水平。运用多元统计分析方法,它直接从实际出发,以我院统计学学生4年主要课程的成绩为数据来源,考察分析数据的内在联系和特征,从中提取主要而准确的信息,能帮助我们正确认识事物客观存在的统计规律。

关键词:学生成绩;主成分;因子分析

- 1 -

汤波:多元统计分析方法在学生成绩评价中的应用

Abstract

Multivariate statistical analysis is a statistical quickly developed an important branch, has been widely applied to economics, finance, medicine, health and other fields, and its application in education is still in its infancy, it has already been shown to good effect . Evaluation of student achievement meaning, usually refers to schools according to certain criteria, that is, syllabus, teaching guidelines as the standard for the process of teaching students to be incurred arising from or ideological, academic, and other aspects of operations and changes in personality, or changing trends, people make just as its valuation .

In this study, multivariate statistical analysis of the theoretical basis for the fundamental study of principal component analysis and factor analysis methods as well as the close link between the student achievement factor analysis and principal component analysis, factor analysis also pointed out that when you factor in the selection of the appropriate rules, and factor analysis in students' comprehensive quality evaluation, ie by collecting the relevant data on student achievement for factor analysis, and then a comprehensive evaluation of the students and university curricula during the rationality and the different types of students different characteristics and on their employment for specific guidance. Also describes the cluster analysis using SPSS should pay attention to. On student achievement empirical statistical analysis, and gives a comprehensive evaluation of the effective ways. Conclusions will carry out scientific and efficient assessment of student achievement comprehensive, in-depth mining potential ability of students, graduates PubMed studies and career guidance, conducting educational research, teaching management departments to improve the quality, efficiency mention strong support, but as a college teacher should master the scientific management methods from the fields to guide their teaching work, to grasp the multivariate statistical analysis method has practical significance, the work of university teachers to make up the scientific level. The use of multivariate statistical analysis, it is directly from reality, in my hospital was the main course of the four-year student achievement as a data source, investigation and analysis of data and characteristics of internal relations, mainly extracted and accurate information that can help us to correctly understand things objectively existing statistical law.

Key words: Factor Analysis; Cluster Analysis; College Teaching; SPSS Software; Application

- 2 -

安徽工程大学毕业设计(论文)

目录

第一章 学生成绩评价的简介 ................................................ 5 1.1学生成绩评价的现状 .................................................. 5 1.2 学生成绩评价的概念 .................................................. 6 1.3学生成绩评价的重要性 ................................................ 6 1.4对学生成绩评价的作用 ................................................ 6 1.5 研究现状 ............................................................ 7 第二章 多元统计分析方法简介 .............................................................................................. 8 2.1 主成分分析 .......................................................... 8 2.1.1、主成分分析的基本思想 ........................................... 8 2.1.2、主成份分析的几何意义 ........................................... 9 2.1.3、主成分的求解 .................................................. 10 2.2 因子分析 ........................................................... 11 2.2.1、因子分析的思想 ................................................ 11 3.2.2、因子分析的模型 ................................................ 12 3.2.3、因子载荷的求解 ................................................ 14 3.2.4、因子旋转 ...................................................... 16 3.2.5、因子得分 ...................................................... 17 3.2.6、因子分析的步骤 ................................................ 17 2.3 聚类分析 ........................................................... 17 3.3.1 聚类分析的方法 ................................................. 18 3.3.2 聚类分析的步骤 ................................................. 19 第三章 实例分析 .................................................................................................................. 19 3.1资料来源 ........................................................... 19 3.2主成分分析 ......................................................... 20 3.2.1 spss操作步骤 .................................................. 20 3.2.2 主成分系数求解 ................................................ 22 3.3 因子分析 ........................................................... 24 3.4 聚类分析 ........................................................... 36 3.4.1 spss操作步骤: ................................................ 36 结论与展望 .............................................................................................................................. 39 参考文献 .................................................................................................................................. 40 致 谢 ...................................................................................................................................... 41

- 3 -

汤波:多元统计分析方法在学生成绩评价中的应用

引言

多元统计分析的理论是最近发展起来的理论学科,人们对它的研究还很不善有 很多新的统计分析方法还没有得到人们的重视,虽然有的统计方法在理论上得到认可,但是在实际应用中不是很广泛.多元统计分析在经济、金融、医药等领域应用比较广泛,但是在教育教学上的应用却受到了.尤其是一些普通教师没有真正认识到它的有用性,这种想法是不可取的.多元统计分析在教育领域没有得到很好的应用,主要原因是进行教育教学研究的学者对统计理论掌握的不深,不知道统计结果在教育教学上说明什么;另一方面,对数据有一种恐惧感,尤其是对大量的原始数据不会处理;再就是对计算机的使用有一定的障碍,即不会使用统计软件等.基于以上原因,本文就是想利用多元统计分析软件一SPSS,对所涉及到的高等院校的各个领域进行探讨,每个领域都要用到多元统计分析方法对数据进行处理,通过统计分析得到的结论去指导学生成绩的评价,同时也给老师和职能部门进行决策提供理论依据.

本文旨在把多元统计分析在学生成绩评价的应用进行系统化、具体化,首先介绍多元统计分析的几种常用的方法,在阐述方法的同时注重这些方法之间的密切联系;进而说明这些方法在应用时要注意的问题,尤其是因子分析方法在应用时涉及到因子个数的选取问题,本文结合实际例子来加以论证.其中通过对数据进行两次统计分析结说明 因子分析在具体问题的处理上应如何选取因子个数的问题.其次是根据大学生的各科成绩利用因子分析方法来对大学生的综合素质进行评价,在评价的同时论证了高等师范院 校在大学期间所开设的课程的合理性;利用因子分析的方法对大学生的成绩进行分类,根据分类的结果对大学生的就业进行具体指导等等.这里主要是针对高校教学而言,利用多种多元统计分析方法对数据进行不同的分析,根据不同的分析结果可以指导高校教师做很多细致的工作.

本文在教育教学上有非常好的应用价值,给高校教师对学生的成绩进行综合评价提供了一种科学、合理的方法.高校教师掌握了这种评价方法,使自己的教育教学工作更加具有科学性、合理性和针对性.。

- 4 -

安徽工程大学毕业设计(论文)

第1章 学生成绩评价的简介

1.1学生成绩评价的现状

校教育的宗旨是为国家培养高素质的人才,学生成绩的评定要有一定的质量要求,需要定期考核学生在德、智、体诸方面的发展与进步。它是教育领域必须解决的一个问题,一直受到社会学家、心理学家和教育研究者的关注,是当今世界教育十大变革内容之一,严重影响儿童、年轻人、特别是在校学生的成长。全面的学生成绩评定系统可以促进同学们在生理、心理、文化等方面的进步,提高学习效率,可以培养他们积极的学习心态,树立正确的世界观、人生观、价值观、道德观。其评价结果既能反馈教师的教学效果,起到诊断、调节和强化的作用;又能反馈学生的学业进展,起到激发学习积极性,增强自信心,萌发学习成功的感受等效应,促使学生整体素质的提高。反之,如果学生成绩评定系统落后或不全面,必将影响学生的学习生活,影响身心健康全面地发展。

目前在高等学校教学管理中,学生考试成绩是评价教学质量的重要指标之一。然后一般情况下,教学管理部门进行学生成绩统计无外乎计算总分、平均分、及格率、优秀率等, 然后通过总分或平均分对学生进行排名。 这种评价方法简便易行,指标能够在一定程度上反映出教师的教学水平和学生的学习状况;但是, 其不全面性和主观性显而易见。而且在高校日常学生管理中,评定各类奖学金、保送研究生、向用人单位推荐优秀毕业生等等,都需要从各方面评价学生成绩。如果仅仅以学生成绩的总分或平均分作为依据,已经远远不能适应当今社会的需要。探索出科学高效的成绩综合评价方法就显得尤为重要。

现在高等学校中比较常见的用于评价学生奖学金的获得与否, 常常仅仅根据学生成绩的好坏(平均积点分) 来评定并定等级, 这样做的一个弊端就是把成绩的好坏作为衡量学生综合素质的唯一指标, 而高校里的其它评优都以此为标准, 结果造成这样一个事实: 大学里只要成绩好就行。然而, 大学里影响学生综合素质的因素不仅仅这些, 还有诸如: 英语四六级、国家计算机、等级考试、数学建模竞赛、课外学术活动、发表论文、全国大学生英语竞赛、数学竞赛等反映学生智育水平的指标; 热爱集体、乐于助人、积极参与活动、不迟到、不早退等体现学生个人生祸作风的指标; 积极向上,锐意进取,自强,自立等体现学生个人思想作风的指标等等, 而如果要考虑学生这些方面的表现比较常见的方法则是根据下文给出的学生的综合测评分来定等级,但目前很多学者认为已有的这两种方法都带有一定的局限性, 都不能公正公平的评价大学生的综合素质,因为平均积点分高低反映的仅仅是学生学习成绩的好坏, 仅仅是学生学习刻苦的程度, 对于大学生来说, 仅仅成绩好是不够的, 更重要的是要具备良好的思想道德品质,而综合测评总分的计算方法是学生自评互评,班级考评和班主任考评的加权平均加上德育和智育分, 它反映的是班级所有同学对该生的综合评价, 涉及到该生的为人,性格,成绩等各方面的因素, 但是带有一定的主观性。

- 5 -

汤波:多元统计分析方法在学生成绩评价中的应用

1.2 学生成绩评价的概念

在学校教育中,考试与教学是不可分割的,考试本身也是一种教学活动。学生对待学习,既有一定的自觉性,也存在一定的惰性。没有考试的教学很难保证稳定、正常的教学秩序和水平的提高,就是不完整的教学。各级各类学校重视使用考试手段来检测和监控教育质量、规范和引导教师的教学行为,对督促学生积极努力地学习、培养他们分析问题和解决问题的能力有着非常重要的作用。因此考试成绩即学生的原始成绩是最能体现学生学习情况的有力因素。

学生成绩评价从狭义是指对一个学生在某一阶段(一学期或某一学年)的原始成绩进行等级式的划分。从广义上指德智体综合测评,体现出知识教育与素质教育的内在有机联系。显然,成绩评价具有评估、定位和引导等作用。所谓的评估作用,就是通过对学生进行各种各样的量化考核,获得成绩,从而得知学生在校学习的好坏程度。当然,在一定程度上也是对有关教职员工的教学和管理水平的评价。成绩评估的定位作用,是指借助对学生的成绩评估,反映出学校的办学条件、办学状态、办学效果、人才培养质量与模式等。成绩评估的引导作用,是指通过对学生进行考核,引导学生掌握怎样的知识结构和向什么方向发展。因此,从表面上来着,学生的成绩考核是针对学生而言的,实质上它具有双重性,应引起全体师生的重视。成绩评价是手段,好好学习是目的。而对于阶段性的评价,比如我们可以从期中阶段的成绩,经过分析评价得到一些对期末阶段甚至以后都有用的信息。 1.3学生成绩评价的重要性

作为一个高等院校,它的根本任务是通过教学和教育工作来培养高层次人才,所以教学工作始终是学校的中心工作。高等教育的重点和关键是提高整个教育质量,而学生成绩恰是评估教学质量的重要依据,也是学生是否掌握好所学知识的重要凭证。所以对学生成绩进行分析评价有着重要的意义,并可以把获取的信息反馈到教学研究工作中去。只有很好地利用了这些信息,才能准确的了解整个教学工作,并有效的提高教学质量。因此对考试结果的数据进行挖掘的意义是非常大的,可以科学的评价教学质量,挖掘隐藏在学生考试成绩中的有用的信息,并统计分析评价结果,得出一组相对考评的数据,针对薄弱的学科做出相应的策略,从而提高学生的总体成绩,为提高教学质量提供重要的依据。

1.4对学生成绩评价的作用

考试成绩是对学生学业的检查和评定,是从一个侧面对学校培养专门人才的质量检验,通过对学生的学习成绩进行分析处理,可以及时得到学生的评价结果,对学生出现的某些学科成绩偏低,及时做出补救的措施。成绩作为考试的结果,不仅是对学生学业和教师教学效果的检查和评定,进而激励学生学习及教师工作;更是一种信息,具有反馈于教学活动、服务于教育决策、为教育科研提供资料等作用。通过对考试成绩的正确分析,对学生成绩进行聚类挖掘,找出某些学生共同特征,分析某些学生相对薄弱的学科成绩,引起学生和老师针对性的加强,更科学的提高学生的学习成绩。所以教学部门对考试成绩进行聚类挖掘和统计分析是不可缺少的,且是非常必要的。根据以上的介绍,

- 6 -

安徽工程大学毕业设计(论文)

可以总结出考试成绩具有以下几项主要功能:

a.确定学生的学业成就在一个群体中所处的相对位置及确定学 生达到的学业水平与教育目标所规定的学业标准之间的差距; b.为教学管理提供信息和依据; c.为教学工作提供反馈信息。

1.5 研究现状

多元统计分析己广泛地应用到社会科学和自然科学的许多领域中。特别是在经济、金融、医药等领域应用比较广泛,但是关于多元统计分析在高校教学中的应用,前人作了很多工作.但是他们所阐述的都是具体针对某一方面的应用,只解决了某一方面的问题,在利用多元统计方法上也受到了某种局限性,大部分文献所利用的多元统计方法都是单一的,没有多种方法结合起来应用,使得在研究过程中得出的结论说理性不强;在进行统计分析时所利用的统计软件版本比较老,给分析带来了,如果用最新版本的软件可能得到更多的统计信息;文献中所得到的分析结果没有得到很好的解释和说明.另外,文献中出现了两个极端,一但是在教育教学上的应用却受到了一定的。尤其是一些普通高校教师在教学管理上很少应用,以至于影响了他们的工作效率。利用社会科学统计软件包一SPSS,对高等师范院校教师所涉及到的各个领域进行探讨,能使高校教师的教学工作有的放矢。成绩作为考试的结果,不仅是对学生学业和教师教学效果的检验和评定,具有激励学生学习及教师工作,更是一种信息,具有反馈教学活动、服务于教育决策、为教育科研提供资料等作用。为充分发挥考试的效能,综合评价考试质量,及时反馈教学效果,沟通教学信息,教学部门对考试成绩进行统计分析和总结是非常必要的。

学生的个性特征和群体分类特征是学生管理工作中非常重要的信息,尤其是毕业生,需要对他们做出综合评价,以向用人单位提供学生的各方面特征信息。目前,对学生综合评价的一般模型主要有平均分模型、平均学分积模型等。另外,多元统计分析中的主成分分析、因子分析等也是很好的综合评价方法,但大多数大学或院系都是用前两种模型即平均成绩、平均学分积模型作为评价学生的定量依据。用这两种方法比较简单,但有缺点,掩盖了学生的个性,不能反映学生各方面的特点,也反映不出学生的专业能力,对学生作全面的综合评价来说不是很理想。因此,本文着重突出因子分析方法,力求通过成绩给学生一个相对完美的评价。目前对大学生成绩评定方法的研究取得了很大的进展(文献[2]),主要成果有:比例制、考查制、学分制、德育考评制度等。大学生四年学习成绩是大学四年学习生活的记录,这些记录基本反映了该生四年的学习情况,但在高校学生管理中,经常需要从各方面评价学生的成绩,如评奖学金、向用人单位推荐分配学生等,都需要从各方面评价学生成绩,多元统计分析方法已有应用( 介绍多元统计分析的一些基本理论、研究方法。

- 7 -

汤波:多元统计分析方法在学生成绩评价中的应用

第2章 多元统计分析方法简介

多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用。简称多元分析。 多元统计方法可以应用于学生成绩评价的方法很多,本文主要介绍其中的聚类分析、主成分分析和因子分析三种方法。 2.1 主成分分析

主成分分析也称主分量分析,由霍特林(Hotelling )于1933年提出。主成分分析是利用降维的思想,在损失少量信息的前提下,把多个指标转化为少数几个综合指标的多元统计方法。通常把转化得到的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。在实际问题研究中,为了全面、系统地分析问题,通常要考虑影响该问题的多方面的因素,称这些因素为指标。因为每个指标都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此可能会有一定的相关性,因而原始指标所反映的信息会彼此有一定程度的重复。在统计分析多指标问题时,往往因为指标太多而增加了问题研究的复杂程度,因此在现实问题研究中,希望能通过较少的指标反映较多的信息量。主成分分析通过降维可以简化指标,使问题变的相对简单,降低了问题的分析难度,对研究实际问题有着重要意义。 2.1.1 主成分分析的基本思想

主成分分析的基本思想是:将原来的指标做线性组合,依次按照方差最大选取前几个最能反映原来指标的综合指标,分别定义为第一主成分、第二主成分、第三主成分……。这些主成分间不仅不相关,而且方差依次递减。虽然这样做会损失一些信息,但由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在实际问题研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。在对某一事物进行实证研究时,为了更全面、准确地反映事物特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,另一方面考虑指标的增多而增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地千万信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在宣研究中波及的变量较少,而得到的信息量双较多。主成分分析法就是把给定的一组相关指标通过线性变换转成另一组不相关的指标,转换后的新指标按照方差递减的顺序依次排列。但在变换中保持指标的总方差不变,使得变换后的第一指标具有最大的方差,称之为第一主成分,第二指标的方差次大,并且和第一指标不相关,称为第二主成分。依次类推,有i个指标就有i个主

- 8 -

安徽工程大学毕业设计(论文)

成分。

2.1.2 主成份分析的几何意义

在实际问题研究中,为了降低分析的难度,提高分析效率,通常不直接对原始指标(p个)构成的的p维随机向量X(X1,X2,,Xp)'进行分析,而是先对向量X进行线性变换,把原来的的p维随机向量变换成新的综合变量Y1,Y2,,Yp,其中变量

Y1,Y2,,Yp的方差依次递减,且变量Y1,Y2,,Yp之间相互,这样,在以损失

很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。

,X2 ,X2 假设有N个样本,每个样本都有两个观测值X1,这样,在由变量X1组成的坐

标空间中,N个样品散布的情况如带状。见图2-1.

X2  Y2 Y1 X1

图2-1

 从图2-1可以看出,这N个样品无论沿X1轴方向还是沿X2轴方向,均有圈套的离散性,  其离散程度可以分别用变量X1的方差和X2的方差定量地表示。显然,若只考虑X1和X2

中的任何一个,原始数据中的信息均会有较大的损失。因此,考虑通过线性变换,将

X1,X2 进行线性组合成两个新的变量Y1,Y2。在几何上表示就是将体协同按逆时针方

向旋转角度,得到新坐标轴Y1和Y2,坐标旋转公式如下:

- 9 -

汤波:多元统计分析方法在学生成绩评价中的应用

Y=X1cos+X2sin1Y=-X21sin+X2cos (2.1.1)

其矩阵形式为:

YXcossin11= Y-sincosX 22=UX (2.1.2)

1U'U,U'UI 式中,U为旋转变换矩阵,由上式可知它是正交阵,即满足

经过这样的旋转之后,N个样品点在Y1轴上的离散程度最大,变量Y1代表了原始数据绝大部分信息,这样,有时在研究问题时,即使不考虑变量Y2也无损大局,从而达到降维的目的。

2.1.3 主成分的求解

设矩阵A'A,将A特征值1,2,,n依大小顺序排列,不妨设12n,

1,2,,p为矩阵A各特征值对应的标准正交特征向量,则对任意向量x,有

x'Axx'Axmax1,minn (2.1.3)

x0x0x'xx'x12设随机向量X(X1,X2,,Xp)'的协方差矩阵为 ,

p为 的特征值,

1,2,,p为矩阵A各特征值对应的标准正交特征向量,则第i个主成分为:

Yi1iX12iX2此时

piXp (2.1.4)

var(Yi)i'icov(Yi,Yj)i'令P=(1,2,j0,ij (2.1.5)

,p),=diag(1,2,,p)。

由以上绪论,我们把

X1,X2,,Xp的协方差矩阵 的非零特征值

12p0对应的标准化特征向量1,2,,p分别作为系数向量,

- 10 -

安徽工程大学毕业设计(论文)

Y11'X,Y22'X,,Ypp'X分别称为随机向量X的第一主成分、第二主成分

第p主成分。Y的分量Y1,Y2,,Yp依次是X的第一主成分、第二主成分p主成分的充分必要条件是:

(1)YP'X,即P为p阶正交阵;

(2)Y的分量之间互不相关,即D(Y)=diag(1,2,(3)Y的p个分量是按方差由大到小排列,即12,p);

p。

在实际问题中,研究多指标问题是经常遇到的,然而在多数情况下,不同指标之间具有一定相关性。由于指标较多再加上指标间有一定的相关性,势必增加了分析问题的复杂性。主成分分析则是数学上处理降维的一种方法。

主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。

2.2 因子分析

因子分析模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相比主成分分析,因子分析更倾向于描述原始变量之间的子分析的出发点是原始变量的相关矩阵。因子分析的思想最早是1904年由英国心理学家年查尔斯·斯皮尔曼(Charles Spearman)提出的。 2.2.1 因子分析的思想

因子分析的基本思想是根据原始变量相关性的大小,把原始变量分组,使得同组内的变量相关性较高,不同组之间的变量相关性较低。每组变量代表一个基本结构,并用一个不可观测的综合变量来表示,称这个基本结构为公共因子。对于所研究的一个具体的问题,原始变量可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品价格做全面固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类商品中很多商品的价格之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而是对这几种主商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这里,商品的物价就是提取出来的因子。这样,对种类商品物价或公对主要类别商品的物价进行类似分析然后加以综合,就可以反映出物价的整体变动情况。这一过程也就是从一些有错综复杂关系的经济现象中找出少数几个主要因子,每一个主要因子代表经济是相互依赖的一种经济作用。抓住这些主要因子就可以帮助我们对复杂的经济问题进行分析和解释。

因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,可以

- 11 -

汤波:多元统计分析方法在学生成绩评价中的应用

把原始变量的数据代入表达式得出因子复仇值,根据因子复仇在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。

因子分析不公可以用来研究变量之间的相关关系,还可以用来研究样品这间的相关关系,通常将前者称为R型因子分析,后者称为Q型因子分析。 因子分析有如下特点。

(1)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。

(2)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。

3)因子变量之间不存在线性相关关系,对变量的分析比较方便。

(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

2.2.2 因子分析的模型

假设有n个样品,每个样品有p个指标,这p个指标之间有较强的相关性。为了便于研究,并消除由于观测量纲的差异及数量级不同所千万的影响,将样本观测数据进行标准化处理,合标准化后的变量均值为0,方差为1。为方便,把原始变量及标准化后的变量向量均用X表示,用F1,F2,…,Fm(mp)表示标准化的公共因子。如果:

(1)X(X1,X2,…,Xp)'是可观测随机向量,县城均值向量E(X)=0,协方差矩阵cov(X)=∑,且协方差矩阵∑与相关阵列R相等;

(2)F(F1,F2,(3)方阵

211cov()E0,Fm)'(mp)是不可观测的变量,其均值向量E(F)=0,协方差

矩阵cov(F)=I,即向量F的各分量是相互的;

(1,2,…,p)'与F相互,且E()=0,的协方差阵E是对角

0 (2.1) 2pp222即的各分量之间也是相互的,则模型

X1a11F1a12F2XaFaF2211222Xpap1F1ap2F2a1mFm1a2mFm2 (2.2)

apmFmp- 12 -

安徽工程大学毕业设计(论文)

称为因子模型。模型(2.1)的矩阵形式为:X=AF+ (2.3)

a11a12aa2221A其中 ap1ap2a1ma2m apm称A为因子载荷矩阵,称aij为因子载荷,表示第i变量在第j因子上载荷,aij的绝对值越大,表明变量Xi与因子Fj的依赖性越大,也可说因子Fj对变量Xi的载荷越大 为了更好地理解因子分析方法,有必要讨论一下载荷矩阵A的统计意义以及公共因

子与原始变量之间的关系。

(1)因子载荷aij的统计意义。由模型(2.1)

cov(Xi,Fj)cov(aijFji,Fj)cov(aijFj,Fj)cov(i,,Fj)aij

j1j1mm即aij是Xi与Fj的协方差,而注意到,Xi与Fj(i=1,2,…,p;j=1,2,…,m)都是均值为0,方左为1的变量,因此,aij同时也是Xi与Fj的相关系数。

(2)变量共同度与剩余方差。 称ai1ai22222aim为变量Xi的共同度,记为hi(i1,2,,p)。同因子分析模

型的假设前提,易得var(Xi)1hi2var(i) 记var(i)i2,则

var(Xi)1hi2i2 (2.4)

上式表明共同度hi2与剩余方差i2有互补的关系,hi2越大表明Xi对公共因子的依赖程度越大,公共因子能解释Xi方差的比例越大,因子分析的效果也就越好。

(3) 公共因子Fj的方差贡献。

考虑某一个公共因子Fj与所有原始变量X1,X2,…,Xp的关系。

22记g2ja1ja2ja2,2,pj(j1,m),则g2j表示的是公共因子Fj对于X的每一分

量Xi(i=1,2,…,p)所提供的方差的总和,称为公共因子Fj对原始变量向量X的方差贡献,它是衡量公共因子相对重要性的指标。g2j越大,表明公共因子Fj对X的贡献

- 13 -

汤波:多元统计分析方法在学生成绩评价中的应用

越大,或者说对X的影响和作用就越大。如果将因子载荷矩阵A的所有g2j(j=1,2,…,m)都计算出来,并按其大小排序,就可以依此提炼出最有影响的公共因子。 2.2.3 因子载荷的求解

因子载荷求解的方法有很多,如主成分法、主轴因子法、最小二乘法、极大似然法、因子提取法等。这些方法求解因子载荷的出发点不同,所得的结果也不完全相同。

(1) 主成分法

假定从相关阵出发求解主成分,设有p个变量,则可以找出p个主成分。将所得的p个主成分按由大到小的顺序排列,记为Y1,Y2,,Yp,则主成分与原始变量之间存在如下关系式:

Y111X112X21pXpYXXX22112222pp (2.5) Ypp1X1p2X2ppXp式中,ij为随机向量X的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X到Y的转换关系是可逆的,很容易得出由Y到X的转换关系为:

X111Y121Y2p1YpXYYY2121222p2p Xp1pY12pY2ppYp对上面每一等式只保留前m个主成分而把后面的部分用i代替,则可转化为:

X111Y121Y2XYY2121222Xp1pY12pY2m1Ym1m2Ym2 (2.6)

mmYmp,m)之间相互

式(2.3)在形式上已经与因子模型(2.1)相一致,并且Yi(i1,2,- 14 -

安徽工程大学毕业设计(论文)

,Yi与i之间相互。为了把Yi转化成合适的公共因子,现在要做的工作只是把主成分Yi 变成方差为1的变量。为完成此变换,必须将Yi除以其标准差。

于是,另FiYii,aijjji,则上式变为:

a1mFm1a2mFm2 (2.7)

X1a11F1a12F2XaFaF2211222Xpap1F1ap2F2apmFmp这与因子模型(2.1)完全一致,这样,就得到了载荷矩阵A和一组未旋转的初始

公共因子。

一般设121,2,,p为对应的标准正交p为样本相关阵R的特征根,

化特征向量。设mˆ(t,t,A1122共同度的估计为:

22ˆ2aˆˆhaii1i2,mtm)

2ˆima (2.8)

(2)主轴因子法

假定m个公共因子只能解释原始变量的部分方差,利用公共因子方差(或共同度)来代替相关矩阵主对角线上的元素1,并以新得到的这个矩阵(称为调整相关矩阵)为出发点,对其分别求解特征根与特征向量,从而得到因子解。

在因子模型(2.1)中,得到如下关于X的相关矩阵R的关系式:

RAA'

式中,A为因子载荷矩阵;为对角阵,其对角元素为相应特殊因子的方差。则称

R*RAA'为调整相关矩阵,显然R*的主对角元素不再是1,而是共同度hi2。分

别求解R*的特征值与标准正交特征向量,进而求出因子载荷矩阵A。此时,R*有m个正

*的特征值。设1*2***m,,m为R*的特征根,1*,2为对应的标准正交化特征

向量。m- 15 -

汤波:多元统计分析方法在学生成绩评价中的应用

ˆ(**,**,A1221**,mm)

以上分析是以首先得到调整相关矩阵R*为基础的,而实际,R*与共同度(或相对的剩余方差)都是未知的,需要先进行估计。一般先给出一个初始估计,然后估计出载

荷矩阵A,再给出较好的共同度或剩余方差的估计。

(3)极大似然法

如果假定公共因子F和特殊因子服从正太分布,则能够得到因子载荷和特殊因子方差的极大似然估计。设X1,X2,,Xp为来自正太总体N(,)的随机样本,其中

AA'。从似然函数的理论知:

n11trxjxxjx'nxjxxjx2j1L(,)(2)1np2n2e' (2.9)

它通过依赖于A和。但式(2.4)并不能唯一确定A,为此,添加如下条件:

1A' A

ˆ和ˆ。极大这里,是一个对角阵,用数值极大化的方法可以得到极大似然估计Aˆ,ˆ'ˆ为对角阵,且使式(2.4)达到最大。 ˆ和ˆ1AˆX,将使A似然估计A2.2.4 因子旋转

我们得到的初始因子解各主因子的典型代表变量不是很突出,容易使因子的意义含

糊不清,不便于对实际问题进行分析。出于这种考虑,可以对初始公共因子进行线性组合,即进行因子旋转,以期找到意义更为明确、实际意义更明显的公共因子。经过旋转后,公共因子对Xi的贡献hi2并不改变,但由于载荷矩阵发生变化,公共因子本身就可能发生很大的变化,每一个公共因子对原始变量的贡献gi2不再与原来相同,经过适当的旋转,我们就可以得到比较令人满意的公共因子。

因子旋转分为正交旋转与斜交旋转。正交旋转由初始载荷矩阵A右乘一正交阵而得到。经过正交旋转而得到的新的公共因子仍然优质彼此的性质。而斜交旋转则放弃了因子之间彼此这个,因而可能达到更为乘法的形式,其实际意义也更容易解释。但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近于

- 16 -

安徽工程大学毕业设计(论文)

零,要么尽可能地远离零。因为一上接近于零的载荷aij表明Xi与Fj的相关性很弱;而一个绝对值比较大的载荷aij则表明公共因子Fj在很大程度上解释了Xi的变化。这样,如果任一原始变量都与某些公共因子存在较强的与另外的公共因子之间几乎不相关的话,公共因子的实际意义应付比较容易确定。

对于一个具体问题要做因子旋转,有时需要进行多次才能得到满意效果。每一次旋转后,矩阵各列相对方差之和总会比上次有所增加。如此继续下去,当总方差的改变不大时,就可以停止旋转,这样就得到了新的一组公共因子及相应的因子载荷矩阵,使得其各列元素平方的相对方差之和最大。 2.2.5 因子得分

在因子分析的实际模型中,一般mFjj1X1j2X2jpXp j=1,2,…,m (2.10)

此处因为原始变量与公共因子变量均为标准化变量,因此回归模型中不存在常数项。在最小二乘意义下,可以得到F的估计值:

ˆA'R1XF (2.11)

式中,A为因子载荷矩阵R为原始变量的相关阵X为原始变量向量。在得到一组样

本值后,就可以代入上面的关系式求出公共因子的估计得分,从而用少数公共因子去描述原始变量的数据结构,用公共因子得分去描述原始变量的取值。 2.2.6 因子分析的步骤

1 根据研究问题选取原始变量

2 对原始变量进行标准化并求其相关阵,分析变量之间的相关性。 3 求解初始公共因子及因子载荷矩阵 4 因子旋转 5 因子得分

6 根据因子得分值进行进一步分析。

2.3 聚类分析

聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。

- 17 -

汤波:多元统计分析方法在学生成绩评价中的应用

聚类分析不公可以用来对样品进行分类,也可以用来对变量进行分类。对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。 2.3.1 聚类分析的方法

(1)系统聚类分析

系统聚类法是先将n个元素看成n类,然后将性质最接近(或相似程度最大)的两类合成一个新类,得到n-1类。再从中找出最接近的两类合成一类,得到n-2类。如此重复,最后使所有元素都在一类中。其主要的方法有:

1 最短距离法 2 最长距离法 3 重心法 4 类平均法

5 离差平方和法(Ward法) (2)模糊聚类分析

模糊聚类分析的计算步骤为:

1 对原始数据进行变换。变换方法通常有标准化变换、极差变换、对数变换等。

2 计算模糊相似矩阵。选取在[-1,1]区间中的普通相似系数rij*cos()构成相似系数矩阵,在此基础上做变换

rij1rij*2 (3.1)

使得rij* 被压缩到[0,1]区间内,R=(rij)构成了一个模糊矩阵。

3 建立模糊等价矩阵。对模糊矩阵进行褶积运算:RR2R3有限次的褶积后使得RnRRn,由此得到模糊分类关系Rn。

4 进行聚类。给定不同的围住水平,求R截阵,找出R的显示,得到普通的分类关系R。当=1时,每个样品自成一类,随着值的减小,由细到粗逐渐并类。 (3)调优法

这种方法就是先将样品做一个初始分类,然后按照某种最优原则逐步调整,一直到调整的分类比较合理为止。

(4)图论法

该方法是应用图论的观点将n个样品看成是m维空间的n个点,点与点用直线连接,从而构成m维空间的点的连接图,再应用图论的观点将点在m维空间作最小支撑树,最终达到分类的目的。

Rn,经过

- 18 -

安徽工程大学毕业设计(论文)

2.3.2 聚类分析的步骤

1 分析所需要研究的问题,确定聚类分析所需要的多元变量; 2 选择对样品聚类还是对指标聚类; 3 选择合适的聚类方法;

4用该聚类方法进行聚类分析。

第三章 实例分析

3.1资料来源

以我校数理学院本科统计一班36名毕业生的四年的21门必修课的考试成绩为

基本资料,对学生的成绩进行综合评价.因为选修课的成绩不影响学生成绩的综合评价。原始数据来自学院的学籍管理档案(注:此处没有考虑每门课程的教学时数;考查课的成绩根据正态分布曲线下的面积应用进行了标准化;数学分析三个学期的成绩之和的平均分记为数学分析成绩;高等代数两个学期的成绩之和平均分记为高等代数成绩;大学英语四个学期的平均分记为英语成绩,不及格的科目按第一次考试成绩计算).各科成绩在进行因子分析之前X1 高数 X8 间序 X15 运筹学 SPSS会自动对原始

X2 数学分析 X9 经济统计 X16 数据库程序设计 变量进行标准化;各

X3 大学英语 X10 风险管理与保险 X17 统计预测与决策 科成绩变量用相应

X4 计算机基础 X11 利息理论 X18 计量经济学 的符号表

示如下(原

马克思主义基始数据表X5 X12 概率论 X19 货币银行学 本原理 略):

表4-1 称及编

X6 X7 毛中特 数理金融 X13 X14 常微分方程II 数理统计 X20 X21 国际金融 国际贸易理论与实务 课程名号表

- 19 -

汤波:多元统计分析方法在学生成绩评价中的应用

3.2主成分分析

首先, 将原数据进行标准化得到:

表3-1标准化原始数据表

3.2.1 spss操作步骤

将数据导入SPSS中,依次点选Analyze->Date Reduction->Factor进入Factor Analysis对话框。点击descriptives按钮,在弹出的对话框中,在correlation matrix中选择coefficients。回到原对话框点击右侧的OK,即可得到

图4-1

- 20 -

安徽工程大学毕业设计(论文)

图3-1 Total Variance Explained

由输出结果图4-1看出,前8个主成分y1,y2,y3,y4,y5,y6,y7,y8的方差和占全部方差的比例为85.7%,即基本上保留了原来的指标的信息,这样由原来的21个转化为8个新指标,起到了降维的作用。SPSS软件得到因子载荷矩阵如图所示:

图3-2 因子载荷矩阵

- 21 -

汤波:多元统计分析方法在学生成绩评价中的应用

3.2.2 主成分系数求解

对SPSS的因子分析模块运行结果输出的Component Matrix的第i列的每个元素分别除以第i个特征根的平方根i,就得到主成分分析的第i个主成分的系数,如图表见表4-3。

表3-3 主成分系数表

1 2 3 4 5 6 7 8 9 10 11 12

主成分1 0.029259 0.037874 -0.0034 -0.01404 0.024545 -0.02437 0.043579 -0.01304 0.004628 -0.0018 0.00858 0.003186

主成分2 0.0028 -0.026 0.000586 -0.01788 0.00676 0.03057 -0.05925 0.067962 -0.07308 -0.00916 -0.010 0.072358

主成分3 -0.06079 0.015408 -0.00573 0.000786 -0.00494 0.119167 -0.00439 0.111012 0.193347 -0.00693 0.036838 0.016678

主成分4 0.019098 -0.0109 0.212967 -0.03922 0.042295 0.058307 -0.03692 -0.0026 -0.07228 -0.05854 -0.05333 -0.10879

- 22 -

主成分5 -0.06088 0.030609 -0.03099 0.055769 -0.09109 -0.00971 -0.05037 0.034191 -0.03022 -0.06585 -0.02523 0.051569

主成分6 0.1042 -0.01088 -0.07417 -0.00148 -0.06915 -0.00744 -0.05142 -0.11018 0.028334 0.30734 0.085572 -0.04687

主成分7 0.003005 -0.0435 0.07573 0.257556 0.263057 -0.03865 0.012101 -0.0062 -0.03713 -0.02232 -0.15508 -0.02912

主成分8 -0.04324 -0.08165 -0.09359 0.10023 -0.0787 -0.04268 0.187203 -0.06614 0.018534 0.028288 0.174298 0.080344

安徽工程大学毕业设计(论文)

13 14 15 16 17 18 19 20 21 0.024559 -0.00037 0.047017 -0.00509 -0.01183 -0.00833 0.00758 -0.0367 -0.01082 0.027245 0.131101 -0.08345 -0.04851 0.005351 -0.01772 0.006668 0.17185 -0.013 0.054944 -0.09808 -0.05027 -0.03028 -0.03206 -0.05172 -0.00061 -0.00746 0.012134 -0.04329 0.033583 0.019296 0.010994 0.008653 0.185555 -0.02598 0.02046 0.038 0.123174 -0.05043 -0.036 0.286337 0.001007 0.032693 0.154936 -0.10013 0.100285 -0.1535 0.006675 0.086802 -0.0574 -0.0661 -0.00111 -0.03224 0.049862 0.179858 -0.18071 0.0866 0.109345 -0.0263 0.078655 -0.03527 0.017167 -0.0542 -0.03399 -0.09029 -0.05519 -0.02972 0.042707 0.377382 0.0288 -0.06942 0.075702 -0.17466

*****y10.029259x10.037874x20.0034x30.01404x4+……-0.01082x27

y2*x1=0.0028-0.026x2+0.000586x3-0.01788x4+……-0.08165x27

*********y3-0.06079x1+0.015408x2-0.00573x3+0.000786x4+……+0.012134x27 *****y40.019098x1-0.0109x2+0.212967x3-0.03922x4+……0.038x27

…… …… ……

*****y70.003005x1-0.0435x2+0.07573x3+0.257556x4+……-0.03399x27

*****y8-0.04324x1-0.08165x2-0.09359x3+0.10023x4+……-0.17466x27

*****其中,x1、x2、x3、x4……x27表示对原始变量标准化后的变量。

在用样本主成分得分进行排序的问题,目前常用的方法是利用主成分y1,y2,,ym做

线性组合,并以每个主成分yk的方差贡献率k作为权数构造一个综合评价函数:

F1y12y2mym,依据计算出的F值大小进行排序或分类划级。

由于可算得k值分别为:

44.1379.8398.7830.5144 20.1147 30.1024

85.79885.79885.7986.6624.71140.0776 50.5355

85.79885.7984.3423.8123.5130.0506 70.0444 8 6=0.0409

85.79885.79885.798其主成分的得分结果见表:

1图3-3主成分结果汇总

- 23 -

汤波:多元统计分析方法在学生成绩评价中的应用

3.2 因子分析

3.2.1 SPSS软件操作过程:

(一)单击“Analyze”菜单中“Data Reduction”菜单项中“Factor...”命令

(二)弹出“Factor Analysis”对话框,从左侧的变量列表中选择25个变量,添加到\"Variables”文本框中

(三)单击“Descriptives...”按钮,弹出“Factor Analysis: Descriptive对话框,其中\" Statistics”选项区用于选择输出哪些相关的统计量,本例选择输出初始分析结果,即\"Initial solution\".\" Correlation Matrix”选项区中提供了几种检验变量是否适合做因子分析的检验方法,本例选择了“KMO and Bartlett's test of sphericity”选项,单击\"Continue”按钮.

(四)单击“Extraction...”按钮,弹出“Factor Analysis: Extraction”对话框,因子提取方法在“Method”下拉列表框中选取,SPSS提供了7种方法,其中有主成分分析法,即“Principal components\".该方法是使用最多的因子提取方法,本例选择了主成分分析法.\"Analyze”选项区用于选择提取因子变量的依据,主要有相关系数矩阵和协

- 24 -

安徽工程大学毕业设计(论文)

方差矩阵,本例选择了相关系数矩阵,即“Correlation matrix\".\" Extract”选项区用于指定因子个数的标准,主要有两个选项:\"Eigenvalues over”可以输入一个特征值,SPSS将提供特征值大于该值的因子,SPSS默认为1. \"Number of factor”可以输入要提取因子的个数.本例在这个选项区,第一次是选择了“Eigenvalues over\",按SPSS的默认为1做的;第二次是选择了“Number of factor\",且指定因子个数为10做的(按累积方差贡献率超过75%的原则).根据结果的不同,对两次统计结果进行了分析和解释. \"Display”选项区用于选择输出与因子提取有关的信息,一个是输出未经过旋转的因子载荷矩阵,即“Unrotated factor solution\";一个是输出因子与其特征值的碎石图,按特征值的大小排列,有助于确定保留多少个因子,即“Scree plot\".本例这两个选项均己选取 \"Maximum Iterations for Convergence”选项用于指定因子分析收敛的最大迭代次数,本例选用的是系统默认的最大迭代次数为21,单击“Continue”按钮. (五)单击“Rotation...”按钮,弹出“Factor Analysis: Rotation”对话框,该对话框用于选择因子载荷矩阵的旋转方法.SPSS有6种方法,其中方差极大法旋转最常用,即\" Varimax \",本例选择了该方法.

\"Display”选项区用于选择输出与因子旋转有关的信息,一个是输出旋转后的因子载荷矩阵,即“Rotated solution\";一个是输出载荷散点图,即“Loading plots) \",本例选择了两个选项.单击“Continue”按钮·

(六)单击“Scores...”按钮,弹出“Factor Analysis: Factor Scores”对话框,该对话框用以选择对因子得分进行设置,其中“Save as variables”是将因子得分作为新变量保存在操作的数据文件中,本例选择了该选项;SPSS系统提供了3种估计因子得分系数的方法,可在“Method”选项区中进行选择,较常用的是“Regression”回归法,本例选择了该选项.此外,本例还选择了“Display factor score coefficient matrix\",即输出窗口中显示因子得分系数矩阵,单击“Continue”按钮.

(七)单击“Options...”按钮,弹出“Factor Analysis: Options”对话框,该对话框可以指定输出其他因子分析结果,并选择对缺失数据的处理方法.其中在“Missing Values\"选项区中,本例选择了“Exclude cases listwise\",即去除所有缺失值的个案后再进行分析;在“Coefficient Display Format”选项区中,两个选项均己选取.其中,\"Sorted by size\":载荷系数按照数值大小排列,并构成了矩阵,使得在同一因子上具有较高载荷的变量排列在一起,便于得到结论;\"Suppress absolute values less than\":不显示那些绝对值小于指定值的载荷系数,本例采用了指定的默认值0. 1,单击“Continue”按钮,返回“Factor Analysis”对话框,完成设置. (八)单击“OK”按钮,完成计算. 3.2.2 统计分析结果和讨论

3.2.2.1第一次统计分析的结果和讨论

表3-3:基本统计结果

- 25 -

汤波:多元统计分析方法在学生成绩评价中的应用

表3-3中列出了21个变量的统计描述结果,其中包括平均值、标准差和分析个数.利用此表中的数据对原始数据进行了标准化.

3.2.2.2输出结果文件中的第二部分如表3所示

图3-4:检验结果

表3-4给出了KMO检验和巴特利特球形检验的结果.其中KMO统计量为0. 713接近于1,说明变量间的偏相关性很好,因子分析的效果非常理想.巴特利特球形检验给出的相伴概率为0. 000,小于显著性水平0. 05,因此拒绝零假设,认为适合于因子分析. 3.2.2.3.输出结果文件中的第三部分如图4-5所示

表3-5:变量共同度

- 26 -

安徽工程大学毕业设计(论文)

表3-5给出了各变量的共同度,即各变量中所含原始信息能被提取的公因子所表示的程度,可知各变量的共同度几乎都在50%-70%之间,说明各门课程的作用比较均衡.如果因子数太少,会导致最后的评价结果丢失掉原始数据的大量信息,故此,本例在选取因子个数时,做了两种方案. 第一种方案:

- 27 -

汤波:多元统计分析方法在学生成绩评价中的应用

表3-6:因子提取结果

表3-6是第一次因子分析后因子提取的结果,可知只有第一个特征值较大,其贡献率为

44.137%,其它特征值不大.说明21门课程所培养的知识能力是多方面的,比较分散和均衡.这反映数学学院在课程设置上考虑的是培养学生多方面的才能,是与社会的需求是相一致的.这里用主成分分析法提取了4个特征值大于1的公共因子,这4个因子的累积贡献率达到了69.421%.(考虑到这个累积贡献率低,第二方案选取的原则是超过了85% )

3.2.2.4.输出结果文件中的第五部分如图所示

图3-4碎石图

- 28 -

安徽工程大学毕业设计(论文)

碎石图用于显示各因子的重要程度,其横轴为因子序号,纵轴表示特征值的大小它将因子按特征根从大到小依次排列,从中可以非常直观的了解到哪些是最主要的因子.从该碎石图可以看出此例选取4个因子是可以的. 3.2.2.5.输出文件结果中的第六部分如表4-7所示

表3-7 成份矩阵

表3-7是未经过旋转的载荷矩阵,可知:第一因子变量,除了数学分析外,几乎其他所有变量上都有较高的载荷,其他因子变量的含义也很模糊.于是前面设定了用方差极大法进行了旋转.

3.2.2.6输出文件结果中的第七部分如表4-8所示

- 29 -

汤波:多元统计分析方法在学生成绩评价中的应用

表3-8旋转后的因子载荷矩阵

表3-8是经过旋转后的因子载荷矩阵,可知:第一因子变量中数学分析、常微分方程、数理金融、概率论、数理统计、运筹学、利息理论、都有较大的载荷,因此定义为数学专业基础理论和金融学应用因子;第二因子变量中数据库程序设计、国际贸易理论与实务、计算机基础、风险管理与保险、货币银行学、国际金融、等有很大的载荷,定义为计算机和一般金融因子;第三因子变量中教数理金融、计量经济学、大学英语、统计预测与决策、毛中特等有较大的载荷,因此定义为专业课理论和外语因子;第四因子变量中计算机基础、经济统计、马克思主义基本原理间序、等有较高的载荷,定义为教政治理论和专业课因子;在上述载荷矩阵中可以看出有的因子解释的实际意义不是特别清楚,主要是选取4个因子的结果,其中有大量的信息丢失.故此,需要进行第二次分析. (二)第二次统计分析的结果和讨论

第二次统计分析与第一次的不同之处就在于选取的因子不同,第一次是根据特征值大于1选取的,选取了4个因子,在解释因子的实际意义时,不容易区分;第二次是根据累积方差贡献率超过85%选取的,共选取了8个因子.在输出结果中相同的不再重复,下面介绍不同的输出结果.

3.2.2.7 输出结果文件中的第四部分如表11所示

- 30 -

安徽工程大学毕业设计(论文)

表3-9:因子提取结果

由表3-9可以看出选取了8个因子的累积方差贡献率超过了85%,可以进行因子分析了.

表12:旋转后的因子载荷矩阵(未旋转的因子载荷矩阵省略)

- 31 -

汤波:多元统计分析方法在学生成绩评价中的应用

表3-9是经过旋转后的因子载荷矩阵,可知:第一因子变量中数学分析、常微分方程、高等代数、数理统计、运筹学都有较大的载荷,这些课程大部分是专业基础课,因此第一因子可以定义为数学专业基础理论,概括为专业素质因子,它的方差贡献率为39. 222%,占首位,说明在各个公因子中,它所反映的能力因素最强,这与客观实际相一致,另外在第一因子变量各科载荷中,高等代数和数学分析较大,说明高等代数和数学分析对第一因子变量的影响较大;第二因子变量中教案分析、数学教育学数学教学心理学等有很大的载荷,这些课程是数学教育教学基础理论课,可以定义为数学教育教学素质因子,其中教案分析和数学教育学在第二因子中的载荷超过了0. 8,可见教案分析和数学教育学是师范生从事教育教学活动必须具备的理论知识,在师范院校开设是非常必要的;第三因子变量中实变函数、概率论、高等几何、初等代数、初等几何等有较大的载荷,这些课程都是大学三年级开设的课程,是在基础理论课的前提下,应用基础理论解决实际问题的课程,反映了学生解决实际问题的能力水平,因此定义为解决实际问题素质因子,其中实变函数、概率论、高等几何三科有较大的载荷,说明这三科在培养大学生解决实际问题方面有非常重要的作用,有利于以后大学生在实际工作中应用数学知识解决

- 32 -

安徽工程大学毕业设计(论文)

实际问题能力的培养,另外初等代数、初等几何也有较大的载荷,说明高等数学在解决初等问题中也有重要作用,对于大学生口后从事中学数学的教育教学活动有重要的指导作用;第四因子变量中马克思主义哲学有较大的载荷,这门课程是学习其他课程的理论指导学科,不论大学生以后从事哪方面的工作,都离不开马克思主义理论的指导,对大学生来说是非常必要的,其次法律基础的载荷也比较大,说明大学生要掌握法律知识,具有法律意识,在法制社会发挥更大的作用,故此第四因子变量定义为法律哲学素质因子;第五因子变量中理论概论有较大的载荷,说明政治理论指导的重要性,同时法律基础的载荷也很大,因此定义为政治理论素质因子;第六因子变量中学教育学的载荷达到了0. 782,定义为教育理论素质因子,说明大学生必须掌握教育规律,才能适应以后的教育教学工作;第七因子变量中英语和思想的载荷最大,毛中特是马克思主义理论在中国的实际应用中所形成的理论,对各项工作都有指导意义;;这门课程既对大学生进行了思想品德教育,又让大学生掌握了思想品德教育规律,为以后做中学生的思想工作打下了坚实的基础,定义为思想品德素质因子而英语达到了0. 81,说明英语在大学生的学习中地位非常重要,各个部门都应该重视学生的英语学习,定义为英语素质因子;第八因子变量中统计分析与预测有较大的载荷,定义为专业技术素质因子,思想是马克思主义理论在中国的实际应用中所形成的理论,对各项工作都有指导意义;这门课程是数学专业学生必须学习的专业技术课程,计算方法在计算机发展的今天显得越来越重要,它把计算机和数学有机的结合起来,. 在上述载荷矩阵中可以看出对这些因子变量解释的实际意义是特别清楚的,主要是选取8个因子的结果.故此,进行第二次统计分析是非常必要的.当然,这样选取的结果相对第一次确实比较合理,但是也有遗憾,因为在对各个因子的解释时,其中教师职业基本技能在各个因子载荷中没有明显大的,只是在第二、第七因子变量中相对大些,它在第二因子中的载荷大是比较合理的,是数学教育教学素质因子.第七因子是英语因子,他们混在一起解释不太合理,这可能是因子个数选取的少有关,毕竟没有达到85%.所以在对学生的成绩进行统计分析时,相对来说还是要选择累积贡献率达到某个水准为好. 3.2.2.8输出文件结果中的第九部分如表4-10所示

- 33 -

汤波:多元统计分析方法在学生成绩评价中的应用

表3-10因子得分矩阵

表3-10是因子得分矩阵,是根据“Regression”回归算法计算出来的因子得分函数的系数,据此可以得到因子得分函数.SPSS将根据8个因子得分函数,自动计算36个样本的8个因子得分,并且将8个因子得分作为新变量,保存在数据编辑窗口中(分别为FAC1-1, FAC2一1、FAC3-1、FAC4-1、FACS-1、FAC6一1、FAC7-1、FACB-1、) 3.2.2.11计算综合评价结果

根据8个公因子对应的方差贡献率为权数计算如下综合统计量:

Fj18ji18FJ

i =0.51443F1+0.11458F2+0.10237F3+0.07765F4+0.05211F5 +0.0506F6+0.04443F7 +0.0409F8

- 34 -

安徽工程大学毕业设计(论文)

表3-11: 36名学生综合评价结果统计表

根据表3-11中的排名可以对大学生进行综合评价,也可以针对某个因子得分进行排序,比如对第一因子得分进行排序,就可以知道学生中哪些学生的综合素质高,指导他们继续深造,给他们创造考研的机会;对第二因子得分进行排序,就可以知道学生中哪些学生的教育教学素质高,指导他们从事中学数学的教育教学活动,并向重点中学推荐等等. 根据综合得分计算公式,可以计算出学生的综合得分.与传统评分标准相比,因子分析的方法更注重学生在不同能力上的差异,可以客观地了解学生在各方面的掌握程度,有利于发觉学生的潜力.

- 35 -

汤波:多元统计分析方法在学生成绩评价中的应用

3.3 聚类分析

3.3.1 spss操作步骤:

将原数据进行标准化,在菜单的选项中选择Analyze—>Classify—>Hierarchical cluster(系统聚类法)。在系统聚类法中,选择Cases选项,对样品进行聚类。在Statistics选项中选择Agglomeration Schedule,聚类方法选择Whthin-group linkage(组内联结法),计算距离选择平方欧氏距离,输出痧柱图和树状聚类图。

图3-5树状聚类图

- 36 -

安徽工程大学毕业设计(论文)

从输出结果3.6即树状聚类图中可以由分类个数得到分类情况。如果选择的分类数为三,则从距离大概为18的地方往下切,得到分两类的结果,如果分四类的话,则从距离大概为17的地方往下切,得到分三类的结果,如果选择分为五类,则从且分类结果从16下切即可 如下表4-11。

表3-12 聚类结果 Case Cluster Membership 5 4 3 Clusters Clusters Clusters - 37 -

汤波:多元统计分析方法在学生成绩评价中的应用

1 2 3 4 5 6 7 8 9 10 11 12 13 d14 i15 m16 e17 n18 s19 i20 o21 n22 0 23 24 25 26 27 28 29 30 31 32 33 34 35 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 3 2 2 4 2 1 2 2 2 2 2 2 1 1 2 2 2 5

1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 3 2 2 4 2 1 2 2 2 2 2 2 1 1 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 3 2 1 2 2 2 2 2 2 1 1 2 2 2 1

采用聚类分析的技术以后,在学生成绩评价中,相近的成绩都被划分到了同一类,弥补了传统划分方法的缺点之一“在学生成绩差别不大的情况下,经过划分后结果可能相差很大”;每一科成绩随中心的变化就是相对于整体成绩的分布情况,也相应的弥补了传统划分方法之二“不能反映某一科成绩相对于总体成绩的分布情况”。除此之外,聚类分析技术的应用不仅可以使学生清楚自己相对于整体成绩的位置,还可以体现某类

- 38 -

安徽工程大学毕业设计(论文)

学生某些学科的不足,从而提醒教学人员针对性的采取相应的措施。同时我们也可以得到出每一类学生的特征或每一类学生哪些学科成绩相对偏低,这样的评价结果可以为教学人员制定出有针对性的解决办法提供依据,从而提高学生后期的学习成绩。

结论与展望

综上所述,在利用因子分析时如果要对学生进行分类的话,只选取5个因子即可;如果对学生的成绩进行排序或者要找出影响成绩的各个公共因子并且公共因子的实际意义要清楚的话就应该选取累积方差超过75%以上为好,最好达到85%.多元统计分析在指导学生成绩评价的作用越来越重要.进而要求高等院校职能部门对多元统计分析给予足够的重视,从培养统计人才入手,引进相应的设备,各方面的都要参照对数据的统计分析来制定.同时也要求高校教师掌握多元统计分析方法,让多元统计分析真正成为高校教师指导教学的有利工具,使其成为教学管理科学化、现代化不可缺少的手段.当然,多元统计分析中还有其他方法,它们在教学方面也有广泛的应用,本文只论述了主成分分析和因子分析这两种多元统计分析方法.多元统计分析在教学其它领域的应用范围还很广泛,有待于以后进一步探讨.

- 39 -

汤波:多元统计分析方法在学生成绩评价中的应用

参考文献

[1] 何晓群 编著.多元统计分析 [M].北京:中国人民大学出版社,2012.144-182 [2] 刘影. 多元统计分析在高校教学中的应用[D] 东北师范大学应用数学系,18-30 [3] 李曦.多元统计在学生成绩分析的运用[J], 南昌航空工业学院学报(自然科学版),

2006,20(3): 22-25

[4] 刘琳,丁馄.利用多元统计分析进行学生成绩综合评价[J] 西南林业大学学报(农

业与技术)2012,32(4)

[5] 丁春忠.学生成绩评价中的因了分析[D].苏州:苏州大学数学系,2004. 18-19. [6] 金浩,高素英.最佳多元线性回归模型的选择[J].河北工业大学学报,2012,31(5):

10-14.

[7]潘先云.教学研究中的多元分析法初探[J].广州大学学报(综合版),

2000, 14 (3) :86-88.

[8] 陈雪东.教育实习成绩评定的多元统计解决方案[J].数理统计与管理,2003, 22 (6) : 1-4.

[9]祁洪全.综合评价的多元统计分析方法[D].〔硕士论文〕.长沙:湖南大学数学系,2001. 3-4.

[10] 刘新平,刘存侠编著.教育统计与测评导论「M].北京:科学出版社,2003.

254-257,261, 262.

[11] Zhan-bin. Economic Evaluation of IWT-capacity Structure Improvement.[J].Journal of Wu-han University of Technology, Transportation Science and Engineering, 2003 (2): 275-279.

[12]Kandall M G. Multivariate Analysis. [M].London and High Wyoming,1975. 56-59.

[13] Thomas O.Jackson. Evaluating Environmental Stigma with Multiple Regression

Analysis[J].Environment and theappraiser,2005,363-369.

[14] Hans R. Isakson. The Review of Real Estate Appraisals Using Multiple

Regression Analysis[J].JOURNAL OF REAL ESTATE RESEARCH,1998,15(1/2):177-1.

- 40 -

安徽工程大学毕业设计(论文)

致谢

衷心感谢我的导师姜培华,感谢他对我的悉心指导,也正是因为姜老师对论文中的整体把握和详细指导,都倾注了他大量的心血,论文才得以完成。在跟随姜老师学习的过程中,我深深感受到他认真求实的治学态度和热情真诚的做人原则,使我受用终生.在此向姜老师表示衷心的感谢!,

衷心感谢和我共同走过风雨的同寝室的、同实验室的以及同窗的同学们,感谢她们在论文撰写期间给予我的支持和鼓励。

衷心感谢我的父母,感谢多年来一直默默关心我的亲人,他们的关爱和期待是我前进的动力,让我克服重重困难,他们是我一辈子最宝贵的财富。

最后在此论文成稿之际,谨向所有曾给予我帮助和支持的老师、同学以及朋友们,致以最诚挚的谢意。

作者:汤波

2013 年 月 日

- 41 -

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务