正大杯问卷设计
一、关于问卷拟定的相关问题
1.量表的拟定
一些队伍为了使问卷更好分析或者看起来更科学,刻意设置一个量表,我想提醒大家的是,设计量表要有参考文献支撑,不能一拍脑袋想啥来啥,建议根据自己研究的内容找一找论文,看看别人用了什么问卷体系,然后尽可能去追溯它背后的科学依据。如果研究的领域比较新颖,可以先找一找一些公开的数据库提供的问卷体系,如CHNS之类的。
2.问卷体系的拟定
问卷体系是一个很大的课题,有许多队伍的问卷看起来很不成熟,比如一方面设置了名义多选题,另一方面在分析的时候又无法正确分析。比如设置了许多名义单选题、是否选择题,还有填空题,但是只是在描述性统计和逻辑回顾中才使用这些数据,导致在分析问卷的时候浪费了许多调研结果。
这些问题的解决方案也很简单,名义多选题是可以进入逻辑回归的,但在分析前需要使用多重响应集处理成二值变量,同时在分析中试着使用一些非参数方法(即没有正态性假定的分析方法),尽可能把整张问卷有因果的部分放到同一个模型中。
当然,如果你们一开始就决定使用结构方程模型、非典型线性相关分析等,我建议多设置几个有多个维度的量表,也即个人信息用名义选择题,其余可以量化的部分尽可能使用量表,这样在你们建模的时候就会方便许多。
二、关于错误使用模型、错误使用分析方法的问题
1.描述性统计相关问题
许多队伍过分依赖统计学模型和统计学检验,忽视了描述性统计的重要性。这主要体现在:①描述性统计篇幅小、描述变量少;②描述性统计过于笼统、不能反映真实问卷情况;③描述性统计不能和其他分析结果一起服务于结论。
对于这个问题我想结合着许多队伍做聚类分析的事说一下。一些队伍可能是看了往年国家一等奖的作品,他们把聚类分析放在最后面,然后这些队伍就模仿着做了。我个人建议把聚类分析和描述性统计放在一起。通过聚类分析可以反映各类人群的特征,然后按类描述、按类分析。
各位需要知道的是,统计学模型固然重要,但是描述性统计做不好的话,最终得到的结果很难联系现实,你需要知道自己面对的是怎样一个群体,从而提出拟定观点。
2.聚类分析相关问题
对于聚类分析来说,大部分队伍使用的是K-meas和系统聚类法,这两个方法操作简单而且或许大家只学过这两种方法。但是需要注意的是,这两种方法的多个算法都是针对数值型变量的,而你们的问卷中往往包含了名义变量、二值变量、数值型变量,这是不可以直接使用这两种方法的。
解决方案也很简单,①使用clusterMD方法或K-prototypes方法;②使用系统聚类法前用Gower算法将混合数据经线性变换转化为0-1之间的数字(具体可以参考我专栏
文章)。