学生成绩的关联分析 付裕(陕西国防工业职业技术学院 陕西西安 710300) 摘 要:关联规则是数据挖掘的主要工具之一,能够有效揭示数据中隐含的关联特征。运用关联规则的Apriori算法,以班级学生四门课的成绩为对象,以SPSS MODELER软件为工具,挖掘课程之间的内在联系。为学生管理、课程设置提供理论参考。 关键词:关联规则;Apriori;学生成绩分析 高校学生的考试成绩能客观的反映出学生掌握知识的程度。学校的数据库中保存有大量的成绩数据,目前还没有对这些数据进行深入的分析,尚未探索到这些数据下隐藏的规律。数据挖掘DM(Data Mining)又称数据库中的知识发现(Knowledge Discovery in Database),已被认为是数据库研究领域中一个极富应用前景的新领域,而关联规则(Association Rules)的挖掘又是DM中最活跃和开展得较深入的一个分支。本文运用关联规则中的Apriori[1]算法,对学生考试成绩数据库进行挖掘。揭示课程之间的潜在关系,为课程设置及学生管理工作提供决策支持。 一、数据挖掘数据库 所要挖掘的数据库为供电3161班所有学生在某一学期的四门考试课课程成绩。部分学生成绩如表1,其中所选的四门课程为:高等数学、电工基础、电子技术、英语。这四门课的成绩来源于学校教务管理系统,其真实有效。本文利用SPSS Modeler中的Apriori算法来研究某一门课程对另一门课程的影响,通过课程成绩之间的关联程度分析学生学习状况。 表1 部分学生成绩数据集 TID | 电工测量 | 电工基础 | 高等数学 | 英语 | 1 | 60.6 | 73.2 | 94.2 | 71 | 2 | 87.8 | 85.4 | 94.2 | 71 | 3 | 68.6 | 49.8 | 39.6 | 60.2 | 4 | 38.4 | 52.8 | 42.6 | 54 | 5 | 64 | 73 | 43.2 | 68.6 |
二、关联规则 设为个不同的数据项组成的集合,为一个包含条数据记录的交易数据库,其中表示T中的第条记录,中的元素为的一个子集,即。交易数据库中的每一条数据记录都有唯一的标识符。若对于中的一个子集,存在,则关联规则就是一个形如的蕴含式,其中,且。关联规则的强度可用它的支持度和置信度度量[2]。两种度量的形式如下。 三、Apriori算法 Apriori算法的主要思想为:开始时,将所有出现的项都视为候选1-项集,通过淘汰支持度小于的项而得到频繁1-项集,然后按照同样的方式进行下一次迭代。使用第一次筛选后的剩余项组合出候选2-项集,对候选2-项集进行筛选,将支持度小于的候选2-项集淘汰。重复以上迭代过程直到不再有候选项集产生。如果要提取出所有的频繁项集,则算法必须对数据库进行最高维数加1次扫描。 四、数据预处理 表1中的数据是数量型的数据,Aprirori算法适用的数据是布尔属性的,为此在挖掘之前需要将数量属性的数据集离散化成布尔属性数据集。把学生每一科的成绩分成四个等级,[80-100]是第1级, [70-79]是第2级,[60-69]是第3级,[0-59]是第4级。并将课程进行编号,电工测量记为D,电工基础记为C,高等数学记为M,英语记为E。例如一位学生的高等数学为94.2分,离散化成M1,电工测量60.6,离散化成D4。按此方法,把每一个学生的四门课的成绩进行离散化处理,处理的部分结果如表2所示。 表2 离散化的部分学生成绩数据集 TID | 电工测量 | 电工基础 | 高等数学 | 英语 | 1 | D3 | C2 | M1 | E2 | 2 | D1 | C1 | M1 | E2 | 3 | D3 | C4 | M4 | E4 | 4 | D4 | C4 | M4 | E4 | 5 | D3 | C2 | M4 | E3 |
|