论文编辑部-新丝路理论网_学生成绩的关联分析1 付裕

百度百科

高教思政

您现在的位置: 论文编辑部-新丝路理论网 > 高教思政 > 一带一路文化艺术 > 学生成绩的关联分析1 付裕

学生成绩的关联分析1 付裕

论文编辑部-新丝路理论网 2017-12-03 16:15:58 作者:付裕来源: 文字大小:[大][中][小]

学生成绩的关联分析

付裕（陕西国防工业职业技术学院陕西西安 710300）

摘要：关联规则是数据挖掘的主要工具之一，能够有效揭示数据中隐含的关联特征。运用关联规则的Apriori算法，以班级学生四门课的成绩为对象，以SPSS MODELER软件为工具，挖掘课程之间的内在联系。为学生管理、课程设置提供理论参考。

关键词：关联规则；Apriori；学生成绩分析

高校学生的考试成绩能客观的反映出学生掌握知识的程度。学校的数据库中保存有大量的成绩数据，目前还没有对这些数据进行深入的分析，尚未探索到这些数据下隐藏的规律。数据挖掘DM(Data Mining)又称数据库中的知识发现(Knowledge Discovery in Database),已被认为是数据库研究领域中一个极富应用前景的新领域,而关联规则(Association Rules)的挖掘又是DM中最活跃和开展得较深入的一个分支。本文运用关联规则中的Apriori^[1]算法，对学生考试成绩数据库进行挖掘。揭示课程之间的潜在关系，为课程设置及学生管理工作提供决策支持。

一、数据挖掘数据库

所要挖掘的数据库为供电3161班所有学生在某一学期的四门考试课课程成绩。部分学生成绩如表1，其中所选的四门课程为：高等数学、电工基础、电子技术、英语。这四门课的成绩来源于学校教务管理系统，其真实有效。本文利用SPSS Modeler中的Apriori算法来研究某一门课程对另一门课程的影响，通过课程成绩之间的关联程度分析学生学习状况。

表1 部分学生成绩数据集

TID	电工测量	电工基础	高等数学	英语
1	60.6	73.2	94.2	71
2	87.8	85.4	94.2	71
3	68.6	49.8	39.6	60.2
4	38.4	52.8	42.6	54
5	64	73	43.2	68.6

二、关联规则

设为个不同的数据项组成的集合，为一个包含条数据记录的交易数据库，其中表示T中的第条记录，中的元素为的一个子集，即。交易数据库中的每一条数据记录都有唯一的标识符。若对于中的一个子集，存在，则关联规则就是一个形如的蕴含式，其中，且。关联规则的强度可用它的支持度和置信度度量^[2]。两种度量的形式如下。

三、Apriori算法

Apriori算法的主要思想为：开始时，将所有出现的项都视为候选1-项集，通过淘汰支持度小于的项而得到频繁1-项集，然后按照同样的方式进行下一次迭代。使用第一次筛选后的剩余项组合出候选2-项集，对候选2-项集进行筛选，将支持度小于的候选2-项集淘汰。重复以上迭代过程直到不再有候选项集产生。如果要提取出所有的频繁项集，则算法必须对数据库进行最高维数加1次扫描。

四、数据预处理

表1中的数据是数量型的数据，Aprirori算法适用的数据是布尔属性的，为此在挖掘之前需要将数量属性的数据集离散化成布尔属性数据集。把学生每一科的成绩分成四个等级，[80-100]是第1级， [70-79]是第2级，[60-69]是第3级，[0-59]是第4级。并将课程进行编号，电工测量记为D，电工基础记为C，高等数学记为M，英语记为E。例如一位学生的高等数学为94.2分，离散化成M1，电工测量60.6，离散化成D4。按此方法，把每一个学生的四门课的成绩进行离散化处理，处理的部分结果如表2所示。

表2 离散化的部分学生成绩数据集

TID	电工测量	电工基础	高等数学	英语
1	D3	C2	M1	E2
2	D1	C1	M1	E2
3	D3	C4	M4	E4
4	D4	C4	M4	E4
5	D3	C2	M4	E3