作者:曹 瑾 张双德 武 佳 作者单位:(武警医学院数理教研室 天津 300162)
【摘要】 统计学中的各种方法都有其适用范围,如果使用的方法不当或错误,那么得到的结果将不能真实地反映客观规律。就两个样本间比较的使用方法t检验进行阐述和分析,以便更加深刻理解和准确使用统计学中t 检验。
【关键词】 统计学; 实验设计; 检验; 正态分布
在正态总体条件下,关于数学期望的检验,只有在方差已知时才能用u 检验,这个前提条件大大限制了它的应用。相比之下,在实际问题中,为了节省成本,往往样本数量小,方差未知,做均值比较,此时考虑用t 检验,它只需要获得正态总体的一个小样本,就可以推断数学期望。此外,还能处理配对和成组比较资料问题,所以是统计学中最常见、最重要的一种检验。本研究就两组比较中 检验使用条件和方法进行阐述。
1 两组比较实验设计类型
1.1 配对比较
所谓配对比较是指对配对资料的均值比较。将同质受试对象,即条件相同的受试对象两两配成对子(比如同性别、同月龄、同体重的两只将康小白鼠配成一对),然后,让每个对子中的两个个体随机的接受两种不同的处理,这就是配对实验。配对设计的特点是相同指标的观测结果是成对出现的,每一对中的两个数据来自同质个体(条件相同的受试对象),若每对中的两个定量数据相减求得差值,若这些差值服从(或近似服从)正态分布,应用配对设计定量资料的 检验。该方法主要用于检验两相关样本或成对样本所得均值间是否有显著性差异,其优点是既节省样本,又能排除受试对象个体差异的干扰,从而提高实验效能。
该方法处理资料应满足如下条件:(1) 该资料中两个总体均应服从(或近似服从)正态分布;(2) 首先两个样本的观察数目相同,其次两样本的观察顺序不能随意改变;在应用领域中,主要的配对资料包括具有年龄、体重、性别、病况等非处理因素相同或相似者。若资料不服从正态分布,可进一步考虑对原始数据进行变量变换在判断否满足正态性要求。否则,可考虑非参数假设检验中的秩和检验。
例如为了检验某降低高血压药物的效果,收集到一批高血压患者在服药前后的血压数据,检验患者在服药前后血压是否发生了显著变化,如果血压发生了显著差异,则说明该药物产生了显著作用。这就是一个两配对样本的t 检验问题,首先两样本是配对的,因为收集的数据都是来自同一对象,而且服药前后观察样本数目相同。每对数据都唯一对应一个患者,不能随意改变观察值顺序,其次血压数据可认为是来自正态分布。
1.2 两个独立样本间的比较
所谓独立样本比较是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的试验,研究者的主要目的是了解两个样本之间是否有显著差异存在。
该方法处理资料应应满足如下条件:(1) 两组资料应服从(或近似服从)正态分布;(2) 若两资料应是相互独立的,即从一个总体中抽取一批样本对从另一个总体中抽取一批样本没有任何影响。两组样本数目可以不同,顺序可以随意调整。满足方差齐性条件,用t 检验处理;若两组定量资料不满足方差齐性条件,用t′ 检验处理;如果原始资料不服从正态分布,可进一步考虑对原始数据进行变量变换再判断是否满足正态性要求。否则,可考虑采用符号秩和检验。
例如从两个不同的大学中分别随机抽取若干个大一学生,分析他们的大学入学考试成绩是否存在显著差异。这就是一个独立样本 检验问题。它满足检验的前提条件,首先,抽取的两个学校的大一学生这两个总体是相互独立的,分别在两个学校抽取,不会相互影响,而且两个学校抽取的学生人数可以不同。其次,大学考试的入学成绩可以近似认为是服从正态分布。
2 案例分析
2.1 案例1
某研究者用某药治疗高血压病人,对每个病人治疗前后的舒张压,进行来测量,结果如下:病历编号12345给药前120127141107115给药后123128120107102该研究者用配对设计检验得P<0.05 ,认为该中药在改变兔脑血流图方面有统计学意义;用成组设计检验得P>0.05,认为该中药无统计学意义。哪种才是正确的呢?
辨析:在该项研究中,为了比较某药是否对治疗高血压病人有显著疗效,资料的处理首先应考虑该资料是否服从正态分布,需要对资料的分布类型进行正态性检验,判明资料的分布类型后,再选择合适的处理方法。通常有以下两种:① 假设资料服从正态分布,因为该资料中同质受试对象先后接受两种不同的处理,所以此时应考虑采用配对设计定量资料的t 检验。 ② 对于资料如果服从正态分布,也可以考虑成组设计定量资料的t 检验。但需要注意的是对成组资料的均值进行比较时,应先判断两组资料是否相互独立且满足方差齐性,经验表明,对于同质性较好的受试对象,两组资料一般满足方差齐性的,也可用F 检验进行严格的理论证明,如果满足方差齐性条件,用t 检验,否则改用用t′ 检验处理。
针对该资料,用配对设计定量资料的t检验和成组设计定量资料的t检验两种方法得到两个截然相反的结论,这是什么原因造成的?对于这个问题我们应该首先弄清楚两种设计的区别:对于配对设计而言,两个总体是来自同一个样本的重复“测量”,他们是有关系的,不是相互独立,我们通常求的是对子数据的差,配对资料中每组数据的大小并不重要,重要的是对子数据的差,这个差值消除了病人诸方面的条件差异。而成组设计中,我们更关心的是两个正态总体相互独立同分布,组中的每一数据都是随机排列、没有先后顺序的,不受表格形式的影响,也不会对数据逐个上下比较,成组设计是将条件相似的受试者完全随机分成两组后,综合了所有可能的结果。在本组资料中两组数据并不相互独立,数据均来自同一组病人,两组数据是有关系的,而配对设计正是处理这类两相关样本所得均值间是否有显著性差异的。综上说述,我们应该选用配对设计,得到的结论才是合理的。
2.2 案例2
两个药厂生产同一种药物,为了判断两个药厂所生产的药物有效成分含量是否有差异,现从其产品中抽取若干样品测定其有效成分含量,其结果如下:123456甲厂0.510.490.520.550.47 乙厂0.560.580.520.590.490.57辨析: 首先,从两个药厂抽取的样品这两个总体是相互独立的,分别在两个药厂抽取,不会相互影响,而且两个药厂抽取的样品数不同。其次,两个药厂所生产的药物有效成分含量可以近似认为是服从正态分布。这样用独立样本的t检验处理问题更加合理。
3 结论
对于多组计量资料,如果用两均数比较的t检验来比较组间的差异,会加大犯I类错误的概率,从而可能把本无差别的两个总体均数判为有差别。如共有6个对比组,若用t检验做6次比较,每次比较水准为α=0.05 ,则每次比较不犯I类错误的概率为1-0.05,6次比较均不犯I类错误的概率为(1-0.05)6,这时总的比较水准变为1-(1-0.05)6=0.26 ,比0.05大了许多,因此多组均数间的比较不能直接用两均数t检验的检验水准和标准误。
针对两组比较应注意以下3点:①抽取样本的总体须服从正态分布;但应注意在处理原始资料时,往往需要对数据进行处理:若观测数据呈正偏态分布的场合,即较小的数据较多,而较大或偏大的数据较少,可将原始数据进行对数变换,对于多组成等比数列的资料,通常也采用对数变换,若观测的数据服从Poisson 分布,可采用平方根变换,使其近似服从正态分布,若观测的数据呈极严重的正偏态分布,因为此时的数据有少数特别大的,故可采用倒数变换,使其近似服从正态分布。②若是配对比较,样本数相同,观察顺序不能改变;③若是两独立样本,样本数可以不同,观察顺序可以改变。如果满足方差齐性条件,用 检验处理;若两组定量资料不满足方差齐性条件,用t′ 检验处理。
如果不考虑每种检验方法的使用条件,而只是机械的套用方法,所得到的结果不但不能正确地反映实际情况,甚至可能出现完全相反的错误,使其所得的结论没有任何实际意义和应用价值。
【参考文献】 1 张少华.关于统计专业课程案例教学的几点认识.黑龙江教育(高教研究与评估),2006,12:55~57.
2 刘定远,主编.医药数理统计方法.北京:人民卫生出版社,1999.
3 苏虹,朱启星.科研资料统计分析常见问题.安徽预防医学杂志,2004,10(2):126.
4 胡良平,李子建,主编.医学统计学基础与典型错误辨析.北京:军事医学科学出版社,2003,7.
5 宇传华,主编.SPSS与统计分析.北京:电子工业出版社,2007,2. |