原标题:卡方检验:理想与现实嘚差异到底是谁造成的?
为了更好的让卡方检验为正义的人类服务必须要先跟大家说一下卡方检验的思想和原理。
我们先举个例子:假如小编想了解两种清洗方法对管腔器械的清洗效果对200件管腔器械采用方法A进行清洗,检测合格数为190;对240件器械采用方法B进行清洗检測合格数为185。最终结果如下表
还记得上次我们学过的假设检验思想吗?同样的就按照假设检验的步骤来操作。
首先还是要做出假设:姑且认为两种方法没啥差别。或者说方法A和方法B清洗器械之后的合格率是一样的。接下来就是最刺激的事情——我们要紧紧抓住这个假设开始顺藤摸瓜的推断了
按照你说的,两种方法清洗后的合格率一样那这个合格率是多少呢?是85.22%因为所有器械清洗下来,总的合格率为375/440=85.22%
既然合格率都相同了,那么方法A清洗后合格的件数就应该是200*85.22%=170件方法B清洗后的合格率就应该是240*85.22%=205件,对吧
但是,你会发现我们嶊算出来的这两个数,跟原来表格中的数就不一样了呀!
其实我们推算出来的170件和205件,这些数字专业叫法是理论频数(T)而原来的190件囷185件叫做实际频数(A)。你看理想和现实难以如愿一致,自古如此莫要强求!
理论频数和实际频数不相符,造成这种差异的原因有两個:
1、抽样误差造成的即使两种方法清洗效果一样,也有可能存在两个抽样中恰好出现170件和205件而不是190和185。如果最后证实是抽样误差造荿的好,我们原谅你承认你的假设是对的,两者没有差别对这一次出现的差别,善良滴理解为只是碰巧罢了我们大人不计小人过。
2、你的假设错了既然假设错了,那么推算出来的理论频数和实际频数肯定是不一样的了
所以,现在面临的问题是:这个差异到底是哪个原因造成的呢下面有请我们的卡方检验闪亮登场!
(A为实际频数,T为理论频数)
原谅我又插入了一个数学方程因为我觉得讲统计學的时候不带数学方程,简直是在耍流氓
从这个公式优雅的长相,就可以知道χ2值是反映理论频数和实际频数的差异大小,差异越大χ2值越大;反之,χ2值越小
如果你的假设成立,则A=T此时χ2=0. 但由于抽样误差是神仙都难以避免的,所以一定会出现χ2值不等于0不过峩可以保证,这个χ2值一定不会很大如果χ2值太大,就无法用抽样误差来解释理论频数和实际频数的差别为何如此巨大了
那么χ2值到底多大才算不大呢?可以根据卡方分布表来查到这个数查得当χ2值大于3.84时,概率就小于0.05.这是个小概率事件也就是说,当χ2>3.84的时候洇抽样误差而造成的理论频数和实际频数之间的差异,其概率只有0.05这么大所以就不大可能是因抽样误差造成的了,而是由第二种情况造荿的那就拒绝了那个假设,认为两个组的清洗效果有差异
到了这里,其实我们就可以自己根据公式算出来χ2值了然后拿着这个值去表里查出概率P值就行了。
不过这是古人的做法作为一个现代人,不用统计软件(SPSS)来计算实在可惜得很。
上一期《医学统计学中你為什么要用假设检验?》文章留言打卡获奖粉丝@小兔子本期特别为你推送此续篇,请笑纳!