信度_在线百科全书查询

信度

信度系指测验结果的一致性、稳定性及可靠性，一般多以内部一致性来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响，因为系统误差总是以相同的方式影响测量值的，因此不会造成不一致性。反之，随机误差可能导致不致性，从而降低信度。信度可以定义为随机误差R影响测量值的程度。如果R=0，就认为测量是完全可信的，信度最高。

定义

信度主要是指测量结果的可靠性、一致性和稳定性，即测验结果是否反映了被测者的稳定的、一贯性的真实特征。和信度相关的一个概念是效度，信度是效度的前提条件。

信度只受随机误差的影响，随机误差越大，信度越低。因此，信度可以视为测试结果受随机误差影响的程度。系统误差产生恒定效应，不影响信度。

每一个测试的实得分数（X）总是由真实分数(T)和误差(E)两部分构成的，用公式表示如下：

X=T+E

如果我们讨论一组测验分数的特性时，可用方差代表具体分数，得到公式：

S^2（x）=S^2(t)+S^2(e)

公式中，S^2（x）是实得分数的方差，S^2(t)是真分数的方差，S^2(e)是误差的方差

在测量理论中，信度被定义为：一组测量分数的真分数方差与中方差（实得方差）的比率。即：

r(xx)=S^2(t)/S^2（x）

由于真实分数的方差是无法统计的，因此转化为：

r(xx)=S^2(x)-S^2(e)/S^2(x)

=1-S^2(e)/S^2(x)

因此，信度也可以看做是总方差中非测量误差的方差所占的比例

指标

信度系数与信度指数

大部分情况下，信度是以信度系数为指标，它是一种相关系数。常常是同一被试样本所得到的两组资料的相关，理论上说就是真分数方差与实得分数方差的比值，公式为：

r(xx)=r^2(xt)=S^2(t)/S^2（x）

公式中r^2(xt)是真分数标准差与实得分数标准差的比值，称作信度指数，公式为：

r(xt)=S(t)/S(x)

可见信度指数的平方就是信度系数。

测量标准误

信度系数仅表示一组测量的实得分数与真分数的符合程度，但并没有直接指出个人测验分数的变异量。我们可以用一组被试两次测量结果来代替对同一个人的反复施测，于是有了信度的另一个指标，公式为：

SE=S(x)√1-r(xx)

公式中SE为测量的标准误，S(x)是所得分数的标准差，r(xx)为测验的信度系数，从公式我们可以看出测量的标准误与信度之间有互为消长的关系：信度越高，标准误越小，信度越低，标准误越大。

影响因素

测量长度

一般来说，在一个测试中增加同质的题目，可以使信度提高。需注意的是，增加测验长度的效果应当遵循报酬递减原则。通过斯皮尔曼-布朗公式的导出公式可以计算出最少应增加的题目：

K=r(kk)*(1-r(xx))/r(xx)*(r(kk)-1)

K为改变后的长度与原长度之比，r(xx)为原测试的信度，r(kk)为测验长度是原来的K倍时的信度估计。

由于信度与测验长度有关，当一个测验有几个分测验时，分测验的分数与合成分数相比不如合成分数可靠。

测验难度

理论上说，只有测验难度为50%时，才能使测验分数分布范围最大，求得的信度也最高。事实上，难度为0.50只适合于简答型题目，对于选择题目由于猜测因素，难度值应当提高，洛德提出在学习成绩中，为了保证其可靠性，各类选择题的理想平均难度为：五择一测，0.70；四择一测，0.74；三择一测，0.77；是非题。0.85

在实际情况下，如果某个测验适用范围广，其难度水平通常适用于中等能力水平的被试，而对较高水平的被试和较低水平的被试可能较易或较难，使得分数分布范围缩小，信度水平降低，因此一个标准化的测验，应根据不同能力水平的报告测验的难度，以作为选择测验的参考

时间间隔

时间间隔只对重测信度和不同时测量时的复本信度有影响，对其余的信度来说，不存在时间间隔问题。

注：我们对一套问卷的信度检验值（一般是指克隆巴赫阿尔法信度系数）有时会出现过低的情况，可能的原因有：

1、试卷本身设计不合理，不是围绕一个主题或是有矛盾的题目。如果试卷中有题目让完全相同的人选择不同的答案，试卷的信度会降低。

2、题目区分度过低，特别指有对错之分的题目。如果一道题正确率或错误率达到90%，可以从新审视题目设计是否合理。区分度过低的题目中真实偏差的成分较少，随机偏差的成分相对较多，试卷的信度会降低。3、无关变量进入信度检验。除了重测信度，其他信度检验方法都只考虑有序变量，无序变量，如出身城市，喜好颜色等，如果我们没有对城市或颜色排序的话，带入信度检验意义难明，可能会导致试卷的信度降低。

4、题目选项反序。对有序变量，如果变量值之间序的意义相反，会降低甚至得出负的信度。比如检验老师对学生评分的信度，如果一个老师的评分以10分为最高分，1分最低，另一个以1分最高，10分最低。如果不经处理带入信度计算，信度会降低。

评估方法

重测信度

又称为稳定性系数，它的计量方法是采用重测法：用同一测验，在不同时间对同一群体施测两次，这两次测量分数的相关系数即为重测系数。

重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时，必须注意重测间隔的时间。对于人格测验，重测间隔在两周到6个月之间比较合适。

在进行重测信度的评估时，还应注意以下两个重要问题：⑴重测信度一般只反映由随机因素导致的变化，而不反映被试行为的长久变化。⑵不同的行为受随机误差影响不同。

复本信度

是以两个测验复本来测量同一群体，然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。

计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。

复本信度的主要优点在于：⑴能够避免重测信度的一些问题，如记忆效果、练习效应等；⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响；⑶减少了辅导或作弊的可能性。☆复本信度的局限性在于：⑴如果测量的行为易受练习的影响，则复本信度只能减少而不能消除这种影响；⑵有些测验的性质会由于重复而发生改变；⑶有些测验很难找到合适的复本。

内部一致性信度

主要反映的是测验内部题目之间的关系，考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。

1、分半信度系数是通过将测验分成两半，计算这两半测验之间的相关性而获得的信度系数。测验愈长，信度系数愈高。修正公式是斯皮尔曼-布朗公式。斯皮尔曼-布朗公式为校正分半信度的经验公式，它的假设是两半测验分数的变异数相等。当假设不成立时，可以采用弗朗那根（Flanagan）公式或卢伦（kulon）公式之一，直接求得测验的信度系数。

2、同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时，即使各个测试题看起来似乎是测量同一特质，但测验实际上是异质的，即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。几个计算同质性信度的公式：（1）库德-理查逊公式（2）克伦巴赫α系数。对于一些复杂的、异质的心理学变量，采用单一的同质性测验是不行的，因而常常采用若干个相对异质的分测验。

评分者信度

是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。

效度和信度的关系可以用测量值的构成公式O=T S R来理解。如果测量是完全有效的，即0=T，S=0，R=0，此时测量必然是完全可信的，若量表的信度不足，它也不可能完全有效，因为有O=T R。如果量表是完全可信的，可以达到完全有效，也可能达不到，因为有可能存在导致误差，虽然缺管信度必然缺乏效度，但信度的大小并不能体现效度的大小。信度是效度的必要条件，但不是充分条件。从理论的角度来看，量应具有足够的效度和信度；从实践的观点来看，一个好的量表还应该具有实用性。实用性指量表的经济性、便利性和可解释性。

信度与测验分数的解释

一、解释真实分数与实得分数的相关

信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。

二、确定信度可以接受的水平

当rxx﹤.70时，测验不能用于对个人作出评价或预测，而且不能做团体比较；当.70≤rxx<.85时，可用于团体比较；当rxx≥.85时，才能用来鉴别或预测个人成就或作为。

三、解释个人分数的意义

作用：其一是估计真实分数的范围；其二是了解实得分数再测时可能的变化情形。

例：在一个智力测验中，某个被试的iQ为100，这是否反映了他的真实水平？如果再测一次，他的分数将改变多少？X―1.96SE<XT≤X+1.96SE

已知该智力测验的标准差为15，信度系数为.84，则其iq的测量标准误和可能范围为：

SE=

IQ=1001.966=10011.76≈88～112

四、比较不同测验分数的差异

例；某被试在韦氏成人智力测验中言语智商为102，操作智商为110。已知两个分数都是以100为平均数，15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商呢？

首先计算出差异分数的标准误：

在统计上，经常要求两个分数的差异程度达到0.05的显著水平，才能承认不是误差的影响。因此，将差异标准误（7.5）乘以1.96，结果为14.7，这表明个体在韦氏测验两半得分的差异高于大约15分，才能达到0.05显著水平。上述被试的差异分数110-102=8是不显著的。

测试信度

综述

测试信度也叫测试的可靠性，指的是测试结果是否稳定可靠。也就是说，测试的成绩是不是反映了受试者的实际语言水平。例如，如果同一套测试在对同一测试对象（即受试者本身没有变化）进行的数次测试中，受试者的分数忽高忽低的话，则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来，只有信度较高的测试才能有较高的效度，但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素；评分是否可靠则要看评分标准是否客观和准确。

测试的信度通常用一种相关系数（即两个数之间的比例关系）来表示，相关系数越大，信度则越高。当系数为1.00时，说明测试的可靠性达到最高程度；而系数是0.00时，则测试的可靠性降到最低程度。在一般情况下，系数不会高到1.00，也不会降到0.00，而是在两者之间。对信度指数的要求因测试类别的不同而不同，人们通常对标准化测试的信度系数要求在0.90以上，例如“托福”的信度大致为0.95，而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。测试信度的计算方法有很多种，以下仅介绍三种易于操作的方法：