编辑视角 | 科研中的信效度——《成都体育学院学报》编辑谈（三）

来源：体育学术研究

王宇，英文编辑

B. Sc. (Hons) applied sport science at the University of Edinburgh UK

M. Sc. Applied sports & exercise medicine at University of Nottingham UK

E-mail：aaronywang93@cdsu.edu.cn

在本刊推出的前两期编辑漫谈中，编辑部两位资深编辑分别就体育人文社会学和运动训练学领域论文的撰写规范与大家进行了交流和分享。作为一名新手编辑，与前辈相较，本人从事编辑工作的资历尚欠，今日尚无法就此问题与大家分享观点。之前，在《运动医学与健康科学（英文）》所组织的两位教授讲座中，各位读者对科研方法方面有浓厚的兴趣，而研究方法也是一篇出色科研论文的基石。结合我在国外留学期间的学习经历，以及在审稿中看到的种种关于研究方法的问题，今天给大家分享关于科研中信效度的问题。

信效度

在科学研究中，我们需要对研究所需要的变量进行测量和统计测试。因此，在实验设计之初，我们需要考虑所用的研究方法、测量手段，以及对数据所使用的统计测试是否有效可靠。此时，就需要对信效度进行考量，来确保测量的数据和得出的结论都是准确有效的。

//信度

信度（Reliability）指的是观测一致性或可重复性（the consistency or repeatability of an observation）[1]。也就是说每次观测所得的结果与真实值之间的误差都是一致的。举例来说，我们对3款智能手表的计步功能进行评估，分别戴着手表走1000步并重复多次。3款手表的读数分别在960~1048，750~780和980~995之间。第2和第3款手表的信度就比第1款手表高，因其每次测量之间的误差都比其他两块要大。

//效度

效度（Validity）指的是测试分数的真实程度(the degree of truthfulness of a test score)[1]。简单来说，就是一个测试得到的结果与被测试目标的真正数值的差距。以手表测步数的例子来说，同样都是对1000步进行测量，第1块手表和第3块手表的读数比第2块要更接近真实的步数，他们的效度也就相对更高。值得注意的是，一个测试或者设备要有较高效度的话首先需要有较高的信度（to be reliable in order to be valid）。信效度根据不同的情况还可以继续细分。这里就以体力活动和久坐行为的研究方向为例[2]，为大家举例说明。

//表面效度

表面效度（face validity）指测试是否达到了我们想说或者说认为它应该测试的目标。比如说体重指数（BMI）和皮褶钳都可以用来评估一个人是否肥胖，但使用皮褶钳来评估就比使用BMI要有更高的效度，因为BMI只是简单对比较了体重与身高的关系，并不能区分去脂体重与脂肪的重量，而肥胖的定义是体内脂肪的过度堆积。著名健美运动员阿诺施瓦辛格巅峰时期的BMI高达30.27kg/㎡，已经达到了WHO肥胖的标准，事实上他的体脂含量比大多数人都低。

//聚合效度

聚合效度（convergent validity）又叫收敛效度，指得是同一时间使用不同的测试（非金标准）在同样的条件下测量同一目标之间的一致性。举例说明，运动强度的绝对最佳测量手段是对功率的直接测量（能量代谢仓），对呼气分析和心率也是常见的运动强度估测的方式。假如，我们同时在一次测试中测量一位运动员骑车时的心率，以及同时用呼出气体的成分来估测运动强度。那么两种方法之间的差异就是其对另一种方式的聚合效度。

//效标效度

效标效度（criterion validity）指的是同一时间在相同条件下对同一个目标用一个非金标准的测试进行测量，比较与金标准之间的一致性。测试摄氧量的金标准是递增符合测试中的直接测试法，即使用气体代谢分析仪对呼出气体进行测定。然而由于其对实验室条件的需求，并不能作为场地测试在日常中使用，日常中使用较多的是运动时的心率，因为心率与最大摄氧量之间存在着一定的相关性。心率与直接测量摄氧量之间的一致性就为效标效度。

//外部效度

外部效度（external validity）指的是实验结果转移到其他环境中的有效性或普遍性。比如说动物实验中得出的结果，放到人体中是否还会有同样的功效。抑或是在普通人群中得出的结论，放到精英运动员中是否还有效。

//重测信度

重测信度（test-retest reliability）又叫可重复性，指的是同一个测试在前后两次相同的条件下对目标测试的一致性。举个例子，同一位裁判员用某种评价体系对同一个运动员完成某项动作的录像先后进行评分，两次评分的一致性就是这个评价体系的重测信度。当然，在现实中，对重测信度的评估需要多位评分者在同一人群中对多个样本进行评估。

//评分者间、评分者内信度

评分者间、评分者内信度（Inter/intra rater reliability）指多位评分者在同一时间对相同目标用同一测试进行测量的一致性（评分者间 inter rater）, 或是同一人在不同时间对同一目标用同一测试进行测量的一致性（评分者内 intra rater）。

//设备间、设备内信度

设备间、设备内信度（Inter/intra instrument reliability）指测试者在同一时间使用不同版本的测试对相同目标进行测量的一致性（设备间 inter instrument）, 或是使用同一版本测试在不同时间对同一目标进行测量的一致性（设备内 intra instrument）。

由于篇幅的关系，也只能为大家用举例的方式介绍了一下常见类型的信效度。希望大家在研究中，特别是设计实验的时候，能够注意到信效度对结果的影响，在实验设计上避免造成偏差。

参考文献

[1] Morrow Jr JR, Mood D, Disch J, Kang M. Measurement and Evaluation in Human Performance[M].5th ed. IL,Champaign：Human Kinetics,2015.

[2] Kelly P, Fitzsimons C, Baker G. Should we reframe how we think about physical activity and sedentary behaviour measurement? Validity and reliability reconsidered[J]. International Journal of Behavioral Nutrition and Physical Activity. 2016,13(1):32-42.

来源：Sports_Academic_Res 体育学术研究

原文链接：http://mp.weixin.qq.com/s?__biz=MzIyMzE4Mzc3MA==&mid=2650902192&idx=2&sn=68e149806f9ce5af82a881efaad267de

电话：（010）86409582

邮箱：kejie@scimall.org.cn