- A+
编者按
医患之间清晰的沟通对于有效提供医疗服务至关重要。衡量非英语母语者的英语口语技能是确保美国医疗服务质量的关键步骤。过往研究表明,美国执业医师资格考试第2步临床技能考试的英语水平评分非常可靠,然而,英语母语者和非英语母语者的分数分布差异很大。今天的文献导读推荐一篇于2009年在《Academic Medicine Journal of the Association of American Medical Colleges》发表的文章,该研究利用概化理论进一步评估了英语母语者和非英语母语者在USMLE第二步临床技能考试SEP评分中的精度,并试图提出了一种可能提高评分精度的途径。
USMLE第二步临床技能考试中英语口语能力分数的测量精度
Measurement Precision of Spoken English Proficiency Scores on
the USMLE Step 2 Clinical Skills Examination
01
研究背景
医生和患者之间清晰的沟通对于有效提供医疗服务至关重要。作为提供成功护理的一部分,医生必须具备必要的语言技能,如要求描述患者的当前症状、过去病史和相关家族疾病信息等。无效的沟通可能会导致患者的误解、不依从或其他负面结果。为了确保医生能与患者有效沟通,标准化病人(SPs)已被广泛应用于评估模拟临床环境中的沟通技能。
许多(英语)非母语从业者选择在美国行医,衡量进入英语国家工作医生的英语口语技能(Spoken English proficiency; SEP)是确保医生能力的一个重要方面。作为美国执业医师资格考试第2步临床技能(CS)考试的一部分,SPs对每个考生在12个病例中的英语熟练程度进行评分。研究表明,这些评分非常可靠,概化系数从0.95到0.98不等,然而,高可靠性并不一定能保证足够的测量精度。因此,本研究旨在进一步评估英语母语和非母语人士在USMLE第二步临床技能考试SEP评分的精度。
02
研究方法
数据来源:
USMLE第二步CS考试要求每个考生与12个SP互动,每个SP描述一个特定的临床问题。通常情况下,其中的11次互动会被打分,1次可用于试点测试。在每次互动中,考生有15分钟的时间向患者了解病史并进行体格检查。在完成每次互动后,考生花10分钟时间对结构化的患者记录中进行梳理与总结。
SPs在每次问诊中使用3个评分工具:(1)1份二分法的检查表,用于评估考生收集病史和进行重点体检的能力;(2)3个评分量表,用于评估沟通和人际交往能力;(3)1个九点评分表,评估SEP。SEP量表主要涉及发音错误、单词选择错误的频率,以及考生被要求重复自己的程度。
本研究基于29084名首次参加USMLE考生的SEP分数,其于2007年7月15日至200
8年7月2日期间在常规考试管理条件下进行考试。29084名考生中,40%为国际毕业生,46%为女性,39%为非英语母语人士。
分析方法:
概化理论为评估绩效评级和其他复杂类型评价的精度提供了一个综合框架。其使用方差分析来分解评分差异的来源。本研究涉及三种差异来源:(1)考生效应(个体差异,是σ 2 p);(2)病例效应(病例差异,σ 2 c);(3)考生和评价人的交互效应(误差或剩余方差,σ 2 e)。其中,考生效应是指每位考生得到的评分应该受到考生真实熟练水平的影响;病例效应是指每位考生得到的评分可能受到病例本身难度的影响;交互效应则是指某些病例对某些考生来说会更容易,但对其他考生来说可能会更困难。此外,在这些数据中还有一个不可能分离的差异来源——与SP相关的影响。 因为每个SP通常在整个测试过程中只描述一个病例,所以病例差异和SP差异是不可分割的。这里使用的术语“病例差异”实际上指的是这两个来源。
方差分析包括两个部分。
首先,计算SEM和Phi系数,二者为测量精度指数。其中,SEM为测量标准误差,Phi为信度指数,记为Ф。Phi系数与常见概化系数之间的区别在于,Phi系数包括了病例效应。然而,在本设计中,病例是嵌套在考生中的,故Phi系数与常见系数是相同的,但为清楚起见,仍使用Phi系数这一术语。
具体计算步骤为:(1)分别估计整体考生组、英语母语组和非英语母语组的方差分量,即每组均获得考生(σ 2 p)、病例(σ 2 c)和交互效应(σ 2 e)的方差分量。(2)计算每组SEM和Phi系数(Ф)。通过以下方式获得:
%20其中Nc为病例数(Nc=11),%20σ2D为绝对误差方差(absolute%20error%20variance,其平方根为SEM,%20σ2D包括随机误差及其他更系统情况的效应。%20
%20第二,由于Phi系数和SEM是分数精度的平均指数。因此,它们没有表示在分数连续点上精度的变化程度。鉴于本研究的目标是评估两组分数在不同范围考生的测量精度,故评估每个分数水平的测量误差是十分重要的。概化理论包含了计算特定分数水平的SEM的规定,该指数称为条件
(Conditional)测量标准误差(CSEM),通过以下方法获得:
其中Xpc是病例(SP)c和Xp给考生p的评分,是考生所有评分的平均值。CSEM 的大小取决于11个病例(SP)对考生评分的一致程度,数值越大表示一致性越差。
03
研究结果
表1总结了观察到的SEP分数、方差分量和测量精度指数。如表1所示,在SEP方面,整体考生组平均分数普遍较高,但显著低于英语母语组;英语母语组标准差低于非英语母语组。这些差异反映了一个事实,即非母语者,其中大多数是移民者,在背景和经验方面更加异质。这些异质性的差异导致两组的方差分量并不相同。然而,由于在不同群体中,与每个分量相关的百分比是相似的,因此,英语母语组和非英语母语组的Phi值几乎是相同的。整体考生组的Phi系数非常高(0.954),该值与前人研究基本一致。此外,非英语母语组的SEM是英语母语组的两到三倍。为完全理解这一现象,需在特定分数水平上检查测量误差。
%20图1显示了两组考生的CSEM值。很明显,评分量表中下端的分数不如上端的分数精确,并且由灰色水平线表示的整体SEM不完整地描述了测量误差的分布。尽管中端的值有所提高,但整体而言,英语母语组和非英语母语组的CSEM非常相似。
%20 %2004
%20研究结论
%20研究结果表明,SEP分数一般非常可信,与前人研究结论一致。英语母语者和非母语者的测量精度基本相同,但两组的测量误差在量表的中间和底部均有所增加。%20目前的分析结果提出了一种提高评分精度的途径,即病例效应,σ2c,其占据整体误差方差的重要部分。%20σ2c值代表了病例和描述该病例的SP的综合影响,通常被定义为同理心误差,可通过统计调整来减少或消除这种影响。本研究的数据表明,统计调整将使全部考生的总体SEM从0.23降至0.20。故可以合理预期,CSEM的改善将在评分量表的中间区域最大,因
为该区域的精度最低。
文献来源:Raymond MR, Clauser BE, Swygert K, et al. Measurement Precision of Spoken English Proficiency Scores on the USMLE Step 2 Clinical Skills Examination[J]. Academic Medicine Journal of the Association of American Medical Colleges, 2009, 84(Supplement): 83-5.
导读:周文静
审阅:江哲涵返回搜狐,查看更多
责任编辑: