这项由新加坡国立大学杨潞龄医学院进行的研究,让两名人类考生和人工智能聊天机器人ChatGPT一同参与妇产科客观结构化临床考试的其中七个环节。

ChatGPT也不太能处理有多种场景变化或需要开放式理解的情况,人类则具备高层次洞察力和推理能力来解决问题中的歧义,因此ChatGPT在高度情境化的情况下表现比较逊色。

研究发现,ChatGPT取得的平均分数为77.2%,高于两名人类考生的73.7%。每道关卡都限时10分钟,但ChatGPT平均只需2分54秒就能完成。不过,虽然ChatGPT完成考试时间最短,但ChatGPT的成绩并不是所有考生当中最高的。

延伸阅读

另外,研究团队也指出,生成式人工智能虽然还在发展初期,但它能快速整合并分析大量资讯,将这些资讯整理成清晰简短的对话,这是母语非英语或面对考试压力的考生无法自然做到的。

团队在分析答案时也发现,ChatGPT在同理心沟通领域表现出色,能在最短的时间内,利用不熟悉的数据以及根据不断变化的临床情况,熟练并快速地生成事实准确、前后相关的答案。相较之下,普通智商的人类要完成超过10年的临床培训才能理解这类考试的问题并正确回答。

每个环节要求他们在10分钟内,根据陌生的临床情况来评估病患并设计护理方案,考验收集信息、沟通、运用临床知识和维护病患安全的能力。人类和ChatGPT的考试难度与范围相似,都取自过去两年的实际模拟考试。

他指出,学院正在使用生成式人工智能技术来改善病患护理和医疗资源的使用,也正在探索如何利用这项技术来协助初级医生的培训,以及对一系列常规流程进行简化或自动化。

用掺杂式本地语言与方言 更易与病患建立信任

快速整合分析大量资讯 整理成清晰简短对话

楚兰尼说:“作为医生和医学教育者,我们须要强调并举例说明,在医疗培训和临床护理中,软技能、富有同情心的沟通和知识应用的重要。”

人工智能工具ChatGPT在妇产科临床考试中的表现胜过人类学生,作答时间也更短,日后或可用于协助培训初级医生,以及改善病患护理和医疗资源的使用。

不过,研究人员也发现ChatGPT的不足之处,例如考官一般上可以分辨出人工智能的作答。另外,考生使用的语言一般会掺杂新加坡式英语、华人方言、马来语或淡米尔语词汇,因此新加坡人和本地长期居民会觉得比较亲切,可以更好地建立与病患之间的信任。相较之下,ChatGPT缺乏对新加坡不同种族的认识,导致部分答案是错误或无关的。

领导研究的杨潞龄医学院妇产科主管楚兰尼(Mahesh Choolani)副教授说:“ChatGPT的出现和广泛使用,可作为医学教育的资源,为临床护理提供实时的辅助,甚至是监测病患的治疗。 ”