首页AI 新闻
开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT
8

开源中文医疗大模型华佗GPT来了,真人医生盲测效果优于ChatGPT

好说新闻
好说新闻
2023-05-31 15:49

王本友教授团队位于香港中文大学(深圳)和深圳市大数据研究院,他们训练并开源了一个名为“华佗GPT”的新医疗大模型,旨在让语言模型具备像医生一样的诊断能力和提供有用信息的能力。

这个模型基于医生回复和ChatGPT回答,能够提供准确、充实的问诊服务,让语言模型像医生一样,能够提供准确的诊断和有用的建议,更好地为人们的健康服务。

大规模语言模型(LLM)在医疗领域具有广泛的应用前景。虽然像 ChatGPT 这样的语言模型能够产生详尽、流畅、逻辑清晰的回复,但当回应患者描述症状时,缺乏专业性和准确理解患者输入。这些回复通常包含多种可能性,呈现出较高层次的建议形式,但它们无法深入理解上下文,限制了它们对患者案例的实际帮助。

医生与患者的互动数据可以更准确地反映医疗情景的复杂性,并提供准确无误的诊断建议。然而,由于时间的限制,医生回复通常简短到无法传递足够的信息,甚至有时可能显得不连贯。如果只依赖这些数据来训练模型,则难以应付不同指令或对话,生成的回答也会显得简短、表述不清,有时也会让患者感到困惑。

为了解决这个问题,王本友教授团队在香港中文大学(深圳)和深圳市大数据研究院的支持下,利用指令微调和强化学习将 ChatGPT 模型和医生回复结合起来,开发了一个新的医疗大规模语言模型——HuatuoGPT。HuatuoGPT 的目标是通过结合 ChatGPT 生成的“蒸馏数据”和真实世界医生回复的数据来实现模型与医生一样的诊断能力和提供有用信息的能力。同时,HuatuoGPT 坚持提供交互流畅、内容丰富的用户对话体验,让交流更加顺畅。

总之,HuatuoGPT 的出现一方面可以充分发挥 ChatGPT 模型的优势,扩大它在医疗领域的应用,并增强对现实场景的理解和表现能力。另一方面,HuatuoGPT 还可以借鉴医生的经验和专业知识,更好地解决语言模型在医疗领域应用的现实挑战,促进医疗智能化的发展。

HuatuoGPT 介绍

混合数据集微调

HuatuoGPT使用了四个不同的数据集进行微调,这些数据集分别是:

  • 蒸馏 ChatGPT 指令数据集(Distilled Instructions from ChatGPT):这个数据集从ChatGPT中提取医疗相关的指令,并加入了科室和角色信息,以生成符合条件的指令数据集。
  • 真实医生指令数据集(Real-world Instructions from Doctors):该数据集来源于真实医生和患者之间的问答,模型通过对医生的回复进行润色提高其可读性。
  • 蒸馏 ChatGPT 对话数据集(Distilled Conversations from ChatGPT):这个数据集通过共享对话背景,让两个ChatGPT模型分别模仿医生和患者进行对话。
  • 真实医生对话数据集(Real-world Conversations with Doctors):该数据集来源于真实医生的对话,但对医生的回复使用模型进行了润色。

这些数据集让HuatuoGPT拥有了一个统一的语言模式,以及医生的诊断能力和指令跟随能力。

基于 AI 反馈的强化学习

团队为了提升HuatuoGPT模型的质量,采用了基于AI反馈的强化学习(RLAIF)技术。该技术使用ChatGPT对模型生成的内容进行评分,考虑内容的用户友好程度,并结合医生的回答作为参考,将医生回复的质量纳入考量。利用PPO算法进行训练,以将模型的生成偏好调整到医生和用户之间达到一致,从而增强模型的生成丰富性、详尽性和正确性。

实验结果

在评估HuatuoGPT的性能表现方面,团队使用了自动评估和人工评估两种方式进行相互验证,在单轮问答场景和多轮交互式诊断场景中进行了评估。

图:多轮诊断场景的自动评测结果

对于单轮问答场景,团队精心收集了包含10个医疗领域意图的100个问题,并利用GPT-4进行自动评估。团队提供了两个模型对同一问题生成回复,并使用GPT-4对每个模型的回复进行分析和打分。最终结果显示,相对于基于LLaMa和ChatGLM的开源中文医疗模型,HuatuoGPT表现显著优秀,并甚至超过了GPT-3.5-turbo。这一优势得益于HuatuoGPT同时使用了从ChatGPT蒸馏的数据和真实世界数据进行训练,并借助来自ChatGPT和专业医生的混合反馈进行了优化。

对于多轮问诊场景,团队收集了涵盖20个科室的100个多轮对话进行了评估。评估结果显示,HuatuoGPT在大部分科室的表现上均优于GPT-3.5-turbo,并全面优于目前的开源中文医疗模型,这为HuatuoGPT在处理更加复杂的多轮问诊场景中的优异性能提供了有力的证据。

在人工评估方面,团队使用了自动评估中的样本进行评估验证,并邀请专业医生对模型的输出结果进行人工评估。评估结果表明,无论是单轮的人工评测还是多轮的人工评测结果都与自动评估的结果保持了一致,充分验证了模型性能评估的一致性和可靠性。

表:单轮问答场景人工评估结果

表:多轮问诊场景人工评估结果

除了HuatuoGPT模型,团队还开放了Huatuo-26M医疗问答数据集,总共包括2600W条医疗问答数据,全部开源到HuggingFace。如果需要干净的数据,可以通过发送邮件至 changmiaowang@cuhk.edu.cn 来获取,需要注明单位和承诺只用于科研目的。

此外,HuatuoGPT的表现不仅超过了GPT 3.5 turbo(ChatGPT)、ChatGLM和已有的医疗GPT,甚至也远好于全微调的中等大小的T5和GPT。这包括了Huatuo-26M在内的三个公开的医疗问答数据集。 值得一提的是,Huatuo也是哈工大SCIR实验室医疗GPT的名称,该实验室对开源社区做出了很大的贡献。不过,由于出现重名,该实验室已将其更名为本草(BenTsao)。 参考链接: 论文地址:https://arxiv.org/pdf/2305.15075.pdf Github 地址:https://github.com/FreedomIntelligence/HuatuoGPT Demo 地址:https://www.huatuogpt.cn/

全部讨论

no data来都来了,坐下聊聊