斯坦福研究 – 庄闲棋牌官网官方版 -199IT //www.otias-ub.com 发现数据的价值-199IT Tue, 03 Jun 2025 12:18:04 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.4.2 斯坦福大学:DeepSeek R1医疗大模型评测胜率66%领先 //www.otias-ub.com/archives/1760499.html Tue, 03 Jun 2025 12:18:04 +0000 //www.otias-ub.com/?p=1760499 斯坦福最新大模型医疗任务全面评测,DeepSeek R1以66%胜率拿下第一!歪国网友纷纷被惊艳住了,原因在于该评测重点聚焦临床医生的日常工作场景,而非仅局限于传统医疗执照考试题。

图片描述

 

要评测就要全 方 位。

团队构建了含35个基准测试的综合评估框架,覆盖22个子类别医疗任务。

整个评测的分类体系还经过了临床医生验证,由29名来自14个医学专科的执业医师共同参与开发。

光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心(CRFM)、微软的研究人员均在列。

图片描述

 

31页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型,DeepSeek R1以66%胜率、0.75宏观平均分领先。

为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。

图片描述

 

除DeepSeek R1领先外,o3-mini紧随其后,以64%胜率及最高0.77宏观平均分紧追;Claude 3.5和3.7 Sonnet则达到了63%、64%的胜率。

看了具体研究,网友表示这些评估很有帮助。

图片描述

 

下面来看更多细节。

大模型临床医疗任务大考

此综合评估框架名为MedHELM,受到了之前斯坦福HELM项目标准化跨领域评估思路的启发。

图片描述

 

研究核心贡献之一是构建了一个经过临床医生验证的分类体系。

该体系模拟了临床医生日常工作逻辑,包含三个层级:

类别:医疗活动的广泛领域(如“临床决策支持”);

子类别:类别下的相关任务组(如“支持诊断决策”);

任务:医疗服务中的离散操作(如“生成鉴别诊断”)。

在初步拟定分类体系时,一名临床医生基于《美国医学会杂志》(JAMA)综述中梳理的任务,将这些任务重组为反映真实医疗活动的功能主题,形成了一个含5个类别、21个子类别、98项任务的框架。

然后团队对这个初始分类体系进行验证。

来自14个医学专科的29名执业临床医生参与问卷调研,从分类逻辑和覆盖全面性两方面评估体系合理性。

根据反馈,体系最终扩展为5 个类别、22 个子类别、121 项任务,全面覆盖临床决策支持、临床病例生成、患者沟通与教育、医学研究辅助、管理与工作流程等医疗实践的各个方面,且26位临床医生对子类别分类达成96.7%的一致性。

图片描述

 

核心贡献二,在分类体系基础上,团队构建了一个含35个基准测试的综合评估套件,包括:

17个现有基准测试

5个基于现有数据集重新构建的基准测试

13个全新开发的基准测试

值得一提的是,13个全新开发的基准测试中有12个基于真实的电子健康记录数据,有效弥补了现有评估中真实医疗数据使用不足的问题。

最终这整套基准测试,完全覆盖了分类体系中的所有22个子类别,同时根据数据的敏感性和访问限制,这些基准测试被划分为14个公开、7个需要审批和14个私有的不同访问级别。

图片描述

 

考试题准备就绪后,研究团队对9个前沿大语言模型进行了系统性评估。

评测结果如何?

评估显示,模型表现存在显著差异。

DeepSeek R1表现最佳,在两两对比中以66%的胜率领先,宏观平均分为0.75,且胜率标准差较低(0.10)。

其中胜率指模型在全部35个基准测试的两两对比中表现更优的比例。胜率标准差(SD)衡量模型获胜的稳定性(值越低=稳定性越高)。宏观平均分是所有35个基准测试的平均性能得分。标准差(SD)反映模型在不同基准测试中的性能波动(值越低=跨基准一致性越高)。

o3-mini紧随其后,在临床决策支持类别基准中表现较优,以64%的胜率和最高宏观平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet胜率分别为64%、63%,宏观平均分均为0.73;GPT-4o胜率为57%;Gemini 2.0 Flash和GPT-4o mini胜率较低,分别为42%、39%。

另外,开源模型Llama 3.3 Instruct胜率为30%;Gemini 1.5 Pro以24%的胜率排名末位,但其胜率标准差最低(0.08),显示出最稳定的竞争表现。

图片描述

 

团队还以热图形式展示了每个模型在35个基准测试中的标准化得分,深绿色表示性能更高,深红色表示低性能。

图片描述

 

结果显示,模型在以下基准测试中表现较差:

MedCalc-Bench(从患者病历中计算医学值)

EHRSQL(根据自然语言指令生成用于临床研究的SQL查询——原设计为代码生成数据集)

MIMIC-IV Billing Code(为临床病例分配ICD-10代码)

在NoteExtract基准测试(从临床病历中提取特定信息)中表现最佳。

更深入的分析显示,不同类别的任务中模型表现呈现明显的层次性差异。

在临床病例生成任务中,大多数模型达到了0.74-0.85的高分表现;在患者沟通教育任务中表现同样出色,得分在0.76-0.89之间;在医学研究辅助(0.65-0.75)和临床决策支持(0.61-0.76)类别中表现中等,而在管理与工作流程(0.53-0.63)类别中的得分普遍较低。

这种差异反映了自由文本生成任务(如临床病例生成、患者沟通)更适合发挥大语言模型的自然语言优势,而结构化推理任务则需要更强的领域特定知识整合和逻辑推理能力。

图片描述

 

对于13个开放式基准测试,团队采用了大语言模型评审团(LLM-jury)评估方法。

为评估该方法的有效性,团队收集了临床医生对部分模型输出的独立评分。其中,从ACI-Bench中选取了31个实例,从MEDIQA-QA中选取了25个实例,以比较临床医生给出的分数与评审团的综合评分。

图片描述

 

结果显示,LLM陪审团方法与临床医生评分的一致性达到0.47的组内相关系数,不仅超过了临床医生之间的平均一致性(ICC=0.43),也明显优于传统的自动化评估指标如ROUGE-L(0.36)和BERTScore-F1(0.44)。

团队由此认为,大语言模型评审团比标准词汇指标更能反映临床医生的判断,证明了其作为临床医生评分替代方法的有效性。

成本效益分析是该研究的另一个创新,基于2025年5月12日的公开定价,团队结合基准测试运行和大语言模型评审团评估过程中消耗的输入总token数和最大输出token数,估算了每个模型所需的成本。

图片描述

 

正如预期,非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低,胜率分别为0.39和0.42。

推理模型成本较高,DeepSeek R1(1806美元)和o3-mini(1722美元)的胜率分别为0.66和0.64。

综合来看,Claude 3.5 Sonnet(1571美元)和Claude 3.7 Sonnet(1537美元)在性价比上表现良好,以较低成本实现了约0.63的胜率。

图片描述

 

 

自 量子位
]]>
斯坦福研究:ipad们让孩子们社交能力退化 //www.otias-ub.com/archives/23115.html Tue, 31 Jan 2012 08:34:56 +0000 //www.otias-ub.com/?p=23115 苹果开发的视频聊天应用FaceTime并不能取代真人的面对面交流,对于孩子们来说尤其如此。本周三发布在某科学期刊上的一项斯坦福大学研究成果表示: “根据最新研究,沉迷于YouTube、Facebook、电视和短信中的发育期女孩更易产生社交问题。”

通过在美国国内收到的3461名8岁到12岁之间的女孩的有效答卷,这项调查显示,把大部分时间花费在移动设备、在线社交和观看视频等各种应用的那些女孩子们的正常社交能力发展得最晚。

“这项研究的调查对象只是《发现女孩》杂志(Discovery Girls)的受调查读者,但是研究的结果也适用于男孩。”研究小组的成员之一,斯坦福的通讯学科教授克利福德·纳斯(Clifford Nass)在接受电话采访时说。男孩的社交发展比女孩的难于分析,因为男性的社会化发展变化幅度比较大,时间跨度也更长。纳斯教授说:“最让我们震惊的是,居然没有人对这个问题加以关注。社交发展应该是孩子们的必修课,而发展社会交往能力的方式,毫无疑问是注意其他的人,孩子们必须用双眼去看着真实的别人。”

这项研究发现,对孩子们的“数码亢奋症”的有效解毒剂,就是用大量时间来和人们面对面沟通。根据著作《发展心理学》(Developmental Psychology)的发现,有规律地和朋友及家人交谈的孩子较少出现社交问题。

 “如果你避开面对面沟通的话,你就无法学到一些关键性的东西,”纳斯教授说,“你真的需要学习社交技能,学习什么是情感。”

纳斯教授说,斯坦福的研究不能确定孩子们每周需要多少个小时谈话时间,但可以确定的是,社交技能的获得需要孩子们在面对面的交流中专心投入,而不是在聊天的时候玩着ipod敷衍了事。

他还表示,FaceTime和Skype并不能真正替代面对面的交谈的另一个原因是,有其他研究证明人们在视频聊天时,总会习惯同时多任务运行,而面对面聊天的时候显然不会这样。

纳斯教授是个有25年经验的自我表达研究专家,他现在同时担任包括谷歌、微软在内的多家大型IT公司的顾问,他说,此次研究的发现让他非常矛盾。

几年以前,纳斯教授从事过一项研究,是关于多任务运行对于成人的影响的。他发现深度进行多任务运行的人群出现了认知障碍,包括难以集中精力和难以保持记忆等,“跟较少进行多任务运行的人群相比,他们确确实实变得更糟的是判断各种事情的能力——那是一种对他们的职业生涯至关重要的技能。”纳斯教授说。

]]>