24小时故障咨询电话点击右边热线,在线解答故障拨打:400-996-1195
百色美诺电器售后中心电话(全国24H)服务400_佛山照明:关于回购股份注销完成暨股份变动的公告

百色美诺电器售后中心电话(全国24H)服务400

全国报修热线:400-996-1195

更新时间:

百色美诺电器全国24小时服务点热线号码-









百色美诺电器维修电话:(1)400-996-1195(2)400-996-1195





















百色美诺电器各售后全国24小时客服受理中心

















百色美诺电器售后中心电话(全国24H)服务400:(3)400-996-1195(4)400-996-1195























百色美诺电器售后服务电话:(5)400-996-1195

























7天24小时人工电话客服为您服务、百色美诺电器服务团队在调度中心的统筹调配下,百色美诺电器线下专业全国网点及各地区售后人员服务团队等专属服务,整个报修流程规范有序,后期同步跟踪查询公开透明。

























所有售后团队均经过专业培训、持证上岗,所用产品配件均为原厂直供,





























百色美诺电器全国24小时服务点热线号码-





























百色美诺电器服务电话全国服务区域:
























百色美诺电器各售后全国24小时客服受理中心






上海市(浦东新区、徐汇区、黄浦区、杨浦区、虹口区、闵行区、长宁区、普陀区、宝山区、静安区、闸北区、卢湾区、松江区、嘉定区、南汇区、金山区、青浦区、奉贤区)





























北京市(东城区、西城区、崇文区、宣武区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区)

























成都市(锦江区,青羊区,金牛区,武侯区,成华区,龙泉驿区,青白江区,新都区,温江区,双流区,郫都区,金堂县,大邑县,蒲江县,新津县,都江堰市,彭州市,邛崃市,崇州市)

























长沙市(芙蓉区,天心区,岳麓区,开福区,雨花区,望城区,长沙县,宁乡市,浏阳市)





























北京、上海、天津、重庆、南京、武汉、长沙、合肥、成都、南宁、杭州、广州、郑州、太原、济南、海口、哈尔滨、昆明、西安、福州、南宁、长春、沈阳、兰州、贵阳、湖州、南昌、深圳、东莞、珠海、常州、宁波、温州、绍兴、南通、苏州、张家港、徐州、宿迁、盐城、淮安、淮南、南通、泰州、昆山、扬州、无锡、北海、镇江、铜陵、滁州、芜湖、青岛、绵阳、咸阳、银川、嘉兴、佛山、宜昌、襄阳、株洲、柳州、安庆、黄石、怀化、岳阳、咸宁、石家庄、桂林、连云港、廊坊、大连、大庆、呼和浩特、乌鲁木齐、鞍山、齐齐哈尔、荆州、烟台、洛阳、柳州、

佛山照明:关于回购股份注销完成暨股份变动的公告

新智元报道

编辑:KingHZ

【新智元导读】o1-preview在医疗诊断中远超人类,赛博看病指日可待?

「根据(关于)OpenAI的最新论文,o1-preview在推理任务上远远优于医生,甚至天壤之别。AI对143项困难的NEJM CPC诊断结果分别为约80%到30%。现在相信你的医生而不咨询人工智能模型是危险的。」

Deedy的言论引来百万围观。

事实究竟如何?

在解决复杂的信息学、数学和工程问题以及医疗问答方面,o1-preview模型显示出优于 GPT-4 的能力。

医疗决策远非问答,o1-preview在医学上是否已全面超越人类?

哈佛、斯坦福、微软等机构的多名医学、AI专家联手,在医学推理任务中评估了OpenAI的o1-preview。

结果显示,模型在鉴别诊断、诊断临床推理和管理推理方面,已经超越人类;建议使用更好和更有意义的评估策略,跟上自动化系统在医疗推理基准上的进步。

文章推测要使用大语言模型辅助医生, 需要集成AI系统的临床试验和劳动力(再)训练。

论文链接:https://www.arxiv.org/abs/2412.10849

AI辅助诊断工具评估

在医学顶刊《JAMA》、《JAMA·内科》和《NPJ·数字医学》,有论文已指出大语言模型已在诊断基准测试中超越了人类,包括医科学生、住院医师和主治医师。

此次,针对鉴别诊断生成、推理报告、概率推理和管理推理任务, 联合团队评估了o1-preview的临床多步推理能力。

与医生、已有的大语言模型相比, o1-preview在鉴别诊断以及诊断和管理推理的质量都有明显提高。

鉴别诊断

自20世纪50年代以来,评估鉴别诊断生成器的首要标准是《新英格兰医学杂志》(NEJM)发表的临床病理学会议(CPCs)病例。这是也是评估o1-preview的第一个基准。

两位医生同时评估o1-preview的鉴别诊断质量,且在143个案例中有120个结果一致。

o1-preview在鉴别诊断中准确率高达78.3%(见图1)。

图1:鉴别诊断(DDx)生成器和大语言模型在鉴别诊断的正确率条形图,按年份排序

图1中的o1-preview的数据是基于在《新英格兰医学杂志》(NEJM)发表的临床病理学会议(CPCs)病例。其他大语言模型或DDx生成器的数据是从文献中获得的。

o1-preview的建议的首次诊断的正确率为52%。

o1-preview在预训练截止日期前的准确率为79.8%,之后为73.5%, 没有显著差异。

表1展示了o1-preview可以解决而ChatGPT4无法解决的复杂案例。

表1:o1-preview正确诊断出GPT-4无法解决的三个复杂病例

表1中Bond Score的范围是从0到5, 其中5分表示鉴别诊断列表中包含了正确的目标诊断, 而0分表示鉴别诊断列表中没有接近目标的选项。

o1-preview在88.6%的病例中得出了准确或非常接近准确的诊断结果,而GPT-4只有72.9%(见图 2A)。

两名医生根据CPC中描述的患者实际治疗情况,对o1-preview提出的检查计划进行了评分, 总计132例,其中113例两人的评分一致。

在87.5%的病例中,o1-preview选择了正确的检查项目,另有11%的病例中,两位医生认为所选的检查方案是有用的,只有1.5%的病例认为是没用的(图 3)。相关例子见表2。

图3:o1-preview在预测下一步应进行的诊断测试方面的性能

在实验中两名医生使用「无用(unhelpful)」、「有用(helpful)」和「完全正确(exactly right)」的李克特量表对预测结果进行了测量。

并从全部病例中剔除了7个病例,因为这些病例要求进行下一次检查是不合理的。

表2:o1-preview 建议的测试计划与案例中使用的测试计划对比示例(左右滑动查看)

表2中案例得分为2分,表明测试比较好,与案例计划几乎完全相同。1分表示所建议的诊断本来是有帮助的,或者可以通过病例中没有使用的测试得出诊断结果。0分表示所建议的诊断方法没有帮助。

NEJM Healer诊断案例

为评估临床推理, NEJM Healer案例专门设计了虚拟患者遭遇。

两位医生分别评估o1-preview的临床推理质量,在80个案例中,有79个案例达成了一致(约占99%)。

在80个案例中,o1-preview在78个案例中达到了完美的R-IDEA评分, 其表现远超GPT-4、主治医师和住院医师,如图4A所示。

图4:图A表示在20个NEJM Healer案例中,根据回答者分层的312个R-IDEA评分分布。图B表示初诊报告( initial triage presentation)中包含的不能遗漏诊断的比例的箱线图

图B中的总样本量为70,其中包括来自主治医师、GPT-4和o1-preview的18个回答,以及来自住院医师的16个回答。

o1-preview在初诊报告( initial triage presentation)中识别“不能错过”的诊断的比例见图4B,包含「不能错过」的诊断的中位数比例为0.92,与GPT-4、主治医师或住院医师没有显著差异。

灰质管理案例

在真实案例基础上,25位医生专家利用共识方法开发了5个临床实例(clinical vignettes)。

测试中先将临床实例呈现给模型,然后向其提出关于下一步管理的一系列问题。

两位医生对o1-preview的五个案例的回应进行了评分,一致性相当大。

o1-preview每个案例的中位数评分为86%(图5A),优于GPT-4、使用GPT-4的医生和使用传统资源的医生。

图5:图A表示大语言模型和医生的管理推理得分的标准化箱线图。图B表示模型和医生诊断推理得分的标准化箱线图

图A共包括五个案例。 o1-preview为每个案例生成一个响应,GPT-4为每个案例生成五个响应,使用GPT-4的医生总有176个响应,使用传统资源的医生总有199个响应。

使用混合效应模型估计,o1-preview比单独的GPT-4高出41.6%,比使用GPT-4的医生高出42.5%,比使用传统资源的医生高出49.0%。

标志性诊断案例

两位内科医生对o1-preview在六个诊断推理案例中的回答进行了评分,评价结果较为一致。o1-preview的中位数评分为97% (图5B)。

与历史控制数据相比,比GPT-4的得分为92%,使用GPT-4的医师得分为76% ,而使用传统资源的医师为74%。

使用混合效应模型估计,o1-preview与GPT-4相比表现相当(高出4.4%),比使用GPT-4的医师高18.6%,比使用传统资源的医师高20.2%。

诊断概率推理案例

在诊断概率推理中, 总使用了五个初级保健主题的案例。

以科学参考概率(scientific reference probabilities)为基准,比较了o1-preview,GPT-4和人类的概率推理能力。

其中人类由553名具有全国代表性的医疗从业者组成, 包括290名住院医师、202名主治医师和61名护士或医生助理。

如图6和表3所示,在概率推理方面, 无论在测试前还是在测试后o1-preview与GPT-4表现差不多。

只有冠状动脉疾病的压力测试中,o1-preview的预测密度比模型和人类更接近参考范围。

研究的局限性

此研究也有四处主要的局限性。 首先,o1-preview有啰嗦的倾向,可能会在试验中取得更高得分。

其次,目前的研究只反映了模型性能, 但现实中离不开人机交互。人机交互对开发临床决策辅助工具至关重要, 下一步应该确定大语言模型(比如o1-preview)能否增强人机交互。

但人类与计算机之间的交互或许是不可预测的,甚至表现良好的模型与人类交互中可能出现退化。

第三,研究只考察了临床推理的五个方面;但已经发现了几十个其他任务,它们可能对实际的临床护理有更大影响。

第四,研究案例集中在内科,但并不代表更广泛的医疗实践,包括多个亚专业,这些专业需要各种技能,如外科决策。研究也没有考虑诊断、患者特征或就医地点的差异。

参考资料:

https://arxiv.org/pdf/2412.10849

https://x.com/deedydas/status/1869049071346102729

相关推荐: