软件定义数智病理

重磅！IF=30.8 赛维森科技与中山大学孙逸仙纪念医院等联合开发的“甲状腺细胞学AI辅助诊断系统”研究公开发表！

2024-06-11

近日，赛维森科技携手中山大学孙逸仙纪念医院欧阳能太教授团队、广州医科大学附属第三医院江庆萍教授团队、四川省肿瘤医院及佛山市第一人民医院的研究成果在国际权威期刊：The Lancet Digital Health（IF=30.8）在线发表，题为"Deep learning models for thyroid nodules diagnosis of fine-needle aspiration biopsy: a retrospective, prospective, multicentre study in China"。本研究旨在开发一种甲状腺细胞学AI辅助诊断系统（Thyroid Patch-Oriented WSI Ensemble Recognition，ThyroPower），以促进甲状腺结节的快速稳定诊断。

研究背景：

甲状腺结节高发是全球健康问题，其中约10-15%为甲状腺癌，甲状腺癌是一种较为常见的内分泌系统恶性肿瘤。因此，准确识别甲状腺结节的良恶性是至关重要的。细针穿刺（FNA）细胞学是最精确的单一检测方法，能在大多数情况下提供明确诊断。FNA细胞学诊断推荐用于具有可疑超声模式的甲状腺结节，并被各种临床实践指南推荐。甲状腺细胞学使用TBSRTC报告系统，它是一个标准化的、基于类别的报告系统，全球广泛采用。然而，细胞学诊断需要经验，且耗时费力。中国细胞病理学家和病理学家的短缺增加了诊断等待时间，阻碍了FNA细胞病理学的广泛应用。因此，迫切需要辅助工具提高FNA诊断效率，以满足日益增长的患者需求。

除了对有经验病理学家的依赖，甲状腺细胞学诊断的另一难点是对于AUS（意义不明确的细胞非典型病变，即TBSRTC III类）的诊断。约7-10%的甲状腺结节归类为此类，恶性风险（ROM）为13-30%。这种不确定的诊断可能会导致患者过度担忧和过度治疗。通过提高诊断确定性是减少过度治疗的重要策略。一些分子标记物具有高诊断精度，可辅助甲状腺癌诊断。例如，BRAF V600E突变是甲状腺结节恶性的重要指标，如果甲状腺结节中发现BRAF V600E突变，那么甲状腺乳头状癌的风险几乎为100%。然而，由于样本不足、费用高和测试不可用等原因，并非所有患者都能进行基因检测。

既往AI在甲状腺细胞学的研究中存在两个主要限制：

（1）仅执行简单的二元分类（良性与恶性）；

（2）仅基于来自少数数百名患者的细胞学FNA图像。

鉴于以上挑战，研究团队开发了一种甲状腺细胞学AI辅助诊断系统（Thyroid Patch-Oriented WSI Ensemble Recognition，ThyroPower），以促进甲状腺结节的快速稳定诊断。该模型在大量样本上进行了训练，并使用回顾性多中心数据集和真实世界的前瞻性数据集进行了性能和稳定性的验证。同时，在前瞻性数据集上验证了模型对于初级医生的辅助效果。此外，我们还探索了ThyroPower系统辅助诊AUS样本的潜力，评估了BRAF V600E突变状态与AI预测之间的一致性。

模型的构建：

该模型模仿细胞病理医生的诊断过程，先使用我们提出的细胞级模型PAGIN扫描WSI全片以定位各类细胞并提取有用的诊断特征（图1A，B），然后根据这些信息使用两个WSI级分类器的融合模型产生诊断决策（图1C）。细胞级分类和WSI级分类的定义以及对应的TBSRTC分类，详见图2。

模型使用来自4037名患者的11254张WSI训练模型，其中还包括45397个由细胞病理学家根据TBSRTC系统手动注释的patch图像。

在开发PAGIN模型期间，评估了不同网络的性能，结果显示EfficientNet-b0在性能和效率方面表现最佳，而进一步提出了一个卷积注意力块模块，该模块紧接在模型主干网络之后。通过添加卷积注意力块模块，细胞级的整体AUC从0.924提高到0.936。

为达到WSI级分类，ThyroPower使用了两个子模型的融合：一个使用统计特征的经典机器学习模型随机森林（RF），以及一个创新的名为TNF多实例学习模型。结果表明，融合模型具有最高的AUC，显著提高了特异性和PPV（图2）。

图1

图2

图3

回顾性和前瞻性验证：

研究使用了来自四个医疗中心的2914名患者的5638张WSI的回顾性数据集进行验证。评估了ThyroPower在这四个医疗中心的TBSRTC分类性能（图4）。ThyroPower在不同细胞类型的分类上与资深细胞病理学家表现一致（图5A，B）。在区分良性与TBSRTC III+方面，AUC为0.930（SYSMH）、0.944（FPHF）、0.939（SCHI）和0.971（TAHGMU）。在区分良性与TBSRTC V+方面，AUC为0.990（SYSMH）、0.988（FPHF）、0.965（SCHI）和0.991（TAHGMU）。并且性能在不同的亚组中是稳定的，包括不同的性别和年龄。

在前瞻性研究中，总共收集1064个WSIs，来自469名患者的537个样本。模型区分良性与TBSRTC III+和TBSRTC V+的AUC分别为0.977和0.981。

图4

图5

ThyroPower对初级医生的辅助效果：

进一步评估ThyroPower系统在辅助初级医生诊断方面的能力。所有样本最初由初级医生诊断，经过一个洗脱期后，AI预测的结果以及感兴趣区域（ROIs）展示出来。通过我们的ThyroPower系统界面，医生可以轻松快速地找到可能含有病变细胞的ROIs（图6）。初级医生在ThyroPower系统的协助重新作出诊断。最后，金标准由三名高级细胞医生进行评定。ThyroPower将初级医生的准确性从0.877提高到0.948，并将特异性从0.887提高到0.993 （图7A、B，图8）。

图6

图7

图8

细胞学诊断与术后病理金标准的一致性探究：

上述评估和比较主要基于高级细胞医生的判断。然而，术后组织病理学是甲状腺癌诊断的金标准。为了进行更客观和准确的评估，我们使用术后组织病理学信息比较了ThyroPower和高级细胞医生的诊断结果。选择了有术后病理信息的651名患者的757个WSI。ThyroPower达到了和高级细胞医生相当的表现（图7C）。ThyroPower的灵敏度略低于高级细胞医生，但特异性更高。AI和高级细胞医生的灵敏度分别为0.842和0.922；AI和高级细胞医生的特异性分别为0.880和0.831。

提高AUS样本诊断确定性的探索：

由于细胞学诊断中AUS的不确定性较高，其ROM为13-30%，研究同时探讨了使用模型对AUS样本进行确定性诊断的潜力。

尽管ThyroPower是一个与TBSRTC相匹配的多类别分类器，我们探索了一个额外的阈值步骤，以帮助模型进一步诊断AUS样本。我们在BFN类别的输出概率上应用了阈值化，因为它表示样本为良性的可能性。所选阈值基于内部验证队列上计算的F2分数与阈值曲线（图7D）。选择的阈值为0.083，相应的最佳F2分数为0.847（图7D）。细胞学AUS样本中，良性概率低于所选阈值的被建议为恶性，并可能被推荐进行进一步的临床管理。图5E中的混淆矩阵显示，90.7%携带 BRAF V600E突变的AUS样本被模型判断为恶性。

结论与前景：

本研究开发的ThyroPower系统在辅助诊断甲状腺细胞学方面显示出显著的潜力。ThyroPower利用来自四个中心的7420名患者的大规模数据集，包括17966张WSIs和8426张涂片，展现出与资深细胞病理学家相当的诊断性能。通过结合深度学习模型和额外的阈值步骤，该系统在内部和外部验证数据集中均表现良好，并且在识别AUS样本中的恶性肿瘤方面展现出潜力。

总之，ThyroPower系统通过有效提高细胞病医生的诊断准确性和效率，在甲状腺细胞学诊断中具有重要应用前景。此外，ThyroPower系统在资源有限的基层医院具有重要的应用价值，有助于缓解病理学家短缺的问题，并提供更可靠的诊断支持。

赛维森科技始终秉承着科技助力健康的理念，积极与科研院所合作，共同推动医疗技术进步，为早日实现全民健康贡献力量！

论文链接：

https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00085-2/fulltext