两登Nature!超2.5亿美元投资!


为了在不影响数据安全的情况下对医院内部的肿瘤病理切片数据进行分析,人工智能公司Owkin使用了一项联合学习研究来识别新辅助化疗反应的潜在生物标志物,同时在每家医院内保持患者特定数据的安全。

在上个月发表在《Nature Medicine》上的一篇文章中[1],来自Owkin的作者与法国四家医院的合作者说,他们的回顾性研究将机器学习软件应用于其中两家医院患者的全病理图像切片,并在另外两家医院的图像上对这些发现进行验证。作者说,通过这种方法,他们不仅开发了一个比只使用其中一家医院的数据更准确的预测治疗成功率的全球模型,而且还发现了潜在的生物标志物,经过进一步验证,这些标志物可以我们改善哪些患者对新辅助治疗反应良好的预测。

该研究利用联合学习开发了跨机构的模型,这种概念涉及将机器学习应用于每个数据源的孤岛数据,只共享摘要或学习的模型权重,从而创建一个全球模型。研究团队可以使用这样的模型,通过同意不复制特定患者的数据来获得更多的患者记录,这有助于他们遵守处理和存储私人数据的法律和机构限制,并减少私人信息通过中央服务器的漏洞被盗的风险。

Owkin研究员Jean du Terrail说,联合模式对于确保足够的数据以在罕见疾病研究中建立准确的机器学习模型特别有用,但很少有研究团队在现实世界条件下应用这种方法。

他说:“我们真的相信联合学习是未来的趋势,因为它是解锁数据访问的唯一途径。”

他的团队希望该研究结果能够帮助医生确定哪些患者有可能从新辅助化疗中获益,而新辅助化疗的结果目前很难用临床实践来预测。

“对于三阴性乳腺癌这样的罕见疾病来说,患者是否受益是非常重要的,因为当你只看一个机构,只看一个中心的时候,你可能对问题的看法有偏差。”,他说,“AI有可能解决这个问题,因为人工智能和机器学习算法正在吸收潜在的所有相关性和他们在数据中发现的模式,有机会接触到多个中心以了解全部病因和潜在问题的全部复杂性,这真的很重要。”

他认为根据这项概念验证研究的结果,有两条途径可供选择。他的团队希望利用这些结果来帮助指导研究中确定的前瞻性生物标志物的临床试验,他们还希望在研究中看到的组织学模式与三阴性乳腺癌中这些模式背后的生物过程之间建立联系,这些机制可能揭示了治疗的目标。

Owkin公司首席数据和平台官Mathieu Galtier说,最近的研究结果来自于2018年启动的一个项目,其目标是证明联合学习可以帮助研究合作者在回答临床问题的过程中跨越技术、数据安全、隐私、法律和验证方面的障碍。这家生物技术公司正依靠其机器学习模型来发现新的药物和治疗目标,三阴性乳腺癌研究结果有助于将联合学习作为该研究的基础。

Galtier拒绝说明Owkin计划如何应用这些结果。但是,自从文章在《Nature Medicine》上发表后,又有许多医院的代表就他们自己的数据和研究项目与该公司联系,他认为有机会扩大其合作者网络。

参与这项研究的四家法国医院,里昂的Léon Bérard中心、巴黎的居里研究所、维勒尤夫的古斯塔夫-鲁西研究所和图卢兹的图卢兹癌症大学研究所,让Owkin获得了676名患者的总共686张病理切片。在这些病理切片中,207张来自对新辅助化疗有完全反应的患者,379张在治疗后仍有癌症负担。

该研究中最大的队列来自巴黎的居里研究所,它提供了与420名三阴性乳腺癌患者有关的427张病理切片。研究人员说,他们用这些病理切片中的367张作为训练集,60张作为测试集,开发了一个模型,预测哪些患者将从新辅助化疗中受益,平均曲线下面积为0.64。他们用里昂Léon Bérard中心的患者病理切片开发了另一个模型,用82张病理切片进行训练,用20张病理切片进行测试,该模型的平均曲线下面积为0.60。

然而,该研究小组创建的最佳联合模型的平均曲线下面积为0.66。作者还创建了一个机器学习模型,他们根据Elston和Ellis的组织学等级和肿瘤浸润T淋巴细胞的百分比进行训练,这种组合旨在反映当前预测三阴性乳腺癌患者对新辅助化疗反应的临床实践,他们发现其最佳临床模型的平均曲线下面积为0.63。

该模型瞄准了与新辅助化疗反应有众所周知联系的生物标志物,如肿瘤浸润性T淋巴细胞,它与较高的反应可能性有关,以及与较高的不良反应风险有关的apocrine肿瘤细胞。它还确定了潜在的新生物标志物,额外的研究可以揭示坏死的存在是否与更高的完全治疗反应的可能性有关,以及纤维化是否与更高的不良反应风险有关。

作者写道:“需要进行更多的定量研究来评估每个标准的直接影响,以验证这些生物学的见解。”

Galtier指出,仅在单一机构训练集上开发的机器学习模型在应用于其他机构的病理切片图像时,效果不如联合模型好。

“这非常令人担忧,因为这意味着所有基于[来自]单一医院的数据所做的研究都可能是非常不可靠的。”

Galtier说,单个医院的机器学习模型看似准确度很高,实际上可能反映了一个对该机构的数据过度拟合的模型,并且通过额外的测试会带来糟糕的结果。即使在法国两家看似相似的医院中,临床技术、医院使用的设备、用于分析数据的软件、患者的人口统计学以及纳入患者的标准等方面的差异,都会增加基于机器学习的预测软件的开发困难,只有当这种预测软件足够强大和普遍时,才有可能在各临床中心发挥作用。

“我们所达到的是建立模型的稳健性和能力,这将适用于不同的医院。而这是关键的结果,从我的角度来看--从这篇论文来看--是我们已经建立了概括性更好的模型,这是机器学习最令人担忧的部分。”

Galtier说,有利于来自高加索患者的数据的全球偏倚也加剧了模型开发中的问题,并给研究人员带来了一个结构性问题。Owkin的联合学习模型也可以帮助解决这个问题,因为根据设计,它们纳入了异质数据,并包括了将被排除在其他研究之外的异常值。

虽然隐私问题和监管经常被认为是联合学习要克服的障碍,但Galtier认为研究人员之间的竞争可能是阻止更多数据集中化的关键因素。收集患者数据的研究人员往往希望保持对其数据集的控制,而联合学习尊重这种竞争,同时释放这些数据的力量。

Galtier说:“我们已经设法聚集了10家制药公司,从事相同或类似的课题研究,他们都是大的竞争对手,我们找到了一种方法,使他们一起工作。”

加州大学洛杉矶分校病理学和实验室医学系的Jiananyu Rao说,该研究的联合模式确实在确保数据访问方面有很大的优势,它可能有助于通过跨机构的比较来验证每个队列的数据。Rao指出,研究作者专注于一个具体的、没有答案的临床问题,即如何预测哪些乳腺癌患者将从新辅助治疗中受益,他认为这些结果是额外研究的良好基础,可以证明他们确定的潜在生物标志物是否有用。

然而,专门从事病理学应用的机器学习顾问Heather Couture提醒说,现在对这种方法过度兴奋可能还为时过早。她指出,联合学习仍然处于发展的早期,Owkin领导的研究以及2022年4月发表的关于人工智能在癌症组织病理学中的应用的研究结果[2],使用了少量的训练队列,显示了联合学习的可行性,但还没有为其益处提供有力的证据。

那篇文章也发表在《Nature medicine》上,使用了基于蜂群学习的分析组织病理学图像,这些图像来自美国、德国和北爱尔兰的5000多名患者,结果表明这种模型可以从结直肠癌的染色切片中预测BRAF突变状态和微卫星不稳定性。Couture说,一旦研究人员能够扩大这种研究的规模,纳入更多的队列,结果将显示联合学习是否能给患者带来变化。虽然欧文领导的研究和国际组织病理学图像研究的结果都令人鼓舞,欧文的结果是一个重要的发展。

她说:“我们还没有到那一步。这是朝这个方向迈出的一步。”

在9月发表在《Nature Communications》上的另一篇文章中[3],研究人员说他们基于国际联合学习的研究使用了71个地点的6300名胶质母细胞瘤患者的数据,产生了一个检测肿瘤亚区边界的模型,他们说这可以帮助神经外科和放疗规划。作者在文章中说,训练强大而准确的模型需要大量的数据,然而由于涉及隐私、数据所有权、知识产权、硬件限制和法规等方面的挑战,数据集中化可能难以扩展。通过只共享来自分散数据的模型参数更新,联合学习模型可以提供更多的数据集规模和多样性,而不会牺牲相对于集中式学习模型的性能。

BC平台还为其全球基因组和临床数据库网络开发了一个联合人工智能学习平台,以加快研发速度,同时保护患者隐私和知识产权。Lifebit生物技术公司一直在研究联合共享,可以使基因组数据得到更广泛的使用。

Owkin公司的du Terrail说,由于要让许多医院加入的监管过程,加强联合学习研究可能会带来一些挑战。但他的公司及其合作者进行的研究结果提供了一个概念证明,这种模式可以帮助释放研究罕见癌症和更广泛的罕见疾病所需的数据。

除了Owkin关于预测癌症患者治疗反应的研究,Galtier说该公司还在与制药公司合作开展药物发现项目,并建立一个研究网络,利用制药公司和医院的数据来提高Owkin研究的预测能力,不过他说保密协议使他无法提供细节。

Sanofi公司在2021年11月表示,它正在向Owkin的人工智能和联合学习能力投资1.8亿美元,两家公司将合作研究发现和开发非小细胞肺癌、三阴性乳腺癌、间皮瘤和多发性骨髓瘤的疗法。Sanofi表示,它将利用Owkin的机器学习平台来分析来自数十万名患者的数据,确定生物标志物和治疗目标,建立预后模型,并预测对治疗的反应。

“Sanofi的投资将支持Owkin的发展和目标,即发展来自顶级肿瘤中心的世界领先的组织学和基因组学癌症数据库。”,Sanofi公司表示。

另外,在2022年6月,百时美施贵宝公司同意向Owkin投资至少8000万美元,用于开发更精确和高效的心血管疾病疗法的临床试验。这两家公司已经合作多年,成功开展了识别生物标志物的项目,并通过协变量调整改善临床试验结果。

Galtier说,Owkin还在建立一个医院网络,该网络拥有公司可以搜索的数据,以确定改善胶质母细胞瘤治疗的方法。这正在发展成为该公司最重要的项目之一,也是一个潜在的知识产权来源,因为它发现了治疗目标、药物和将受益于某些治疗的亚人群。

诊断科学编辑团队收集、整理和编撰,如需更多资讯,请关注公众号诊断科学(DiagnosticsScience)。

参考文献

  1. Ogier du Terrail, J., Leopold, A., Joly, C.et al.Federated learning for predicting histological response to neoadjuvant chemotherapy in triple-negative breast cancer.Nat Med 29, 135-146 (2023). https://doi.org/10.1038/s41591-022-02155-w
  2. Saldanha, O.L., Quirke, P., West, N.P. et al. Swarm learning for decentralized artificial intelligence in cancer histopathology. Nat Med 28, 1232–1239 (2022). https://doi.org/10.1038/s41591-022-01768-5
  3. Pati, S., Baid, U., Edwards, B. et al. Federated learning enables big data for rare cancer boundary detection. Nat Commun 13, 7346 (2022). https://doi.org/10.1038/s41467-022-33407-5

原文链接(英文)

https://www.360dx.com/cancer/owkin-led-machine-learning-study-ids-possible-cancer-treatment-biomarkers-using-federated#.Y-wW5HZByUk

***

展开阅读全文

页面更新:2024-04-16

标签:阴性   乳腺癌   切片   病理   患者   模型   机器   美元   医院   数据   公司

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top