如果我们在分子层面上更深入地了解癌症,就能学会更有效地治疗癌症。

  IBM 已向开源社区发布了旨在克服治愈癌症这个挑战的三个 AI 项目。

  在本月晚些时候将在瑞士举行的第 18 届欧洲计算生物学大会(ECCB)和第 27 届分子生物学智能系统大会(ISMB)上,这个技术巨头将深入探讨每一个项目如何促进我们对于癌症及治疗方法的了解。

  据估计,单单癌症在 2018 年就夺去了 960 万条生命,同年报告的新病例估计多达 1800 万例。

  遗传倾向性以及环境因素(包括污染、吸烟和饮食)都被认为是加大人们患癌症的可能性的因素;虽然我们可以治疗多种癌症,但还有很多地方有待研究。

  位于苏黎世的 IBM 计算系统生物学小组的研究人员致力于研究 AI 和机器学习方法,以“帮助我们加快了解这些复杂疾病的主要诱因和分子机制”,并研究提高我们对肿瘤构成的认识的方法。

  IBM 称:“我们的目标是加深对癌症的了解,让诸多行业和学术界掌握可能有一天有助于推动新治疗和新疗法的知识。”

  第一个项目名为 PaccMann(切勿与流行的 Pac-Man 计算机游戏混为一谈),声称可以“利用基于注意力的多模式神经网络来预测抗癌化合物的敏感性。”

  单单研制一种抗癌药可能就要耗资数百万美元,财力上的这种限制会使我们研发新药物和新疗法的项目推迟或泡汤。

  IBM 正致力于开发 PaccMann 算法,以自动分析化合物,并预测哪些化合物最有可能对抗癌症菌株,这可能有望简化这个过程。

  机器学习算法利用基因表达方面的数据和化合物的分子结构。IBM 称,通过更早地识别潜在的抗癌化合物,这可以降低与药物开发有关的成本。

  第二个项目名为“Interaction Network infErence from vectoR representATions of words”(简称 INtERAcT)。这个工具特别值得关注,因为它可以从与我们对癌症的了解有关的有价值的科学文献中自动提取数据。

  每年癌症研究领域发表的论文大约有 17000 篇,就算并非没有可能,研究人员至少很难跟得上我们在理解能力上迈出的每一小步。

  INtERAcT 旨在通过自动从这些论文中提取信息,为研究的学术方面减轻负担。目前,该工具正接在受测试,用来提取与蛋白质-蛋白质相互作用有关的数据——蛋白质-蛋白质的相互作用已被认为是包括癌症在内的多种疾病中生物过程受到扰乱的潜在原因。

  IBM 称:“INtERAcT 的一个特殊的优势在于,它能够结合某种疾病的环境来推断相互作用。通过与健康组织中的正常相互作用进行一番比较,可能有助于深入了解疾病机制。”

  第三个也是最后一个项目是“路径诱导的多核学习”(即 PIMKL)。该算法利用描述我们目前在分子相互作用方面所知道的情况的数据集,以便预测癌症的进展和患者的潜在复发。

  PIMKL 使用所谓的多核学习来识别对于患者分门别类而言至关重要的分子路径,从而为医疗保健专业人员提供个性化和定制治疗方案的机会。

  PaccMann 和 INtERAcT 的代码已经发布,可以在这两个项目的官网上找到。PIMKL 已部署在 IBM 云上,源代码也已发布。

  每个项目都是开源的,现已开放供公众使用。IBM 希望通过向其他研究人员和学者提供源代码,科学界可以最大限度地发挥其潜在的影响。