达摩院与阿里云在2019年举办的肺结节天池大赛中准备和标注了大量的胸部CT数据,其中包含许多本次新型冠状病毒肺炎识别算法的模型训练需要的负样本。通过自然语言处理技术筛选回顾性数据,得到了大量常规肺炎CT数据和其他肺部疾病CT数据。新冠病毒疫情暴发以来,达摩院医院团队与浙大一附院、万里云、长远佳和古珀医院等多家机构合作,率先突破了训练数据不足的局限,在疫情抗击战役中开展了多方面的AI创新应用,推出AI影像诊断技术可以在20秒内准确地对新冠疑似案例CT影像做出判读,其算法检出率和准确度均超过90%,特异性高达98%,取得良好效果。
AI影像诊断技术是用人工智能技术(包括视觉分析、自然语言处理等)在CT、核磁等影像分析上的前沿应用,辅助医生诊断。
1.利用自然语言处理的方法从历史的诊断报告中筛选常规肺炎的CT数据及其他肺部相关的数据。并结合合临床确诊的CT数据作为整个算法的训练样本和测试样本。
2.利用肺部区域分割算法提取包含肺部区域的VOI(Volume of Interest)以减小肺部以外区域的信息的干扰。
3.利用深度学习算法训练一个三分类(新冠肺炎、常规肺炎、其他)的模型。在实际辅助诊断过程,使用训练好的模型对用户输入的CT数据进行运算并给出新冠肺炎的概率。
截止4月末,这套算法已经部署到了70多家医院,8万+的病例调用量。