建议项目名称
(中文)
|
基于深度学习的生物计算平台技术要求
|
建议项目名称
(英文)
|
Technical Requirements for Biocomputing Platform based on Deep Learning
|
制定或修订
|
■制定 □修订
|
被修订标准号
|
|
采用程度
|
□IDT □MOD □NEQ
|
采标号
|
|
国际标准名称
(中文)
|
|
国际标准名称
(英文)
|
|
采用快速程序
|
□FTP
|
快速程序代码
|
□B □C
|
ICS分类号
|
35.240.70
|
中国标准分类号
|
L67
|
牵头单位
|
北京百度网讯科技有限公司、中国信息通信研究院
|
体系编号
|
S-99
|
参与单位
|
联通(广东)产业互联网有限公司,上海商汤智能科技有限公司
|
完成周期(月)
|
24
|
目的、意义
或必要性
|
新药研发具有成本高、研发周期长、成功率低三大高风险性质,如何加快新药研发进程,降低研发费用已成为各大制药公司迫切需要解决的问题。研究者发现通过在药物研发过程中引入深度学习技术,可以大幅降低研发成本,提高成功率。
近10年来,深度学习方法在语音识别、计算机视觉、自然语言处理和数据挖掘等不同领域取得了显著的成功。深度学习方法能够在大量无标注数据的情况下,通过自监督方法学习数据的内在规律,从而实现数据特征的自动提取。近些年越来越多的生物计算研究,采用深度学习技术来解决药物研发中的问题,并与大数据、云计算相结合,在学术界和工业界落地,如百度的螺旋桨,华为的EIHealth,腾讯的云深智药平台。但基于深度学习的生物计算是一个强技术并跨学科的领域,不仅对深度学习技术能力的要求高,还需要研究者能够理解生物、化学、物理等跨学科方面的知识,并且有强的工程能力,能够针对药物研发中的实际问题,找到适合的技术解决方案,因此有必要标准化面向生物计算的深度学习平台,定义平台技术功能要求,为医药专家提供模型训练平台,从而促进深度学习技术在实际药物研发过程中的落地。
|
范围和主要
技术内容
|
本文件定义了基于深度学习的生物计算平台的架构及功能要求,并定义相关的性能评测指标体系,包括:
1.平台架构概述:定义基于深度学习的生物计算架构,主要包括深度学习框架、数据集、工具集、模型库、应用层等;
2.应用层技术要求:定义平台应用层调用方式、服务能力等技术要求,如药物-靶点亲和力预测能力,虚拟筛选等药物研发中的关键应用能力;
3.模块技术要求:定义平台应具备的算法、模型等,如支持图神经网络算法,支持应用于药物模型的特征学习和表示、网络构建等;
4.输入输出范式要求:定义模型的输入输出的格式,如结构文件,SMILES字符串等等;
5.平台性能要求:定义效果评估要求,如药物性质预测评价指标、药物生成质量评价;时间性能要求:如虚拟筛选的耗时等;
6.安全性要求:如用户个人隐私、数据安全要求。
本文件适用于基于深度学习的生物计算平台的研发,以指导AI生物计算领域的产品研发,同时适用于第三方评测机构对基于深度学习的生物计算平台进行评估与验收等工作。
|
国内外情况
简要说明
|
在技术研究方面,目前国内外互联网企业均开展了面向生物计算的深度学习/人工智能平台研究,如国外Google、亚马逊、微软分别与赛诺菲、Atomwise、ImmunityBio等药企联合开发了计算平台部署在云上;国内百度针对医药领域开放了螺旋桨平台,为医药开发提供便利的模型训练服务。华为的EIHealth提供了AI研发平台,阿里巴巴面向研究机构、基因公司提供IaaS服务,腾讯发布了云深智药平台助力药物研发。
在标准方面,全国信息技术标准化技术委员会人工智能分会(TC28-SC42)立项《人工智能 面向机器学习的系统规范》,针对机器学习系统整体和各组件的技术要求(包括功能、可靠性、兼容性等)进行规定并给出测试方法。中国通信标准化协会(CCSA)立项了《人工智能开发平台功能要求和评估方法》,规定了人工智能开发平台的评估内容、方法及要求,主要包括系统基本信息披露、资源管理、数据处理、模型开发及训练、模型部署及管理、运营维护、平台安全等内容。中国人工智能产业发展联盟(AIIA)在2019年启动编制标准《深度学习平台功能和性能评估方法》,面向深度学习训练平台制定功能及性能要求,侧重平台的硬件、底层调度和模型训练。但目前面向生物计算领域的的机器学习/深度学习平台,尚缺乏全面、具体的标准规范,本标准将很好的填补这一空白。
|
备注
|
|
牵头单位
|
(签字、盖公章)
月 日
|
标准化技术组织
|
(签字、盖公章)
月 日
|
部委托机构
|
(签字、盖公章)
月 日
|
|