行业标准项目建议书
建议项目名称
(中文)
机器视觉编码系统总体技术要求
建议项目名称
(英文)
General technical requirements of data coding systems in machine vision
制定或修订
■制定 □修订
被修订标准号
采用程度
□IDT □MOD □NEQ
采标号
国际标准名称
(中文)
国际标准名称
(英文)
采用快速程序
□FTP
快速程序代码
□B □C
ICS分类号
35.040
中国标准分类号
L71
牵头单位
中国电信集团有限公司
体系编号
G
参与单位
中国信息通信研究院,中兴通讯股份有限公司,中国信息通信科技集团有限公司
完成周期(月)
24
目的、意义
或必要性
在人类通过各种感官与外界环境进行信息交互的过程中,视觉信息占比高达87%,而听觉只占7%,其他感觉如嗅觉、触觉、味觉等仅占6%。可见,视觉信号在人类感官中占有重要地位,视觉信号中蕴含的信息量要远远超出其他格式的信号。 伴随着5G时代而产生的海量应用,如车联网、无人驾驶、工业互联网、智慧与平安城市、可穿戴、视频监控等积累了大量机器视觉内容和数据。相比日趋饱和的面向人类视觉的压缩,面向机器智能的视频编码(VCM)应用场景更为广泛,面向机器的视频将成为5G 和后5G 时代的主要增量流量来源之一。 与此同时,面向人类的视频与面向机器的视频在应用场景、信息处理、编码和信息使用上存在着较大差异,面向机器的视频等数据处理与编码技术研究正成为产业界和学术界热点,探索并完善面向机器智能的视频编码重点标准,对引导科技健康发展、拓展应用场景等方面具有重要的意义。面向机器的音视频信息与传统的数据信息有很大差异。以机器视觉和人眼视觉为例:二者的灰度分辨率、空间分辨率、色彩识别能力、高速运动目标识别能力、观测精度、感光范围智能性、适应性、抗疲劳能力都有很大的区别。而且机器视觉易于实现信息集成,是实现计算机集成制造的基础技术,可以在生产线上快速对产品进行测量,引导,检测和识别,并能保质保量的完成生产任务。总之,机器视觉技术具有精确性、可靠性高、环境适应性好、可持续工作、生产效率高等优势,在智慧城市、智慧交通、现代工业生产、智能制造、医药、食品包装、智慧制播、智慧家庭等领域都发挥着巨大的作用。 因此,对行业内机器视觉编码技术进行规范化要求,有助于形成行业统一的评价体系,对于促进机器视觉技术在学术界的科学研究进展,推进机器视觉技术在工业界和产业链上中下游企业的广泛应用,创造巨大的经济效益,具有重要意义。
范围和主要
技术内容
面向机器智能的视频编码(VCM)旨在通过高效的视频数据表征与压缩,支撑机器智能应用或人机混合智能应用。本项目旨在对面向机器智能的视频编码技总体技术要求进行规范。本项目基于对机器视觉领域的技术积累,在阐述和介绍VCM的视频智能分析技术、编码技术以及国内外标准化现状的基础之上,分析面向机器视觉的数据编码技术的概念与框架、主要任务要求(对应人脸识别、目标检测、图像增强与恢复、Re-ID、图像分类、语义分割、关键点检测等任务)、任务效果与评价指标要求、安全与隐私要求等,并进行标准化建议,以期共同推动面向机器智能的视频编码标准化事业发展。
国内外情况
简要说明
1. 国内外对该技术研究情况简要说明: 近年来,机器视觉领域内流行的深度学习网络框架包括:用于图像分类、物体识别和迁移学习领域的ResNet(残差网络)、VGGNet,以及轻量级卷积网络MobileNet、SqueezeNet、EfficientNet,用于语义分割领域的全卷积网络(fully convolutional network,FCN),使用编码器-解码器结构的Unet、DeconvNet、SegNet,基于网络结构自动搜索方法(neural architecture search)而设计的语义分割模型的元学习方法(metalearning),实例分割领域的Mask RCNN,目标检测领域的Fast RCNN、Faster RCNN、YOLO、SSD。此外,还产生了基于MDNet、SiamFC、CFNet、RASNet、DARL、SiamRPN++、JDE等模型的目标跟踪算法。 该领域的流行趋势是基于深度学习理论进行机器视觉编码,相关工作可以分为两类:基于深度网络的端到端编码方案,以及在传统编码方案中替换或者新增深度学习环节和步骤的模块化方案。其中,基于深度网络的端到端编码方案包括可视为预测编码技术的像素概率建模,以及可视为变换编码技术的自动编码器。 机器视觉编码步骤中包含了有损编码和熵编码,其评价指标包括MSE、PSNR、SSIM、MS-SSIM、BD-rate等。 随着深度学习技术的发展,机器视觉领域产生了海量的数据集,以适应不同的应用场景及需求。例如,CASIA-WebFace、MS-Celeb-1M、VGGface2、MegaFace、AGEDB、LFW、FRVT等人脸识别数据集,Set5、Set14、Urban100、BSD100、DIV2K等图像超分数据集,还包括海量的去噪、去雨、Re-ID等专用数据集,以及用于目标跟踪、物体检测、分割、图像注解领域的数据集等。在使用这些数据集的过程中,应注意其版权问题,这在商用场景中尤为重要。 在机器视觉编码飞速发展的过程中,伴随而来的各种弊端也初现端倪。深度特征在传输过程中,仍然携带有用户信息,如何在为用户提供便利服务的同时最大限度地保护用户隐私、保证数据安全,是本领域急需解决的重要问题。通过制定政策和法律法规,完善监管体制,规范市场,能够在一定程度上缓解机器视觉技术飞速发展与其带来的隐私安全问题之间的矛盾。 未来,随着工业物联网(IIoT)、5G等技术的发展,将促进人机协同,并以机器视觉为纽带,将海量设备、机器人和人连接在一起,机器视觉产业将面临再次繁荣。未来5~10年,机器视觉的发展方向包括多传感器融合、基于云端结合的SLAM、三维(动态)场景重建、AR/VR+AI+视觉协同发展等领域。可见,该技术目前正处于稳步发展的阶段,本项目提出的标准正当时,将在很大程度上促进国内机器视觉产业繁荣和健康发展。 2. 项目与国际标准或国外先进标准采用程度的考虑: 近年来,ISO、IEC、ITU-T 等国际标准化组织和IEEE 等学术组织都在人工智能、编解码、视频监控等相关领域开展了标准化工作。2019 年7 月8 日-12 日第127 次MPEG 会议上,中国电信提案提出面向机器视觉的压缩编码和面向人机混合视觉的压缩与语义表征的统一。正式成立VCM(AdHoc Group on Video Coding for Machines)机器视觉编码焦点组。中国电信专家张园与美国GTI 公司Patrick Dong 任召集人。VCM 标准组提案主题包括用户案例、需求、VCM 架构、VCM 衡量标准、特征压缩、CDVA 扩展、对象编码、端到端神经网络视频压缩、anchor 生成和特征压缩。ISO/IEC JTC 1/ SC 42(人工智能)围绕基础标准(Foundational standards)、计算方法(Computational methods)、可信赖性(Trustworthiness)和社会关注(Societal concerns)等方面开展国际标准化工作。ITU-T SG 16(第16 研究组)负责多媒体编码、系统和应用标准,机器视觉相关在研项目包括:F.MVSreqs工业机器视觉业务需求、H.MVSreqs工业机器视觉系统架构、F.AI-ISD工业生线智能表面缺陷检测服务的需求。此外,IEEE 批准了3 个相关IEEE 标准项目,包括P2671《机器视觉在线检测通用要求》( GeneralRequirements of Online Detection Based on Machine Vision in IntelligentManufacturing)、IEEE P2807《知识图谱技术框架》和IEEE P2806《智能工厂物理实体的数字化表征系统架构》。 3. 与国内相关标准间的关系: SAC/TC 28 全国信息技术标准化技术委员会对口ISO/IEC JTC 1(除ISO/IEC JTC 1/SC 27)。TC 28/ SC 29 全国信息技术标准化技术委员会多媒体分委会,对口ISO/IEC JTC 1/SC 29,工作范围为:音频、图像、多媒体和超媒体信息的编码表示,以及用于此种信息的压缩和控制功能集的标准化。2013年,数字音视频编解码技术标准工作组颁布了AVS 第一个音频编解码标准《信息技术 先进音视频编码第10 部分:移动语音和音频》。AVS2 视频部分于2016 年12 月颁布为国家标准(GB/T 33475.2-2016)。AVS2 音频部分于2018 年颁布(GB/T 33475.3-2018)。目前第三代AVS 标准(AVS3)也已开始研制工作。全国信息技术标准化技术委员会多媒体分委会面向机器智能的数据编码标准工作组开展面向机器智能和人机混合应用的数据信息编码研究,提出国内标准制定建议。 4. 指出是否发现有知识产权的问题; 未发现有知识产权的问题。
备注
 
牵头单位
(签字、盖公章)
月 日
标准化技术组织
(签字、盖公章)
月 日
部委托机构
(签字、盖公章)
月 日
[注1] 填写制定或修订项目中,若选择修订必须填写被修订标准号;
[注2] 选择采用国际标准,必须填写采标号及采用程度;
[注3] 选择采用快速程序,必须填写快速程序代码;
[注4] 体系编号是指在各行业(领域)技术标准体系建设方案中的体系编号。
文件说明
H-202105292033-行标-立项建议书.doc (276.52KB)任务书(建议书)
H-202105292033-行标-立项建议书.pdf (195.86KB)任务书(建议书)