视频会议背后的音视频处理技术都有哪些
2023/4/22 来源:不详传统的通信系统中,编码器将视频信号压缩到一个特定的比特率,使此比特率小于或接近信道容量(带宽),解码器利用收到的全部数据重建视频信号。但是在目前的流媒体应用环境下,常用编码器无法预知传输网络状态和终端设备能力,因此为了视频编码能够实现特定使用环境下的最优编码,使得编码后的码流可以灵活地适应不同网络用户的需求,MPEG和VCEG的联合组织JVT提出了SVC编码标准。
视频编码的可伸缩性包括时域可伸缩性、空域可伸缩性、质量可伸缩性等。
时域可伸缩性是指视频流分解成表示不同帧率的信息,其中基本层保留最低帧率的信息,随着层数的增加帧率也随之增加,从而用户能够观赏到更为连贯流畅的画面。
空域可伸缩性只是将视频流分解成表示不同分辨率的信息,其中基本层保留最低分辨率的信息,随着层数的增加分辨率也随之增加,从而用户能够观赏到更为细腻的画面。
质量可伸缩性是指将像素值分解成不同级别,在基本层每个像素只拥有很小的比特率,因此画面质量粗糙;随着层数的增加,像素的比特率也随之增加,从而能够展现出更为丰富的图像内容。
全时云会议依据数年来所积累的经验,综合客户硬件资源、带宽等信息,通过空域参考和时域参考提供三层编码方案。我们在实验室模拟近千种网络带宽情况以测试最佳的编码器比特率,在实际带宽环境中给予每层编码器最佳的比特率,这样客户在实际使用中便可获得最高的视频观看质量。
图像预处理:
1)图像清晰度优化
由于受光照、噪声、焦距、镜头等的影响,摄像头实际采集的图像会出现清晰度、对比度、亮度等不佳等情况,无法给用户最佳的视频观看体验。
全时云会议结合详细的客户反馈以及最新的学术前沿,对采集的图像通过锐化、亮度提升,肤色检测、肤色调整、去噪等算法的结合进行清晰度优化,给予客户最佳的体验。与此同时考虑到客户硬件资源的强弱情况,全时云会议采用了硬件加速策略,使得清晰度优化可以针对全部用户使用。
2)虚拟背景
云会议中的虚拟背景主要用于用户由于个人隐私或所处位置比较敏感时需要将背景信息用已有的图像或视频替换,简称虚拟化。
全时云会议结合CVPR的最佳分割论文自研人像分割模型,通过改变数据的通道、多种不同的loss、Matting模块、人脸检测;增加图像边缘开闭运算、光流法、时域参考、高斯滤波等图像后处理,给予客户最佳的视觉体验。
3)美颜
全时云会议依据自研人脸检测和关键点检测模型,对人脸区域进行磨皮、美白、大眼、瘦脸等操作。同时由于视频会议的特殊性,不能对人脸区域进行力度较大的美颜效果,我们通过测试近百人进行效果调优,达到视频会议中最佳的用户体验。
音频前处理:
在实时语音通讯中用户对语音的敏感度会很高,好的语音质量会大大提升视频会议满意度。全时自主研发了智能语音质量增强技术,解决了在实时语音通讯过程中影响用户体验的问题,其核心技术包括:
噪声抑制(ANS)自适应各种平稳、非平稳噪声环境,让通话者专注于通话,不用担心所处环境;回声消除(AEC)覆盖全平台的回声消除算法,收敛快,ERLE高,保证通话不受干扰;自动增益(AGC)控制,保证通话过程语音信号平稳;支持48khz全频带采样,还原声音高保真度,为用户提供极致高清音质体验。
全球分布式平台可提供具有企业级可靠性和服务质量的高清安全语音服务,支持电话(PSTN)、网络语音(VOIP)、硬件终端(H)的无缝融合,兼容外置拾音器/扬声器、耳机、听筒、外放、蓝牙模式,让语音通讯不再受限于终端设备、变得更加便捷舒适。