最新国产精品拍自在线播放,国产精品柏欣彤在线观看

7月24日，以“新視界·連未來”為主題的2021全球互聯(lián)網(wǎng)通信云大會（以下簡稱WICC 2021）在北京成功落下帷幕。來自主辦方全球互聯(lián)網(wǎng)通信云領(lǐng)導(dǎo)廠商融云的視頻算法專家黃震坤在“RTC新技術(shù)與應(yīng)用”技術(shù)分論壇中，分享了《基于人工智能的視頻編碼優(yōu)化》的演講。

圖1 WICC 現(xiàn)場融云視頻算法專家黃震坤發(fā)表演講

根據(jù)美國思科公司的相關(guān)研究報告，到2022年，全球移動數(shù)據(jù)流量將達到每年930艾字節(jié)，相當于通過全球網(wǎng)絡(luò)每5分鐘傳輸一遍有史以來所有電影的流量，視頻流量占移動數(shù)據(jù)流量的比例將飆升至79%。巨大的傳輸壓力下，視頻編碼壓縮技術(shù)就顯得尤其重要。因此，本屆 WICC黃震坤聚焦于視頻壓縮的前沿技術(shù)，針對不同場景需求，為開發(fā)者闡述了視頻編碼方向的最新研究成果、融云的探索實踐，以及該領(lǐng)域未來的發(fā)展前景。

融云在監(jiān)控場景的視頻壓縮技術(shù)及解決方案

WICC 2021上，黃震坤以交通監(jiān)控視頻場景為例，闡述了隨著智慧交通的快速發(fā)展，交通監(jiān)控視頻的數(shù)據(jù)量呈現(xiàn)爆炸式增長，給現(xiàn)有的傳輸和存儲系統(tǒng)帶來了巨大的壓力，因此，提高監(jiān)控場景視頻壓縮的壓縮效率顯得至關(guān)重要。

黃震坤認為，要對交通監(jiān)控視頻進行高效壓縮，就必須根據(jù)該場景特點，將背景區(qū)域和運動區(qū)域細致區(qū)分。典型的背景區(qū)域包括建筑、樹木等，在畫面中占比較大，且相對固化、變化不大；運動區(qū)域包括車輛、行人等，只占整個視頻區(qū)域的一小部分。典型的監(jiān)控視頻如圖2所示，運動的車輛即為前景區(qū)域。整體而言，視頻的相鄰幀之間的變化細微，應(yīng)成為監(jiān)控視頻壓縮關(guān)注的重點。

圖2 典型的監(jiān)控場景

針對這些特點，業(yè)界早期的做法是在重建幀中選擇出長期參考幀，并與己有短期參考幀組合，一起供當前待編碼幀做幀間預(yù)測的參考。但是，選取的長期參考幀可能包含有前景物體，導(dǎo)致背景幀“不干凈”。

為了解決這個難點，融云采用 LaBGen-P 的方法提取背景幀，這是由于 LaBGen-P 采用了像素級中值濾波的機制，基于運動檢測的選擇機制，選擇運動最小的像素作為背景像素。通過幀間差的運算，可提取到純背景幀的視頻效果。

并且，用 LaBGen-P 的方法提取背景幀，將獲取的背景幀加入到長期參考幀列表，不但可以避免網(wǎng)損和解碼錯誤會導(dǎo)致解碼器出現(xiàn)錯誤，導(dǎo)致誤差擴散到后續(xù)的P幀，而且利用反饋機制與長期參考幀相結(jié)合，還有助于修復(fù)丟失的視頻數(shù)據(jù)。

實驗表明，和原始沒有加入背景幀的 OpenH264 編碼器相比，可將標準測試集中的測試視頻CiscoVT2people_320x192_12fps.yuv，從原始的 56KB 減少到 54KB。

感興趣區(qū)域的視頻壓縮技術(shù)研究模型及實踐探索

不同的場景人們的關(guān)注重點會有所不同。仍以智慧交通為例，交警對于違章車輛的關(guān)注點是車牌號，車牌號是否清晰，將直接影響執(zhí)法證據(jù)的收集是否有效。因此，在帶寬有限的情況下，確保興趣關(guān)注區(qū)域的質(zhì)量是視頻壓縮技術(shù)的關(guān)鍵。

傳統(tǒng)編碼方法致力于對圖像進行去相關(guān)處理，這種方法雖然可以達到去除信息冗余度的效果，但是忽略了視覺冗余。因此，在最新研究中，典型做法是，通過對視頻進行目標檢測來獲取感興趣區(qū)域，再對感興趣區(qū)域分配更多的碼率，從而提高該區(qū)域的編碼質(zhì)量。圖3即為典型的采用目標檢測技術(shù)檢測到的感興趣區(qū)域，并進行碼率分配的效果，感興趣區(qū)域的編碼質(zhì)量得到保證。

圖3 典型的基于目標檢測碼率分配效果

如何向感興趣區(qū)域分配更多的碼率，黃震坤分別向開發(fā)者介紹了學術(shù)界代表武漢大學的理論研究和產(chǎn)業(yè)界代表融云的探索實踐。

武漢大學在2021年提出了基于博弈論的碼率分配方案模型，具體內(nèi)容包括：

感興趣區(qū)域編碼質(zhì)量為領(lǐng)導(dǎo)者，非感興趣區(qū)域的編碼質(zhì)量為跟隨者；

在設(shè)定的目標碼率下，領(lǐng)導(dǎo)者決定感興趣區(qū)域分配的碼率，而跟隨者決定非感興趣區(qū)域的分配的碼率；

對于感興趣區(qū)域來說，它的效用不僅取決于自身，而且影響到整個圖像的編碼質(zhì)量；

非感興趣區(qū)域只能利用余下的碼率達到最優(yōu)的效用。

而融云的感興趣區(qū)域的視頻編碼方案是，將運動區(qū)域檢測和基于博弈論碼率分配方案相結(jié)合，整合為基于場景的感興趣區(qū)域檢測和碼率分配方案。這一方案的特點主要體現(xiàn)在訓(xùn)練不同的 yolo 模型，采用同一個預(yù)訓(xùn)練模型 yolo，訓(xùn)練不同的場景。

圖4 融云感興趣區(qū)域視頻編碼方案

具體地說，針對人的視頻采用訓(xùn)練好的基于人的目標檢測模型，針對車的視頻采用訓(xùn)練好的基于車的目標檢測模型。其中運動檢測的方法選用Vibe，為每個像素點建立一個樣本背景模型（背景模型中包含N 個樣本值），計算待分類像素與背景模型的相似度，如果相似，則分類為背景。

圖5 目標和運動檢測結(jié)合的感興趣區(qū)域提取效果

通過實驗可以看出，提取了感興趣區(qū)域之后，采用基于博弈論的方法分配感興趣區(qū)域和非感興趣區(qū)域的碼率，最終在有限帶寬的情況下，使得感興趣區(qū)域的編碼質(zhì)量獲得提高，整體的編碼質(zhì)量也損失不大。具體效果見圖6所示，人臉部分的量化系數(shù)比背景區(qū)域的量化系數(shù)要小，在帶寬受限的情況下，能夠保留人臉部分的細節(jié)。

圖6 基于感興趣區(qū)域的碼率分配效果

視頻壓縮技術(shù)的最新研究和應(yīng)用前景

目前在視頻壓縮的研究方面，主要是基于人工智能的深度學習技術(shù)和端到端的視頻壓縮框架。

深度學習技術(shù)替換混合編碼框架模塊，可用于碼率分配、塊劃分以及幀內(nèi)預(yù)測和幀間預(yù)測。以幀間預(yù)測為例，實驗結(jié)果表明，與 HEVC 相比，基于深度學習所提出的方法在low delay P配置下，能達到平均1.7%（最高為8.6%）的碼率減少。端到端的視頻壓縮框架最新研究成果是對現(xiàn)有深度學習視頻壓縮，只能利用少數(shù)的參考幀進行壓縮的問題, 研究人員提出了重復(fù)自編碼器和重復(fù)概率估計模型。

黃震坤介紹，這些技術(shù)目前都尚處于非常前沿的研究階段，但擁有著非常廣闊的應(yīng)用前景：首先，采用深度學習網(wǎng)絡(luò)替換視頻壓縮的混合編碼框架，可以提高編碼效率，在 WebRTC 中具有重要的應(yīng)用價值；其次，深度強化學習網(wǎng)絡(luò)對碼率進行分配，將改善在使用 WebRTC 視頻傳輸中的卡頓現(xiàn)象；第三，基于深度學習的帶寬估計模型也將比傳統(tǒng)的帶寬估計方法更有優(yōu)勢。

結(jié)語

在實時音視頻領(lǐng)域，視頻壓縮是非常重要的技術(shù)。隨著5G基礎(chǔ)設(shè)施的完善，新的視頻應(yīng)用場景不斷涌現(xiàn)，視頻壓縮技術(shù)也在迭代。為了確保視頻高質(zhì)量和高傳輸效率，視頻壓縮技術(shù)要考慮存儲、編解碼、算力和帶寬等因素在內(nèi)的總成本，要在畫質(zhì)、碼率和性能之間做平衡。隨著 5G 基礎(chǔ)設(shè)施的完善，新的視頻應(yīng)用場景不斷涌現(xiàn)，視頻壓縮技術(shù)也會不斷迭代創(chuàng)新。而融云將深度參與其中，引領(lǐng)發(fā)展！

融云為WICC2021“新視界”帶來視頻壓縮技術(shù)新探索