熱點在線丨ORTC與AI相互成就之道
2023-06-28 01:03:28 來源:技術聯(lián)盟
李雪松 LiveVideoStack 2023-06-26 08:40 發(fā)表于北京
(資料圖)
隨著計算規(guī)模的增大及對計算精度要求的提高,端側AI運算已經(jīng)不能滿足高精度、高算力要求的應用場景,很多AI處理算法就要搬到算力強大的云端處理。而要達到近乎等同于端側的效果,則需要在端云傳輸實時性、穩(wěn)定性、抗弱網(wǎng)、分布式、集群等技術做深入優(yōu)化,從而更好的發(fā)揮云端優(yōu)勢。LiveVideoStackCon2022北京站邀請到李雪松老師分享與RTC緊密結合的AI應用場景,ORTC在低延時、抗弱網(wǎng)所做的策略保證,媒體服務器如何實現(xiàn)AI算法解耦、如何保障大規(guī)模AI處理的有序進行,以及如何進行有效的預警及事后取證。
文/李雪松
整理/LiveVideoStack
大家好,我是李雪松,來自OPPO。今天和大家分享的主題是ORTC與AI相互成就之道。我的分享有四部分:簡介;2. AI是如何賦能ORTC的;3. ORTC是如何促進AI更好落地;4. ORTC與AI之間的融合實踐。
-01-
ORTC簡介
首先簡單介紹一下ORTC:它是OPPO實時音視頻平臺,是OPPO萬物互融戰(zhàn)略下的重要基礎設施,面向終端和業(yè)務提供音視頻實時通信基礎能力。ORTC目前支持視頻會議、視頻通話、云游戲、云渲染等產(chǎn)品。
ORTC架構分為兩部分,端側和服務側。端側包括APP層、SDK層、核心庫,以及系統(tǒng)層和硬件層。服務端分為業(yè)務服務器和ORTC服務器:業(yè)務服務器主要管理如認證、監(jiān)控和調度等;ORTC服務器主要有信令服務器、媒體服務器,以及STUN、TURN、MCU和網(wǎng)關服務器等。所有這些服務器都是基于OPPO混合云架構之上的微服務。
接下來通過一個應用場景介紹ORTC交互流程。
如圖是一個點對點視頻通話場景,業(yè)務管理服務器用于資源分配,信令服務器用于鏈路建立以及SDK協(xié)商,媒體轉發(fā)服務器用于媒體流收發(fā)。
ORTC作為一個PaaS平臺,不只提供簡單的應用,還可以進一步擴展,它是對開發(fā)者開放的。此外,作為OPPO三大戰(zhàn)略之一的潘塔納爾系統(tǒng)也是借助PRTC來實現(xiàn)原廠互聯(lián)通信能力的。
-02-
AI=>ORTC
接下來我們看AI能夠從哪些方面給ORTC帶來驚喜的呢?
我們知道,RTC的核心要素包括音頻、視頻和網(wǎng)絡傳輸。接下來我們從這三個方面分析AI師如何促進ORTC能力躍遷的。
首先是音頻部分。在RTC交互過程中,音頻處理的上行流程包括音頻采集、音頻前處理、壓縮編碼、RTP封包和弱網(wǎng)對抗。在前處理和弱網(wǎng)對抗部分都可適當引入AI。在云端還包括合流轉碼和云端增強。在下行部分中,AI也可以發(fā)揮很大的作用。
接下來就從音頻前處理的幾個常用場景介紹下。
首先是AI語音降噪。AI降噪基于大量語料練習,應用深度學習技術,實現(xiàn)將人聲和噪音分離,有效抑制環(huán)境中的各種噪音。在這個過程中,我們所做的主要包括模型訓練以及算法執(zhí)行。
在模型的訓練過程中,需要對含噪語音進行前處理、 短時傅里葉變換,經(jīng)過深度學習網(wǎng)絡后,得到增強語音,再將增強語音與干凈語音輸入到損失函數(shù)模塊,得到損失值來指導模型更新,直至收斂。在這個過程中,對于降噪效果的指標衡量,取決于訓練目標和損失函數(shù)。
常用的訓練目標包括掩碼類和映射類。掩碼類描述了干凈語音與噪音之間的時頻關系,包括基于幅度的理想二值掩碼等;映射類通過訓練神經(jīng)網(wǎng)絡模型直接學習帶噪語音和純凈語音之間的映射關系,包括頻譜映射和波形映射。
有了訓練目標后,再疊加損失函數(shù),如MSE、SDR、PESQ等,最終使模型得到很好的收斂。
在網(wǎng)絡模型方面,CRN是融合了卷積和循環(huán)神經(jīng)網(wǎng)絡的一種網(wǎng)絡模型。在此基礎上,DCCRN融合了復數(shù)卷積概念,ORTC正是基于此模型進行語音降噪的。
下一步的演進過程需要考慮分場景進行。因為有些降噪算法的引入會增加功耗和復雜度,我們會綜合運用傳統(tǒng)WebRTC降噪、DCCRN降噪以及基于視覺輔助的AI降噪(視覺語音降噪是利用視覺信息,如嘴唇運動,把跟目標聲音相關的背景人聲過濾掉)。
回聲包括線性回聲和非線性回聲。
在進行回聲消除時,首先進行延遲估計(將參考信號和麥克風信號對齊),然后做一個線性自適應濾波器(去除線性回聲),第三步是非線性處理(抑制殘留噪聲)。
AI回聲消除是通過語音分離方式,基于長短記憶模型(LSTM)和卷積神經(jīng)網(wǎng)絡(CNN)進行回聲場景的算法建模,直接消除線性回聲和非線性回聲。
訓練策略包括頻譜映射、波形映射、掩碼和時域。
ORTC視頻端到端處理流程如圖所示。在流程中,AI算法的應用場景還是很豐富的。
基于此,OPPO提供了基于“云-端-芯”的三層架構和“端云協(xié)同部署,端芯加速計算”的技術方案,為移動業(yè)務提供安全快速的端側能力。
AIDeploy是云端AI部署平臺,為端側AI能力提供線上部署更新和運行監(jiān)控能力,通過異常預警和用戶行為分析持續(xù)演進算法能力,從而增強端側AI服務,為用戶帶來更好的體驗。
AIUnit是端側AI能力平臺,基于自主創(chuàng)新的雙驅引擎架構,可以自由部署各種算法模型,為App提供輕量API可快速集成AI能力。
AIBoost是AI算法加速框架,結合ColosOS系統(tǒng)調度和硬件計算,提供模型加速、異構計算、推理轉換等能力,支持TensorFlow、Pytorch等算法框架。
在實時視頻交互過程中,會遇到視頻過暗、過淡、抖動等需要處理的場景,很多AI算法也已支持解決此類問題。在ORTC視頻增強架構中,CameraUnit SDK實現(xiàn)層提供了AI算法的能力接入,在視頻前處理如抖動、美顏、視頻增強等做能力提升。
在視頻前處理中,美顏主要使用雙曲線磨皮和高低頻磨皮。
雙曲線磨皮通過Y通道求高反差,進行RGB通道提亮和壓暗處理,最后進行圖像融合。此方法在磨皮程度的度量和處理色塊上都有一定的缺陷和局限性。
于是,我們針對高低頻磨皮進行了一些改進。首先對圖像進行濾波,生成中間結果,利用圖像的方差圖來反映圖像的頻率分布,將圖像劃分為不同頻段的區(qū)域并為其設置不同的權重,根據(jù)相應的權重將原圖和濾波后的圖進行融合疊加。
在此過程中我們也遇到了一些問題,例如中高光壓制過多導致圖像通透性差,對應的解決方案是細化分頻區(qū)域,減小對高光的壓制。另外,針對圖像鋸齒和小人臉效果不佳的問題,我們通過降低縮放尺度或不縮放以解決此問題。
接下來介紹在RTC處理過程中的自適應編碼部分,AI帶來了哪些提升。
RTC系統(tǒng)中最大的成本在于帶寬,而帶寬和清晰度是相輔相成的。一方面希望節(jié)省帶寬成本,另一方面希望傳輸高質量圖像,這是不可兼得的。那如何在有限帶寬的網(wǎng)絡環(huán)境中,實現(xiàn)更清晰、更低成本的視頻傳輸呢?我們提出了窄帶高清的需求。
在窄帶高清的要求下,比較常用的是內容感知編碼,即對視頻幀進行感知分析,識別出感興趣區(qū)域,預測最佳編碼數(shù)據(jù),實現(xiàn)基于場景復雜度的智能感知編碼。這里的關鍵在于ROI即感興趣區(qū)域的識別,引入ROI視頻編碼后,就變得比較容易。
我們在SDK接入層提供ROI封裝能力,三方通過接口調用硬件平臺提供的底層ROI編碼 功能。
圖像超分在端側和云端都有實現(xiàn)機會,可以在低帶寬情況下實現(xiàn)更高質量的圖像。目前ORTC視頻超分的AI應用主要在服務側,稍后在架構部分會進一步講解。
在網(wǎng)絡傳輸部分,AI可以帶來哪些提升呢?目前包括幾個方面:
WaveNetEQ,即一種改進版的PLC系統(tǒng),用于語音合成的遞歸神經(jīng)網(wǎng)絡模型,能更好解決音頻丟包問題; 基于神經(jīng)網(wǎng)絡的自適應傳輸; 基于強化學習的擁塞控制算法; 基于RNN的丟包恢復;-03-
ORTC=>AI
在端側無論如何優(yōu)化,都會有一些AI無法克服的困難,比如計算復雜度過高、訓練數(shù)據(jù)集不足、模型普適性差、無法應對大規(guī)模應用等。這些端側的痛點,可以利用ORTC低時延、高保真的特性來解決。
基于此,我們提供了ORTC和AI融合的架構,可以有效借助開發(fā)框架引入AI算法服務。例如,在對實時性要求較高的場景,可以借助云端虛擬SDK引入流輔助AI做分析處理;如果是對幀率要求高、時延要求不高的場景,可以借助平臺分發(fā)實現(xiàn)AI算法服務進行流轉發(fā)。
在語音分析和自然語言處理方面,ORTC可以補充AI在實時語音翻譯/字幕、實時變聲、對話機器人等方面的能力。另外,基于ORTC SDK通道的能力,我們還可以做一些較復雜的場景運用,如遠程聽診。用戶和醫(yī)生之間不僅可以實時通話,同時還可以借助同一個通道傳輸高保真音頻。
在視頻分析及處理方面,ORTC可以在遠程活體檢測、數(shù)字人驅動建模、輔助駕駛、遠程心率測量等場景幫助AI落地。
-04-
ORTC與AI融合
接下來介紹AI和ORTC之間融合的一些實踐探索。
在RTC云端AI處理關鍵流程中,視頻和音頻基本可以實時處理(端到端500ms內),同時視頻超分在云端利用GPU進行計算之后,可以對視頻圖像做增強,然后回流到ORTC中。
在ORTC融合AI架構中,ORTC可以讓AI算法得到很好的實踐落地,如前述提到的借助ORTC可以實現(xiàn)流的分發(fā),或實現(xiàn)AI對圖像實時的抽幀和流轉發(fā)流程處理。同時,視頻處理后的智能流可以很好反饋回流到ORTC系統(tǒng)中去。
以背景建模場景為例,AI不僅可以使網(wǎng)絡傳輸質量得到很好的提升,對背景區(qū)域進行虛化,還可以保證隱私。此外,我們還可以把通過背景建模算法提取到的背景幀作為長期參考幀,以提升抗弱網(wǎng)的能力。
基于ORTC和AI的相互作用,我們還做了很多的探索和實踐,例如圖示的實時音視頻多模態(tài)分析。
此外,在元宇宙場景也有相關探索,例如多模態(tài)驅動虛擬數(shù)字人,以及云渲染+ORTC串流。
我的分享就到這里,謝謝!
關鍵詞:
推薦內容
- 熱點在線丨ORTC與AI相互成就之道
- 天天時訊:銀行運營服務模式亟須智能化
- 小型狗品種大全及圖片名字_小型狗品種_當前視點
- 全球熱頭條丨原碼反碼補碼轉換器在線_原碼反碼補
- 環(huán)球觀察:國內首臺12兆瓦 海上風電機組完成安裝
- 《繁華似錦》王居安為什么回國?_前沿熱點
- 德林控股(01709)擬于10月4日派末期息每股0.0103港
- 激發(fā)創(chuàng)新活力 增添發(fā)展動能 全球消息
- 九芝堂股價站上5日均線,“陽包陰”形態(tài)短期看漲
- 精選!車載音響怎么調dj_車載音響怎么調音圖解
- 地槽地臺學說認為地殼主要是垂向運動(地槽)
- 杭州一小區(qū)20多位業(yè)主車輛頻繁遭遇釘子刺客?眾方
- 張鵬:青春創(chuàng)業(yè),匠心筑夢
- 環(huán)球觀天下!國家電網(wǎng)董事長辛保安:中國平均電價
- 世界快資訊丨2020年元旦寄語朋友圈_2020年元旦寄語
- 胡斌與相關單位會談氫能產(chǎn)業(yè)合作
- 天天新動態(tài):城市青年“碰撞”文化集市:擺個什么
- 熱頭條丨星源卓鎂(301398.SZ)擬10股派3.15元 于7
- 全長115.5公里!我國最長深水油氣管道鋪設完工 世
- 青川:禁毒宣傳為群眾打好“毒品預防針”
- 女生找對象時,越是看重這四點,以后越會過得更好
- 暗黑破壞神4PVP商人在哪里|觀焦點
- 當前熱議!大金融板塊表現(xiàn)低迷 中國銀河跌近6%
- 今日精選:惠譽:確認廣發(fā)銀行“BB+”長期外幣發(fā)
- 2023轉債中期策略:聚沙成塔 細大不捐
- 近期公布:太原雀斑哪里治效果好[評價榜]
- 當前信息:穿搭不好看,色彩很關鍵,掌握色彩搭配
- 鎖龍消防擬向銀行申請1000萬貸款 法人潘德順及其
- 【環(huán)球播資訊】電腦重裝系統(tǒng)下載哪個軟件(電腦重
- 【新時代 新征程 新偉業(yè)】秦皇島:高水平建設“
- csol清朝僵尸怎么無限跳_csol清朝僵尸 環(huán)球最資訊
- 山東法院2022年受理毒品犯罪案件701件|觀速訊
- 宮本茂想制作更多任天堂IP電影_世界關注
- 主流接口助力生產(chǎn),極高性價比-生產(chǎn)力朗科六合一
- 河南寶豐:“黑金”撐起人造石墨產(chǎn)業(yè)|世界觀焦點
- 環(huán)球快資訊丨06月27日科魯爾丙烯腈為11000元
- 浙江新能(600032):該股換手率大于8%(06-27)
- 世界熱門:中國股壇第一人坦言:2根均線確定買賣點
- 2023年溫州市普通高中最低控制線劃定 天天短訊
- 全球快消息!北京體育局發(fā)警示提醒,為孩子暑期校