一對一語音聊天場景的技術(shù)難點是什么
(文章來源:布谷鳥網(wǎng)絡(luò)科技)
視頻聊天時候,因為可以看到彼此,對聲音也不那么在意。而純語音聊天時,人注意力都放在聲音上,對音質(zhì)的要求更高。
1)整體穩(wěn)定的技術(shù),1 對 1 語聊的技術(shù)門檻相對較低,多人語聊和特定場景相對復(fù)雜,技術(shù)實現(xiàn)難度比較大。以pia戲為例,如果經(jīng)常出現(xiàn)卡頓、延遲和聽不清的情況,會將營造的劇情氣氛破壞殆盡,主播時不時要退出重新登錄,無法全身心投入,用戶聽到的是斷斷續(xù)續(xù)的聲音,不能沉浸到劇情中。
自研的音視頻引擎,通過抖動緩沖技術(shù)、前向糾錯技術(shù)、丟幀補償技術(shù)減少網(wǎng)絡(luò)抖動和弱網(wǎng)環(huán)境下的延遲,保障語音通話低延時且清晰。讓用戶在復(fù)雜網(wǎng)絡(luò)環(huán)境和多類型手機的情況下,也能實現(xiàn)暢通優(yōu)質(zhì)的語音通話。
2)多人聊天的語音前處理,以KTV語聊房為例,在房間當中,有人說話聲音、歌聲、伴奏都在房間呈現(xiàn),每個人所處的地方,所用的設(shè)備也不一樣,這就有很大可能出現(xiàn)回聲、噪音,或是某個人設(shè)備不是很好,發(fā)出的聲音很小。
成熟的語音前處理3A技術(shù):回聲消除(AEC)、噪音抑制(ANS)、音量增益(AGC),杜絕回聲和嘯叫,降噪而無損音質(zhì)。這樣歌者能展示甜美歌聲,聽眾也有良好的聽覺享受。
3)媒體次要信息同步,而在KTV類的場景中,AB兩人輪麥合唱,如果輪到B唱歌時發(fā)現(xiàn)歌詞沒同步,就很難唱下去。這當中技術(shù)難點就在于歌詞等媒體次要信息是否能做到同步。支持將非媒體信息注入媒體流中,歌詞等媒體次要信息和音視頻信息放在同一個媒體通道傳輸?shù)?,做到歌詞與歌聲同步展示果。