国产在线视频精品视频,国产亚洲精品久久久久久青梅 ,国产麻豆精品一区,国产真实乱对白精彩久久,国产精品视频一区二区三区四

加載中...
您的位置:首頁 >綜合 > 正文

AI語音真假面:實時變聲 一秒復(fù)制或模仿你講話

2019-06-14 16:00:03 來源:新浪科技

如果有一種技術(shù)可以一秒復(fù)制或模仿你講話,你會感到驚喜還是驚恐?

進(jìn)入2019年,AI技術(shù)的應(yīng)用落地越來越多樣化??拼笥嶏w、搜狗等技術(shù)公司相繼發(fā)布了語音合成技術(shù)的應(yīng)用。通過AI手段,用戶可以一秒變聲社會名人或者其他想模仿的聲音。

互聯(lián)網(wǎng)技術(shù)在悄無聲息地改變我們的生活,對人工智能企業(yè)來說,語音識別技術(shù)的廣泛應(yīng)用已不是難事。但背后的倫理道德和安全隱患,或?qū)⒊蔀榘殡SAI技術(shù)發(fā)展不容忽視的一個問題。

實時變聲技術(shù)受AI公司熱捧一秒可換聲

“嗨,大家好,今天非常開心,來到科大訊飛新品發(fā)布會,一直好喜歡科大訊飛哦……”

這是發(fā)生在科大訊飛2019新品發(fā)布會上的一幕,科大訊飛董事長劉慶峰通過技術(shù),現(xiàn)場模擬了單田芳、林志玲和羅永浩的聲音來做開場白。尤其當(dāng)羅永浩聲音響起的時候,不少人以為老羅到了現(xiàn)場。

“你看到的是劉慶峰,但聽到的是老羅的聲音。”臺上的劉慶峰表示,這是公司最新的實時變聲技術(shù)。據(jù)悉,這項新的語音合成技術(shù)只需要1分鐘的聲音樣本,就可以模仿任何人說話。

不止科大訊飛,也是在近期,搜狗CEO王小川在一場大會上展示了搜狗變聲功能,通過手機(jī)軟件,王小川模擬了高曉松和東北妹子的聲音,引得現(xiàn)場連連發(fā)笑。他隨后展示了歌曲中的聲音替換,據(jù)介紹,系統(tǒng)先用14分鐘對他的語音做了訓(xùn)練,然后把音色做遷移。

這是搜狗最新的語音合成技術(shù),可以實現(xiàn)把任何人的聲音轉(zhuǎn)化成特定聲音,秒變林志玲、馬云的聲音都可以。王小川表示,這不只是一個簡單的語音合成,可以把語音語調(diào)情感做遷移。

目前,在搜狗輸入法中,用戶可以將自己的聲音自由變換成喜歡的聲音,在微信、QQ、陌陌等主要社交場景均可使用。搜狗提供了明星、卡通人物、游戲IP、方言等幾個類別供19種特定聲音。

▲王小川

其實,語音合成早就不是新技術(shù),之前,我們見到更多的是將文字轉(zhuǎn)化為聲音,比如在導(dǎo)航、轉(zhuǎn)寫、智能音箱、Siri等智能語音助手等方面的應(yīng)用,并不是真人在說話。

今年,很多AI公司發(fā)力語音合成在變聲、語音cos等場景下的應(yīng)用,將真人發(fā)出的聲音轉(zhuǎn)化成特定聲音。

百度也有相關(guān)技術(shù)的落地應(yīng)用,今年5月初,在中央電視臺公益節(jié)目《等著我》中,百度大腦基于智能語音技術(shù),合成了已故老兵的聲音,幫助分別64年的老戰(zhàn)友實現(xiàn)“重逢”。

據(jù)介紹,該技術(shù)使用百度端到端語音風(fēng)格分離和建模方案,使用多組神經(jīng)網(wǎng)絡(luò)對語音的不同維度,例如音色、情感、風(fēng)格等,進(jìn)行獨(dú)立的編碼建模,從而指導(dǎo)最終合成。

這些AI技術(shù)落地應(yīng)用的背后,一方面體現(xiàn)了AI技術(shù)應(yīng)用的進(jìn)展,和為社會帶來的普惠價值理念。比如搜狗將語音變聲技術(shù)、AI合成主播技術(shù)等與行業(yè)結(jié)合,在媒體、教育、內(nèi)容制作、旅游等場景結(jié)合,將會帶來更大的價值想象空間。

另一方面,未來可能存在的技術(shù)漏洞、技術(shù)濫用等風(fēng)險也不容忽視。有網(wǎng)友就指出“小心被用于電信詐騙”“以后可能會收到‘馬云’的電話”……

一音頻領(lǐng)域業(yè)內(nèi)人士認(rèn)為,對于音頻作為交互方式的工具型產(chǎn)品應(yīng)該是有用的,但對于音頻作為內(nèi)容載體的線上音頻平臺,正面意義有待觀察。

因此,對企業(yè)來說,在不斷尋求技術(shù)突破和商業(yè)價值的同時,也應(yīng)該樹立對技術(shù)安全的責(zé)任心。

語音合成技術(shù)在實操層面還有非常多的硬傷

據(jù)了解,逼真的語音合成技術(shù),背后是神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的支持。神經(jīng)網(wǎng)絡(luò)模擬電信號在人腦神經(jīng)元之間的傳遞過程,對輸入數(shù)據(jù)進(jìn)行處理,它利用分層的神經(jīng)元,從大量樣本數(shù)據(jù)中總結(jié)出共同特征。

語音合成技術(shù)在商業(yè)化落地方面,可見的在諸如語音交互、有聲讀物、新媒體、智能客服、泛娛樂等領(lǐng)域被應(yīng)用。

在接受新浪科技采訪時,蜻蜓FM大教育品類負(fù)責(zé)人牛森表示,語音合成技術(shù)在音頻領(lǐng)域會大大降低文字內(nèi)容轉(zhuǎn)向音頻的人員、時間和經(jīng)濟(jì)成本。

在談到語音cos時,牛森指出,這件事在實操層面有非常多的硬傷,比如合成后的音頻與真實的人聲在情緒和情感表達(dá)上肯定是做不到完全一致的。

他表示,對于音頻用戶來說,同樣的內(nèi)容,讀稿和講述的收聽體驗會有很大區(qū)別,只有最真實的人聲才能引發(fā)深刻的情感共鳴,也是音頻的價值所在。

而在道德和安全層面上,牛森認(rèn)為,首先要從技術(shù)上對人聲和合成音進(jìn)行篩選確認(rèn),從權(quán)利上需要明確版權(quán)鏈條,任何未經(jīng)授權(quán)的合成音頻屬于侵權(quán)違法行為,“作為平臺方我們會進(jìn)行嚴(yán)格的版權(quán)和品質(zhì)把控”。

據(jù)了解,在一些音頻平臺上,語音合成技術(shù)主要用于兒童類節(jié)目,其他的內(nèi)容上,AI模擬效果沒那么好,尚未被廣泛應(yīng)用。

對于語音合成存在的安全隱患,在發(fā)布了變聲技術(shù)后,劉慶峰現(xiàn)場曾強(qiáng)調(diào):人工智能要持續(xù)發(fā)展,最核心的是它的價值觀如何陽光健康與人為善,所以像變聲技術(shù)這樣一個黑科技,我們顯然是不會輕易在各種App中對外開放的,一定是要有一種健康、安全又有趣的方式來跟這個世界來對接。

此前,劉慶峰還提到,人工智能領(lǐng)域要技術(shù)合作,更要法律倫理的合作。

對于安全問題,搜狗公司向新浪科技表示,“技術(shù)是一柄雙刃劍,可以用來造福也可能帶來災(zāi)難,搜狗堅守科技向善。變聲技術(shù)是當(dāng)下人工智能的前沿應(yīng)用,基于語音表征學(xué)習(xí)、遷移學(xué)習(xí)技術(shù),可以將任何人的聲音轉(zhuǎn)換成特定人的聲音(Any-to-One)。搜狗在這方面取得突破,率先進(jìn)入實用階段。這項技術(shù)還可以應(yīng)用到影視配音,家人陪伴等場景中幫助人們提升工作效率和生活幸福感。”

搜狗透露,為了保證這項技術(shù)不被有心之人濫用,公司作了嚴(yán)格的管理和限制:

1、搜狗不向第三方輸出變聲技術(shù),確保該技術(shù)的可控性和安全性。

2、變聲功能的所有目標(biāo)音色都由搜狗定義,不支持用戶隨意模仿。

3、變聲后的聲音在微信、QQ等App中使用,不能轉(zhuǎn)發(fā)復(fù)制,能夠做到對發(fā)送者追蹤溯源。

此前,王小川在媒體采訪中也提到過人工智能立法:在當(dāng)前人工智能發(fā)展的階段,盡快根據(jù)技術(shù)發(fā)展不斷調(diào)整和完善,是應(yīng)對人工智能所帶來的法律和倫理風(fēng)險最為切實的手段。

不過,目前技術(shù)的發(fā)展仍然是走在倫理、法律的前面。周鴻祎曾在今年5月份的世界智能大會上提到過,在AI領(lǐng)域,如果沒有人文的思考,可能設(shè)計出來的系統(tǒng)就是一個悲劇。

AI技術(shù)背后的人文思考

其實,AI技術(shù)背后的“以假亂真”現(xiàn)象不只出現(xiàn)在聲音領(lǐng)域,近日三星的一項技術(shù)應(yīng)用也引起人們的注意。

據(jù)外媒報道,三星位于莫斯科的人工智能實驗室研究人員,基于大量動圖和視頻素材,以及“深度卷積神經(jīng)網(wǎng)絡(luò)”訓(xùn)練,通過AI技術(shù)準(zhǔn)確識別某些面部特征,可以將靜止圖像變?yōu)閯訄D甚至視頻。

在實驗中,研究人員以愛因斯坦、瑪麗蓮·夢露甚至蒙娜麗莎的靜止圖像為基礎(chǔ),分別生成了他們正在說話的視頻,不過目前視頻質(zhì)量較低。

也就是說,未來隨著AI圖像生成技術(shù)的進(jìn)步,可以僅僅通過一張照片就能生成虛假視頻。

在此之前,AI換臉也曾在社交媒體上引起熱議。有人將94版《射雕英雄傳》里朱茵扮演的黃蓉?fù)Q上了楊冪的臉,網(wǎng)友直呼“毫無違和”“以假亂真”,甚至調(diào)侃“老劇新拍最省成本的方式”。

這原本是一則惡搞或者純娛樂視頻,但是,這一操作背后,卻讓不少人擔(dān)憂技術(shù)會被濫用,如果沒有使用在正確的地方,將涉及版權(quán)、肖像權(quán)、安全等問題。

而這類技術(shù)早在兩年前國外技術(shù)圈就存在和流傳,此前也有網(wǎng)友將主播的臉換成明星的。不過,受多種因素限制,這一技術(shù)真正落地應(yīng)用還比較少見。

在美國,就已經(jīng)有人利用人工智能將色情視頻里的女主角換成女明星。這一技術(shù)正引發(fā)恐慌,遭到查封。

此外,在一些行業(yè),這樣的技術(shù)也將帶來新的思考。比如一些音頻會被篡改,引發(fā)社會問題;在未來的影視劇中,可能出現(xiàn)明星替身AI換臉、AI合成的配音等現(xiàn)場。雖然這些技術(shù),一定程度上節(jié)約了影視劇制作成本,加快影視劇制作的進(jìn)程,但在道德和人文層面釋放的價值觀還需要商榷。

而不管是AI變聲,還是AI換臉,高科技迅速發(fā)展的同時,也給法律規(guī)則帶來新的挑戰(zhàn)。

值得注意的是,在4月全國人大常委會審議的《民法典人格權(quán)編(草案)》里,正式加了一條:任何組織和個人不得以利用信息技術(shù)手段偽造的方式侵害他人的肖像權(quán)。

也就是說,一個好的信號是,未來AI換臉、甚至語音合成技術(shù)的應(yīng)用或?qū)⑹艿椒晒苤啤?/p>

目前,AI技術(shù)的落地應(yīng)用,正在不斷打通虛擬世界和現(xiàn)實世界的界限,我們需要思考的是,如果未來這些技術(shù)越來越強(qiáng)大和普及,明辨真假將會變得越來越困難,技術(shù)發(fā)展的同時又該如何把控安全隱患問題?

關(guān)鍵詞: AI 實時變聲

推薦內(nèi)容