OpenAI時隔一年再出“王炸”

中美AI差距緣何再度拉大？

2024-02-20 08:46:00

　　本報記者樊三彩

　　“一只狼對著月亮嚎叫，感到孤獨，直到它找到狼群?！?/div>

　　“一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包?！?/div>

　　“一只貓叫醒熟睡的主人，要求吃早餐。主人試圖忽視這只貓，但貓嘗試了新的策略，最后主人從枕頭下拿出秘密藏匿的零食，讓貓再呆一會兒。”

　　…………

　　能想象嗎，這些清晰流暢的視頻場景，竟然出自一款人工智能模型。2月16日，OpenAI時隔一年再出“王炸”，宣布推出全新的生成式人工智能模型Sora。該模型可以直接輸出長達(dá)60秒的視頻，并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭，以及富有情感的多個角色。截至目前，其官網(wǎng)已經(jīng)更新48個類似的視頻demo（樣片）。

　　這一突破引起業(yè)內(nèi)人士廣泛關(guān)注的原因在于，2021年初和2022年末，OpenAI先后推出了圖像生成系統(tǒng)DALL·E和聊天機(jī)器人ChatGPT。此次則是繼圖像、文本之后，將先進(jìn)的AI（人工智能）技術(shù)拓展到了視頻領(lǐng)域，視頻相關(guān)業(yè)務(wù)或?qū)⑹桩?dāng)其沖。工業(yè)4.0研究院院長胡權(quán)告訴《中國冶金報》記者：“當(dāng)國內(nèi)還掙扎在4秒AI視頻的連貫性的邊緣時，OpenAI已經(jīng)可以制作60秒的視頻了。當(dāng)我們以為快要追趕上他們的腳步時，突然發(fā)現(xiàn)差距正在越來越大?！?/div>

　　中美AI差距或在加大

　　基礎(chǔ)研究不到位是關(guān)鍵

　　通過文字生成視頻，對于大模型而言，難在哪里？華為技術(shù)有限公司運營商服務(wù)解決方案規(guī)劃部客戶技術(shù)總監(jiān)顧廷權(quán)表示：“sora是根據(jù)人的文字描述（類似簡單劇本）生成相應(yīng)的視頻（類似MV電影），這就需要為模型訓(xùn)練數(shù)據(jù)做高描述性的標(biāo)注，大模型不僅要理解提示的內(nèi)容，還要構(gòu)建這些內(nèi)容在物理世界中的存在方式。”

　　OpenAI發(fā)布的Sora核心論文顯示，Sora采用了一種Transformer架構(gòu)，能夠處理視頻和圖像潛在編碼的時空片段。它創(chuàng)新應(yīng)用了多項技術(shù)，如實現(xiàn)視覺數(shù)據(jù)創(chuàng)新轉(zhuǎn)化的補(bǔ)片技術(shù)（先將視頻數(shù)據(jù)壓縮到低維度潛在空間，再將其分解成時空補(bǔ)片，進(jìn)而實現(xiàn)從視頻到補(bǔ)片的轉(zhuǎn)化）、視頻生成的Transformer擴(kuò)展技術(shù)等。

　　“同樣是生成虛擬空間，其實數(shù)字孿生相較于Sora的難度更高?！鳖櫷?quán)剖析道，“數(shù)字孿生與自動駕駛類似，可以劃分為若干成熟度等級（如L0、L1、L2、L3、L4等），目前大多數(shù)字孿生都在L2級以下，僅實現(xiàn)了可視化和虛實簡單交互等功能?！焙鷻?quán)同樣認(rèn)為：“相較于數(shù)字孿生體的先進(jìn)應(yīng)用（不是當(dāng)前一些人認(rèn)為的可視化或局部的仿真），OpenAI做的東西還沒有涉及物理世界，難度當(dāng)然要小得多。”

　　同時，我國也在大力發(fā)展人工智能大模型，據(jù)不完全統(tǒng)計，目前已達(dá)上百個。既然如此，為何中美人工智能領(lǐng)域差距始終存在，并且再度加大？360創(chuàng)始人周鴻祎微博發(fā)文認(rèn)為：“盡管國內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5，但實際上跟4.0比還有一年半的差距。OpenAl手里應(yīng)該還有一些秘密武器，無論是 GPT-5，還是機(jī)器通過自我學(xué)習(xí)自動產(chǎn)生內(nèi)容，奧特曼（OpenAI CEO）是個營銷大師，知道怎樣掌握節(jié)奏，他們手里的武器并沒有全拿出來。這樣看來，中國跟美國的AI差距可能還在加大?！?/div>

　　在胡權(quán)看來，基礎(chǔ)研究不到位是差距形成的關(guān)鍵所在?！坝捎贑hatGPT-3.5已經(jīng)實現(xiàn)開源，國內(nèi)很多大模型公司都在這一基礎(chǔ)上開展研究，這意味著我們在沿著別人的技術(shù)路徑前進(jìn)，因而很難實現(xiàn)超越?！彼硎?，目前國內(nèi)存在一種資源錯配的現(xiàn)象，如很多科研院所也在開展大模型應(yīng)用研究以圖盈利，當(dāng)前的科研體制導(dǎo)致我們很難形成開創(chuàng)性的突破。此外，新型的AI發(fā)展需要大量投資，目前國內(nèi)的投資強(qiáng)度遠(yuǎn)遠(yuǎn)不夠；產(chǎn)業(yè)環(huán)境不利于創(chuàng)新，例如，監(jiān)管過于嚴(yán)格，企業(yè)無法低風(fēng)險試錯。他建議，國家通過設(shè)立基金的方式來支持人工智能的發(fā)展，而不是指定企業(yè)或項目，這樣才能讓那些真正有實力的項目涌現(xiàn)出來。

　　AGI不再遙遠(yuǎn) 工業(yè)應(yīng)用猶可期

　　值得注意的是，Sora并非完美。正如公開的核心論文所說：“作為一個模擬器，Sora當(dāng)前還有許多局限。比如，它無法精確模擬像玻璃破碎這樣的基本物理互動。有些互動，比如吃東西，并不總能正確反映物體狀態(tài)的改變。我們在OpenAI Sora 介紹頁中詳細(xì)列出了模型的其它常見失誤，包括長時間視頻樣本中出現(xiàn)的不一致性或物體的突然出現(xiàn)等問題。”

　　即使存在這樣的局限，也無法掩蓋其依舊是一款劃時代的人工智能模型，依舊是“向著創(chuàng)建能夠模擬物理世界的通用工具邁出的有前途的一步”。

　　周鴻祎認(rèn)為，Sora 的誕生意味著實現(xiàn) AGI（通用人工智能）可能從10 年縮短至一兩年?！坝辛舜竽Ｐ图夹g(shù)作為基礎(chǔ)，再加上人類知識的引導(dǎo)，可以創(chuàng)造各個領(lǐng)域的超級工具，例如在生物醫(yī)學(xué)、蛋白質(zhì)、基因研究以及物理、化學(xué)、數(shù)學(xué)的學(xué)科研究上，大模型都會發(fā)揮作用?！彼硎?。

　　科技創(chuàng)業(yè)公司研究機(jī)構(gòu)PitchBook估計，2023年全球生成式AI的市場規(guī)模將達(dá)到426億美元，2026年則將達(dá)到981億美元，未來增長動能可期。而不斷涌現(xiàn)的生成式人工智能，其對于人類的影響每次都會引發(fā)廣泛關(guān)注與討論。

　　周鴻祎表示，這次OpenAI利用它的大語言模型優(yōu)勢，讓Sora實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力，這樣產(chǎn)生的視頻才是真實的，才能跳出2D的范圍模擬真實的物理世界。“這次 Sora對物理世界的模擬，至少將會對機(jī)器人具身智能和自動駕駛帶來巨大的影響。原來的自動駕駛技術(shù)過度強(qiáng)調(diào)感知層面，而沒有工作在認(rèn)知層面。其實人在駕駛汽車的時候，很多判斷是基于對這個世界的理解。比如對方的速度怎么樣，能否發(fā)生碰撞，碰撞嚴(yán)重性如何，如果沒有對世界的理解就很難實現(xiàn)真正的無人駕駛?！彼f。

　　“在大模型與人類或企業(yè)的關(guān)系上，如果大模型良性發(fā)展，會成為人類的AI助手；反之，會被大量濫用，再由國家力量禁止或打擊?！焙鷻?quán)指出。

　　至于在工業(yè)上的應(yīng)用，胡權(quán)表示：“通過文字生成視頻，已經(jīng)沒有原理上的障礙了，但工程上的困難還比較多：一是設(shè)計一個應(yīng)用系統(tǒng)，這里面涉及一些類似黑箱的模塊，看起來OpenAI不會開源；二是需要用數(shù)據(jù)來訓(xùn)練算法，否則無法生成好的結(jié)果，類似ChatGPT的模型算法一樣；三是計算能力，跟隨者需要擁有類似的計算能力?！?/div>

　　相關(guān)鏈接

　　AI在贊比亞

　　探測到巨型銅礦

　　2月初，利用AI勘探銅、鋰等綠色轉(zhuǎn)型所需金屬的硅谷獨角獸KoBold Metals宣布，公司在贊比亞Mingomba項目上發(fā)現(xiàn)了巨型銅礦儲量。這家公司背后的投資者是由比爾·蓋茨牽頭，貝索斯、馬云、孫正義、達(dá)利歐、布隆伯格等人參與投資的突破能源風(fēng)險投資基金，以及普徠仕等知名機(jī)構(gòu)和挪威國家石油公司。

　　據(jù)悉，該公司利用AI技術(shù)大量讀取分析所有地球衛(wèi)星拍攝的地質(zhì)圖片、激光地球掃描數(shù)據(jù)，以及全球的地震波數(shù)據(jù)，并用時一年重新繪制了一張精細(xì)無比的全球地殼礦藏分布圖，并借此在贊比亞探測到一個巨型銅礦。

　　多家科技企業(yè)承諾打擊

　　濫用人工智能干擾選舉

　　2月16日，全球多家科技企業(yè)在第60屆慕尼黑安全會議(慕安會)上簽署協(xié)議，承諾在2024年這個多國舉行重要選舉的年份打擊旨在干擾選舉的人工智能濫用行為。人工智能的負(fù)面影響被此屆慕安會列為全球主要安全威脅之一。

　　微軟將在德國投資

　　32億歐元發(fā)展人工智能

　　2月15日，微軟公司總裁在德國首都舉行的一次活動上表示，未來兩年，微軟將在德國投資32億歐元，重點發(fā)展人工智能。作為該公司過去40年來在德國進(jìn)行的最大一筆投資，微軟將在2024年和2025年把大部分資金用于建立數(shù)據(jù)中心和培訓(xùn)人工智能人才。

　　日本計劃2024年

　　引入生成式人工智能立法

　　近日，據(jù)日經(jīng)新聞報道稱，日本執(zhí)政黨自民黨計劃在2024年提議政府引入生成式人工智能立法。

　　《中國冶金報》（2024年02月20日 04版四版）

來源：中國冶金報-中國鋼鐵新聞網(wǎng)

編輯：宋玉錚

下一篇：唐鋼獲評全國首批數(shù)字化轉(zhuǎn)型貫標(biāo)三星級評估...

版權(quán)說明

【1】凡本網(wǎng)注明"來源：中國冶金報—中國鋼鐵新聞網(wǎng)"的所有作品，版權(quán)均屬于中國鋼鐵新聞網(wǎng)。媒體轉(zhuǎn)載、摘編本網(wǎng)所刊作品時，需經(jīng)書面授權(quán)。轉(zhuǎn)載時需注明來源于《中國冶金報—中國鋼鐵新聞網(wǎng)》及作者姓名。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
【2】凡本網(wǎng)注明"來源：XXX（非中國鋼鐵新聞網(wǎng)）"的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng) 贊同其觀點，不構(gòu)成投資建議。
【3】如果您對新聞發(fā)表評論，請遵守國家相關(guān)法律、法規(guī)，尊重網(wǎng)上道德，并承擔(dān)一切因您的行為而直接或間接引起的法律責(zé)任。
【4】如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的。電話：010—010-64411649