世界需要“圖拉古”們
世界需要“圖拉古”們
在時代的變遷中,常常因一兩個人,以遠見卓識引領著時代的變革,塑造了世界的未來?!皢滩妓埂钡拿秩缃褚殉蔀閯?chuàng)新與顛覆的代名詞,他以一部iPhone打破了手機的傳統(tǒng)定義,開創(chuàng)了智能手機的新紀元;“馬斯克”以其前瞻性的創(chuàng)新思維和顛覆性的業(yè)務模式, 在新能源汽車、航空航天和人工智能等領域掀起革命性浪潮。他們用夢想和堅持重塑了整個世界,推動了科技與社會的進步。
而當我們站在這個全新的歷史節(jié)點上,有一批同樣具備遠見卓識和創(chuàng)新精神的新“夢想家”逐漸涌現(xiàn),天圖萬境創(chuàng)始人圖拉古正是其中的代表人物。2024年6月22日,在華為開發(fā)者大會(HDC 2024)上,圖拉古發(fā)表演講,提出了一種新的AI發(fā)展理論,如何讓AI像人類生命體一樣進化,用眼睛、耳朵和大腦來做出判斷思考和行動,這是一種顛覆性的技術方向,拓寬了AI的邊界。
圖:天圖萬境創(chuàng)始人 圖拉古
雖然AI賽道越來越卷,可實際上卷來卷去并沒什么新花樣,總體還是固定在AIGC范疇中。這種AI式生成內(nèi)容本質(zhì)上還是一種對現(xiàn)有素材的再編輯、再加工,其實不能算真正的“智慧”,輸出結果也不穩(wěn)定,并且難以控制。很多人至今都較少使用AI,因為他們根本不知道如何給AI下指令,最直觀的體驗就是用AI干活似乎還不如自己干活快,甚至在網(wǎng)上誕生了大批“使用提示詞來指導AI的行動”的教程。
可圖拉古所期盼的AI已經(jīng)進入到了next level,讓AI具有像人一樣的感知能力,從而實現(xiàn)真正的AI。
比如當人閉上眼睛,我們通過聽,可以知道是鳥叫還是蟲鳴;聽呼嘯而過的車聲,就能判斷車輛的遠近距離;看到一盆水向我們潑來,就能立刻躲避…… 人類做出這些行動往往是本能反應,根本不會需要提示詞的引導。這,才是人類作為空間智能生物的“智慧”。今天,圖拉古希望AI也要有同樣的空間感知能力。
基于這個理念,圖拉古帶領他的團隊專注該領域研發(fā)十年時間。在此次HDC 2024上的亮相,AI感知視聽技術和基于此技術推出的“視頻聲效大模型”解決方案,可謂“十年窗下無人問,一朝成名天下知”。
AI感知視聽技術首先用多個獨立的單個引擎,構建了AI多方面的感知能力。比如AI圖像分割,就是幫助AI建立對物體形象的判斷和認知。比如AI空間計算,就是讓AI通過一臺普通的攝影機(單目)實現(xiàn)空間視頻的拍攝,相當于讓人用一只眼睛,看到這個立體的世界,讓AI建立起對空間的感知能力。
當AI擁有了像人類一樣的視覺、聽覺后,再通過“聯(lián)級神經(jīng)元”幫助AI建立“大腦”中樞,最終獲得與人類一樣的感知能力。
圖拉古表示,“我和我的團隊一直致力于創(chuàng)造更加理想的空間智能。我們要讓 AI擁有類人的記憶推理能力,讓它理解行為意圖、物質(zhì)屬性、運動規(guī)律、和空間關系。我們希望機器能夠為人做事,或者幫人做事,知道哪些是人類需要的,并理解不同場景下人類的差異化需求,通過‘聯(lián)級神經(jīng)元’和多樣數(shù)據(jù)的訓練,讓機器學會自我認知和決策,可以在數(shù)字世界中,像人類一樣識別多樣的世界環(huán)境,理解場景的復雜性。”
想象一下,通過視頻聲效大模型,我們只需要上傳一個視頻, 不需要費勁輸入任何提示詞,聲音就能自動蹦出來:比如一輛火車從遠及近開來,你就可以獲得一個從小到大的聲音;一個石頭落入水中,你就可以聽到石頭落水的聲音,甚至可以聽到泛起漣漪后的微弱聲音……這些聲音的自動生成,其實都基于AI對真實世界物理規(guī)律的理解。
在這種趨勢下,我們可以預見,未來的AI將不再僅僅是執(zhí)行人類指令的工具,而是成為擁有自主感知、理解和決策能力的智能體,給各行各業(yè)帶來翻天覆地的變化:
礦山深處曾經(jīng)是人跡罕至的危險地帶,今后能夠讓AI深入漆黑的環(huán)境中精準勘探,不僅提高了工作效率,更保障了工人們的安全。在這里,AI的每一次勘探都是對未知的挑戰(zhàn);
AI自動駕駛汽車會逐漸出現(xiàn)在城市街道中,它們擁有高超的駕駛技術,更能夠感知周圍的交通環(huán)境,做出最合理的決策,帶著我們安全、快捷地到達目的地;
在醫(yī)療領域,AI能夠化身敏銳洞察力的醫(yī)生,它能夠看到更立體的血管和組織,配合機械手完成最復雜、精密的手術。
……
天圖萬境的AI感知視聽技術,正在希望AI可以像人類一樣, 先通過“眼睛”和“耳朵”來感知這個世界,再憑借“大腦”里的經(jīng)驗記憶來預測和修正。天圖萬境將每個專用AI模型視為人類的神經(jīng)元,讓這些AI“神經(jīng)元”團隊合作,通過大規(guī)模的數(shù)據(jù)訓練,讓計算機逐漸理解并適應這個復雜多變的世界。它們能夠“看到”物體的形狀和顏色,通過AI圖像分割“學會”認識物體,并判斷出這是什么東西;它們能夠“聽到”聲音的高低和節(jié)奏,甚至能夠模擬出火車駛過、石頭落水等真實聲音效果。
最神奇的是, AI“神經(jīng)元”不光能識別見過的東西,還能推理出沒見過的信息,它們具備專業(yè)領域的豐富知識,能夠理解這個復雜的世界。不僅減少了對硬件算力的依賴,還學習了人腦的功耗比,以極低的能量消耗處理復雜任務。這種“聯(lián)級神經(jīng)元”框架設計,正讓計算機深度領悟我們生活的三維世界,在數(shù)字世界中揭示物理規(guī)律。
技術的飛躍不僅展現(xiàn)了人類智慧的結晶 ,更預示著一個全新紀元的來臨。喬布斯將科技與美學、設計與商業(yè)完美融合;馬斯克在多個領域引領潮流;圖拉古原本是個電影導演,他把代碼、AI與視聽相結合,實現(xiàn)AI技術突破。在這個快速發(fā)展的時代,我們需要更多喬布斯、馬斯克和圖拉古, 他們以敏銳的洞察力和無限的創(chuàng)造力,不斷對新技術進行探索,為世界帶來改變和顛覆,為人類創(chuàng)造更加美好的生活。
來源/信陽日報
風險提示:
本網(wǎng)站內(nèi)用戶發(fā)表的所有信息(包括但不限于文字、視頻、音頻、數(shù)據(jù)及圖表)僅代表個人觀點,僅供參考,與本網(wǎng)站立場無關,不構成任何投資建議,市場有風險,選擇需謹慎,據(jù)此操作風險自擔。
版權聲明:
此文為原作者或媒體授權發(fā)表于野馬財經(jīng)網(wǎng),且已標注作者及來源。如需轉載,請聯(lián)系原作者或媒體獲取授權。
本網(wǎng)站轉載的屬于第三方的信息,并不代表本網(wǎng)站觀點及對其真實性負責。如其他媒體、網(wǎng)站或個人擅自轉載使用,請自負相關法律責任。如對本文內(nèi)容有異議,請聯(lián)系:contact@yemamedia.com