首頁(yè)>資訊 >
焦點(diǎn)快看:1000個(gè)教AI打電競(jìng)的人 2022-10-24 08:40:33  來(lái)源:36氪

你在叢林的邊緣出生,來(lái)到這個(gè)世界要學(xué)的第一件事,叫做“生存”,需要學(xué)會(huì)采集生活物資,知道獵殺或者躲避敵人。初始,你的水、食物數(shù)值為100,血量也是100;當(dāng)水和食物二缺一時(shí),就會(huì)在每個(gè)時(shí)間單位掉10滴血,血量變?yōu)?時(shí),你將失去生命特征死亡。


(資料圖)

在危機(jī)四伏的叢林中行走,除了掉血而亡,還有好幾種死法,比如遭敵人獵殺成為“盤中餐”、不小心踩到致命巖漿等。此時(shí),系統(tǒng)告訴你,當(dāng)下是獵殺敵人的最佳時(shí)機(jī),能快速積累助你“叢林逃生”的分?jǐn)?shù),但你可能錯(cuò)過(guò)擊殺NPC獲取升級(jí)裝備的機(jī)會(huì),你是要分?jǐn)?shù)還是要裝備呢?當(dāng)背包裝滿時(shí),你是選擇賣掉部分攻擊裝備,騰出空間儲(chǔ)存應(yīng)急藥物和生存物資,還是無(wú)論如何堅(jiān)決不把武器裝備拱手于敵人?

這些問(wèn)題并非假設(shè),而是AI在一場(chǎng)賽事中真實(shí)面臨的選擇。而將AI置于這種兩難境地的,是超參數(shù)科技的研究員們。今年4月,他們依托Neural MMO(簡(jiǎn)稱NMMO)學(xué)術(shù)環(huán)境,發(fā)起系列「NMMO海量AI團(tuán)隊(duì)生存挑戰(zhàn)賽」,探索海量AI的智能決策能力。截至今日,AIcrowd平臺(tái)數(shù)據(jù)顯示,有1000多位選手參與其中,他們來(lái)自不同的國(guó)家,大多是行業(yè)從業(yè)者和高校學(xué)生。

一個(gè)海量AI智能決策“比武場(chǎng)”

在地球生命的早期,生物有機(jī)體非常簡(jiǎn)單。它們是微小的單細(xì)胞生物,幾乎沒(méi)有協(xié)調(diào)能力。然而,數(shù)十億年的進(jìn)化通過(guò)競(jìng)爭(zhēng)、合作和自然選擇,形成了復(fù)雜的生命形式,以及復(fù)雜的人類智能。

NMMO正是受此啟發(fā),模擬地球生命之間的競(jìng)爭(zhēng)與合作,通過(guò)設(shè)計(jì)游戲規(guī)則、海量AI競(jìng)爭(zhēng)與合作,以及標(biāo)準(zhǔn)的大規(guī)模強(qiáng)化學(xué)習(xí)算法,刺激AI在沒(méi)有監(jiān)督的情況下學(xué)習(xí)復(fù)雜的策略和技能,看是否能演進(jìn)出更復(fù)雜的智能。它由麻省理工學(xué)院博士生Joseph Suarez開發(fā),結(jié)合了大型多人在線角色扮演游戲(MMORPG)玩法,是一個(gè)面向強(qiáng)化學(xué)習(xí)、支持海量AI研究的學(xué)術(shù)環(huán)境。

對(duì)大多數(shù)游戲玩家來(lái)說(shuō),MMORPG并不陌生,風(fēng)靡全球的《魔獸世界》就是最經(jīng)典的MMORPG游戲。這類游戲的特點(diǎn)在于強(qiáng)社交屬性,以及豐富的交互和持續(xù)更迭的游戲內(nèi)容。NMMO很像游戲,不同的是玩家為AI,而非人類。

AI會(huì)作為玩家降生在游戲地圖的邊緣。整個(gè)地圖是一個(gè)抽象的生態(tài)系統(tǒng),設(shè)置了可供飲用的水、可獲取食物的森林、碰到即致命的巖漿、可轉(zhuǎn)化為存儲(chǔ)食物資源的魚和能生產(chǎn)高級(jí)魔法彈藥的水晶石等16種自然資源或元素。每個(gè)AI擁有局部的“視野”,需要水和食物來(lái)生存,當(dāng)身體中儲(chǔ)存的水和食物低于一定量的時(shí)候,AI的生命值就開始下降。

NMMO中存在近戰(zhàn)、遠(yuǎn)程、魔法三種攻擊方式,三者互相克制,是一種石頭剪刀布式的博弈。此外,AI之間除了互相攻擊,還可以攻擊NPC,由此獲得金錢和盔甲、武器等裝備。

AI們需要完成探索、覓食、戰(zhàn)斗和升級(jí)裝備等多重任務(wù),并根據(jù)這些技能的等級(jí)計(jì)算分?jǐn)?shù)。這是一場(chǎng)AI小隊(duì)間的競(jìng)爭(zhēng),一支隊(duì)伍的得分將由某一項(xiàng)最高的個(gè)體得分所決定。因此,AI小隊(duì)需要實(shí)現(xiàn)高效分工合作,不同的AI承擔(dān)不同的角色任務(wù),以最優(yōu)團(tuán)隊(duì)策略去獲取游戲的最終勝利。

在這個(gè)過(guò)程中,AI與NPC、隊(duì)友、敵方之間需要進(jìn)行豐富的交互和博弈,非??简?yàn)AI自身的智能決策能力。AI要想在資源有限而競(jìng)爭(zhēng)者眾的環(huán)境中更好地生活,就要學(xué)會(huì)讓步和協(xié)調(diào)雙方利益,比如給隊(duì)友送人頭,甚至和敵方合作獲取更好的裝備。

一場(chǎng)硅基生命體的“社會(huì)實(shí)驗(yàn)”

在超參數(shù)科技的研究員陳嘉欣看來(lái),NMMO的優(yōu)勢(shì)在于它是一個(gè)支持海量AI共存、交互,并涌現(xiàn)策略的生態(tài)系統(tǒng)。她所在的團(tuán)隊(duì)目前正圍繞“AI社會(huì)”概念展開一系列的研究項(xiàng)目,其核心在于探索海量AI相互影響下所形成的自運(yùn)轉(zhuǎn)社會(huì)系統(tǒng),而在強(qiáng)化學(xué)習(xí)領(lǐng)域頗具影響力的NMMO符合這類研究對(duì)環(huán)境的基本需求。

因此,超參數(shù)科技聯(lián)合麻省理工學(xué)院、清華大學(xué)深圳國(guó)際研究生院,以及數(shù)據(jù)科學(xué)挑戰(zhàn)平臺(tái)AIcrowd,共同主辦「NMMO海量AI團(tuán)隊(duì)生存挑戰(zhàn)賽」的系列競(jìng)賽,并向全球AI研究者、愛好者發(fā)出邀請(qǐng)。

陳嘉欣介紹,不同于打麻將、斗地主這類任務(wù)定義簡(jiǎn)單而明確的游戲,NMMO是一個(gè)復(fù)雜的開放世界,有基本的采集、生存邏輯,也有戰(zhàn)斗、裝備系統(tǒng),“AI需要做符合底層規(guī)則和邏輯的行為”。但這只是進(jìn)行研究的基礎(chǔ)條件,若想深入探索“AI社會(huì)”概念,促使海量AI涌現(xiàn)出更豐富、復(fù)雜的策略,研究員們需要對(duì)NMMO進(jìn)行改良,重新設(shè)計(jì)交互、博弈機(jī)制。

在8月的新賽事中,研究員們引入了職業(yè)分工、毒圈機(jī)制、交易系統(tǒng)等新元素,通過(guò)加長(zhǎng)決策鏈條進(jìn)一步仿真現(xiàn)實(shí)世界的決策環(huán)境,將AI的決策難度再抬上一個(gè)等級(jí)。

新增的職業(yè)分工相當(dāng)于是AI在這個(gè)虛擬世界中所承擔(dān)的“社會(huì)角色”。相較一開始就設(shè)定好固定角色的普通游戲,NMMO賽事里的AI可以在八種不同的職業(yè)中進(jìn)行自主選擇。研究員們很喜歡這種有灰度的設(shè)置,期待看到AI在博弈中演化出屬于自己的角色。事實(shí)正是如此,賽事平臺(tái)視頻回放顯示,AI小隊(duì)在自主探索的過(guò)程中,逐漸出現(xiàn)了隊(duì)內(nèi)的職業(yè)分工,這種行為也在一定程度上提升了小隊(duì)的整體效率。

而與職業(yè)分工息息相關(guān)的另外兩種設(shè)定——裝備系統(tǒng)和交易系統(tǒng),則使AI小隊(duì)之間涌現(xiàn)出更加豐富、復(fù)雜的交互行為,AI們不再局限于互相攻擊、搶奪資源,可以自由買賣裝備、食物等物品,并根據(jù)不同的情況給物品定價(jià)。因此,有參賽者選擇避開沖突性高的進(jìn)攻型策略,轉(zhuǎn)向致力于“搞錢”的迂回路線。研究者們觀察到,有AI小隊(duì)演化出了“低買高賣”的經(jīng)濟(jì)學(xué)行為,在眾多的競(jìng)爭(zhēng)隊(duì)伍中贏得自己的相對(duì)優(yōu)勢(shì),最終也取得不錯(cuò)的比賽成績(jī)。

無(wú)論是整個(gè)團(tuán)隊(duì)做好高效分工去正面對(duì)戰(zhàn),還是另辟蹊徑去集體遨游商海,都讓NMMO呈現(xiàn)出更接近人類社會(huì)的面貌。如果說(shuō)最初的NMMO更像純粹的自然界,只為活命的AI更像野生動(dòng)物;那經(jīng)過(guò)更新迭代的NMMO儼然已邁入人類社會(huì),AI們也開始了商業(yè)文明之旅。

一群探索技術(shù)邊界的“先行者”

在上千個(gè)參賽者提交的比賽策略中,其實(shí)沒(méi)有關(guān)于AI智能決策問(wèn)題的直接答案,但研究員們認(rèn)為NMMO是“現(xiàn)實(shí)世界在虛擬環(huán)境的映射”,研究AI在環(huán)境中的每一個(gè)行動(dòng)、決策都能帶來(lái)新的啟發(fā)和思考,最終會(huì)向著解決現(xiàn)實(shí)世界中具有挑戰(zhàn)性的實(shí)際問(wèn)題轉(zhuǎn)化,真正幫助相應(yīng)領(lǐng)域的發(fā)展。

超參數(shù)科技高級(jí)研發(fā)總監(jiān)朱曉龍觀察到,在數(shù)字化、智能化轉(zhuǎn)型的時(shí)代大背景下,其實(shí)存在非常多智能決策應(yīng)用場(chǎng)景,比如智能運(yùn)輸調(diào)度、經(jīng)濟(jì)政策制定等,而NMMO系列挑戰(zhàn)賽或能起到助推器的作用。比如,Salesforce Research和哈佛大學(xué)的研究,就是通過(guò)在類似的仿真環(huán)境中觀察AI對(duì)稅收政策的反應(yīng),幫助使用者推演出最優(yōu)解決思路,最后實(shí)踐證實(shí)了AI對(duì)于政策設(shè)計(jì)和提高社會(huì)福利具有促進(jìn)意義。

隨著AI研究者和行業(yè)實(shí)踐者更多地進(jìn)行聯(lián)合探索,AI近幾年已經(jīng)逐步成為“顯學(xué)”,從僅能被感知到影子的“推薦算法”變?yōu)楫a(chǎn)品的核心組成部分,近期風(fēng)頭無(wú)兩的“AI繪畫”正是典型代表。這一切從Google兩個(gè)研究員開始,2012年他們?cè)趯?shí)驗(yàn)室訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),指導(dǎo)計(jì)算機(jī)去畫貓臉圖片。歷經(jīng)十年技術(shù)更迭、沉淀,AI繪畫終于迎來(lái)爆發(fā),出現(xiàn)如DALL·E2、Midjourney、Stable Diffusion等令人驚嘆的成果,并在短短幾個(gè)月內(nèi)實(shí)現(xiàn)飛速更新和廣泛應(yīng)用。

放在十年前,人們很難想象的是,有一天,AI會(huì)跑到文學(xué)藝術(shù)的領(lǐng)地上來(lái)。正如當(dāng)下,研究者們也很難預(yù)料NMMO賽事所做的技術(shù)探索未來(lái)會(huì)迸發(fā)出怎樣的革新力量,最終能創(chuàng)造出怎樣的全新物種。唯一可以確定的是,AI作為數(shù)字智能時(shí)代最受關(guān)注的前沿技術(shù)之一,將深度融入人類的未來(lái)生活。

關(guān)鍵詞: 職業(yè)分工 強(qiáng)化學(xué)習(xí) 交易系統(tǒng)

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片