Otázky a odpovědi na konferenci The Big Inworld AI – „Všichni v herním průmyslu vidí potenciál generativní umělé inteligence
Alessio Palumbo z portálu WCCFtech publikoval rozhovor se zástupci společnosti Inworld o tom, jak generativní umělá inteligence zasahuje do vývoje her a jaké je vlastně budoucnost vývoje. Přepis rozhovoru si můžete přečíst níže.
Krátce poté, co se generativní umělá inteligence stala nejžhavějším tématem v podstatě ve všech odvětvích, se společnost Inworld začala v roce 2023 dostávat na titulní stránky novin se svou technologií Character Engine, která byla poprvé implementována do řady PC her (Mount and Blade II: Bannerlord, The Elder Scrolls V: Skyrim a Grand Theft Auto V) modderem Bloc.
O několik měsíců později společnost Inworld oznámila nové kolo financování od velkých investorů (včetně společností Microsoft, Samsung a LG), které zvýšilo celkovou hodnotu společnosti na 500 milionů dolarů. Pozornost herního průmyslu vůči jejich technologii dynamických NPC se potvrdila, když Microsoft odhalil partnerství na vývoji multiplatformní sady nástrojů pro tvůrce her s umělou inteligencí. Na akci GDC 2024 v kalifornském San Francisku si pak Inworld ukradl pozornost díky třem ukázkám vytvořeným ve spolupráci se společnostmi NVIDIA, Microsoft a Ubisoft.
Po této události jsem kontaktoval společnost Inworld a domluvil si s ní rozhovor o těchto významných partnerstvích, budoucím plánu jejich technologie a možných problémech pro studia a koncové uživatele, například o nákladech. S Nathanem Yu, generálním ředitelem laboratoří společnosti Inworld, jsem hovořil asi půl hodiny; celý přepis našeho rozhovoru si můžete přečíst níže.
Na GDC 2024 jsem napsal, že Inworld AI „vybouchl“, což z mého pohledu vůbec nebylo přehnané. Představením tří ukázek vytvořených ve spolupráci s velkými partnery, jako jsou Microsoft, NVIDIA a Ubisoft, jste si show v podstatě ukradli. Jaké to bylo?
Celkově to bylo neuvěřitelné. Pod kapotou už nějakou dobu pracujeme na všech třech frontách s Ubisoftem, NVIDIA a Microsoftem. Bylo skvělé vidět, jak na GDC všichni solidně přistáli. Všechny posouvají hranice naší technologie v různých oblastech, přičemž Ubisoft konkrétně překračuje hranice dialogu, což je klíčové téma, na které se v Inworldu zaměřujeme. Jakým způsobem AI integrálněji ovlivňuje základní herní mechanismy a postup hráče? Hodně těchto nuancí jsme skutečně začali pozorovat u NPC NEO. Microsoft je samozřejmě velkým partnerem, který pracuje na Narrative Graph a návrhových nástrojích s naší ukázkou Mists of Aurora. Takže bylo skvělé vidět jiný typ úhlu pohledu, který není celý zaměřený jen na generování běhu, ale také na časový návrh a nástroje pro větvení příběhu, které můžeme mít.
A nakonec, ve spolupráci se společnostmi NVIDIA a Covert Protocol, experimentujeme s tím, jak modulární může být technologie Inworld s mikroslužbami NVIDIA, jako je Audio2Face, Riva ASR atd. To vše bylo opravdu fantastické vidět z vysoké úrovně.
Kolik zaměstnanců máte v současné době ve společnosti Inworld AI? Předpokládám, že většina z nich jsou inženýři.
V Inworldu jsme se za poslední rok exponenciálně rozrostli nejen z hlediska produktu, ale i co se týče velikosti týmu. Nyní máme téměř 100 zaměstnanců, z nichž většinu tvoří inženýři.
Vedu naši organizaci Labs, kde máme skutečně vyhrazené zdroje jak na straně PM (řízení partnerů), tak na straně inženýrů, kteří tyto snahy podporují. Jedná se o ranou technologii, že? Není to robustní standardní hotová technologie, kterou si můžete koupit a provozovat ji na vlastní pěst.
Společnost Inworld se s těmito partnery aktivně podílí na společném vývoji, takže i dnes na tyto pozice nabíráme nové zaměstnance. Ale ano, připravujeme se na to už dlouho a budeme se i nadále rozrůstat, abychom těmto potřebám vyhověli.
Jaké jsou hlavní cíle vašeho plánu pro rok 2024 a další roky?
Je toho tolik, co je třeba rozbalit. Několik týdnů před GDC jsme vlastně uspořádali produktový webinář na radnici, kde jsme se dotkli některých nadcházejících témat, na kterých budeme pracovat v roce 2024 a později. Uvidíte možná tři základní okruhy, jak se bude náš produkt vyvíjet. V první řadě, a to vlastně hezky koresponduje se třemi pilíři společnosti Inworld, které nazýváme Inworld engine, Inworld studio a pak Inworld core. Inworld engine je to, co si dnes lidé vybaví, když pomyslí na Inworld: to, co pohání dialogy postav za běhu, jejich poznávání. Budeme svědky velkého vývoje nad rámec samotného dialogu, takže zohlednění vnímání prostředí, kontextu toho, jaké jsou skutečné herní akce, poskytnutí proaktivity postavám Inworldu, aby mohly samy podnikat akce na základě toho, co určí vývojář, a posouvat postup hráče vpřed. To je klíčové hlavní téma, které tam prosazujeme. V rámci dialogů uvidíte spoustu pokračujících vylepšení právě v oblasti lepšího realismu, naturalismu, výrazu, ovládání nuancí dialogů, jejich délky a podobně.
Na straně studia se dočkáme oficiálního spuštění všech našich nástrojů pro narativní grafy, kdy vývojáři budou moci rychle iterovat různé návrhy postav a zápletek, aby viděli, jak by se příběhy nebo herní smyčky mohly vyvíjet, a používat je buď jako součást procesu návrhu, nebo dokonce jako součást samotného průběhu hry.
A konečně, pokud jde o jádro technologie, investujeme do snížení nákladů, optimalizace latence a umožnění jemného doladění pro všechny partnery, nejen pro naše uzavřené podnikové zákazníky. To je z vyšší úrovně vše,
Internacionalizace je velkým tématem, kterého se také hodně dotýkáme. Máme již ranou podporu pro mandarínštinu a korejštinu a právě v příštím měsíci nebo dvou zde zavedeme také japonštinu pro předběžný přístup. Do konce roku chceme podporovat většinu hlavních jazyků.
A konečně, pokud jde o jádro technologie, investujeme do snížení nákladů, optimalizace latence a umožnění jemného doladění pro všechny partnery, nejen pro naše uzavřené podnikové zákazníky. To je z vyšší úrovně vše,
Internacionalizace je velkým tématem, kterého se také hodně dotýkáme. Máme již ranou podporu pro mandarínštinu a korejštinu a právě v příštím měsíci nebo dvou zde zavedeme také japonštinu pro předběžný přístup. Do konce roku chceme podporovat většinu hlavních jazyků.
Ano, rozhodně. Dneska jsme se jenom poškrábali na povrchu, že? Ale je to naprosto jasná vize. Rád používám analogii – předtím jste se zmínil, že jste Inworld sledoval prostřednictvím modifikace Bannerlord, modifikace Skyrim a modifikace GTA V. Víte, co se děje? Ten poslední byl trochu jiný, protože jsme kolem něj skutečně strukturovali hratelnost.
Ale u prvních dvou se na to můžete podívat a říct si, jo, to je super. Ve Skyrimu si můžete povídat s postavami a ptát se strážného, co se stalo, když dostal šípem do kolena, ale to je zábava tak na pět minut. Nakonec to z ní lepší hru neudělá.
Právě teď jsme v pozici, kdy jsme si to uvědomili, a je to také tak trochu problém slepice a vejce. Věříme, že skutečné transformační hry vzniknou tam, kde skutečně navrhneme hratelnost podle schopností umělé inteligence už od začátku. Do hry nemůžete jen tak přidat mod, protože herní design je už v ní zapečený. Pouhým přidáním schopností UI NPC nemusíte nutně zavádět zcela nové způsoby interakce s hráčem.
Bude trvat mnohem déle, než se dočkáme uvedení těchto AAA titulů na trh. Ale jsou tu menší snahy, kde začneme vidět, jako například u NPC NEO od Ubisoftu, kde to jde nad rámec dialogů. Mají povědomí o tom, co děláte, a mohou samy podnikat akce.
Další přirovnání, které rád používám, je, že je tak nepřirozené, když postava na vás téměř čeká. Třeba tam stojí, ale nic nedělá. Prostě jen t-pózují a pak, když na ně jdete mluvit, a teprve když na ně mluvíte, reagují na vás. Takhle by to nemělo fungovat.
Uvidíte, kde postavám dáváme realističtější chování, kdy dělají věci naprosto samy od sebe. Pokud na ně nemluvíte, budou si říkat: Dobře, člověče, musím jít, tohle je trapné. Jen tu stojíme, zatímco ty přemýšlíš, co říct. Je tu spousta učitelů, které budujeme, aby to lépe podporovali.
Je vaším cílem, aby se Inworld AI stal produktem, který mohou vývojáři využívat sami bez vaší přímé pomoci?
To je dobrá otázka. Z dlouhodobého hlediska to určitě bude hotový nástroj, který si vývojáři budou moci vzít a upravit podle sebe. Už dnes to jde.
Řekl bych, že to má možná dva různé aspekty. Jedním z nich je pouze obava z nedostatku znalostí. Pokud byste byli expertem na Inworld a věděli, jak využít všechny funkce beta verze, které jsme odemkli, mohli byste se dostat velmi, velmi, velmi daleko.
Ale tato technologie je stále ještě v počátcích a málokdo rozumí nuancím kolem ní nebo tomu, jak ji nejlépe nastavit. Proto přicházejí na řadu partnerská inženýrská řešení. Ale věřím, že se to bude mnohem více demokratizovat, kdy se lidé budou moci dostat na 90 % cesty sami. Také pro velké AAA společnosti s potřebami na míru s nimi budeme nadále úzce spolupracovat formou společného vývoje.
Obvykle společnosti s trojitým oceněním trochu vyčkávají, než se pustí do nových technologií. Zdá se však, že s generativní umělou inteligencí NPC experimentují i v této rané fázi. Proč si myslíte, že tomu tak je?
Všichni vidí potenciál generativní umělé inteligence. Je to trochu něco jiného než kryptoměnové šílenství Web 3, kde je dnes hmatatelná hodnota a každý ji chápe. Dokonce i ve velkých trojkových firmách existují výkonné mandáty a všeobecné nadšení z toho, jak se do této technologie opřít a prozkoumat tam možnosti spolupráce a inovací.
Řekl bych ovšem, že dnes nevidíme žádné velké případy využití na lodích. Možná existuje několik malých, na které bych mohl poukázat. Ale ano, bude to tak trochu o slepici a vejci. Nemyslím si, že bude tuna výzkumu a vývoje, která by byla alokována i z těchto studií. Možná záleží na inovační kapacitě a chuti. Ale všichni víme, že vytvoření těchto velkých her trvá strašně dlouho. A také se to liší studio od studia.
Ale řekl bych, že jsou i taková, která stále čekají na to, až ty referenční případy užití vytvoří buď jiný AAA, nebo indie vývojář. Ale jsou i takoví, kteří jsou připraveni se zapojit už dnes, právě vzhledem k důvěře z toho, co už viděli.
Spolupráce se společností Microsoft je zvláštní, protože na základě umělé inteligence Inworld vytváří celý nástroj podobný kopilotovi pro herní designéry, což naznačuje, že jej chtějí používat především sami.
To by byl záměr. Nemohu toho prozradit příliš mnoho, ale sledujte, s jakými studii budeme spolupracovat. Slovo kopilot je strašně široké a já ho nerad používám. Ale samozřejmě je tu spousta výhod, které vidíme v tom, že pomáháme designérům iterovat. Jeden z klíčových poznatků, který jsme vlastně získali a který zmínili narátoři, s nimiž spolupracujeme, je, že je nyní potřeba jiný typ práce. Vůbec nejde o to, že by umělá inteligence nahrazovala psaní. Víme, že není schopna vytvořit dobrou hratelnost a že i samotný akt generování postavy je spíše prací typu režiséra než spisovatele.
Nejste zodpovědní jen za napsání čtyř řádků dialogu, které se zakomponují do hry, ale musíte vytvořit mozek, který je pak schopen tyto čtyři nebo čtyři sta řádků dialogu co nejlépe vygenerovat. Takže je to velmi zajímavé. Ale je to obojí, že? Už jsme viděli spoustu nápadů na produktivitu, které tyto nástroje smysluplně podnítily.
Můžete říci něco o vaší práci s partnery a vývojáři?
Jistě. Rozhodně. Řekl bych, že to pravé kouzlo přichází opět s velkým množstvím přizpůsobení a logikou na straně klienta postavenou nad Inworldem. Ani v rámci naší technologie to není jen generativní umělá inteligence. Máme kombinaci orchestrace modelů, jako jsou velké jazykové modely a malé modely, a způsob, jakým je konfigurujete a optimalizujete, je to, kde se děje kouzlo.
Skvělým příkladem je Covert Protocol. Je to technická ukázka s velmi vertikálním řezem. Neřekl bych, že jsme mu věnovali příliš mnoho času. Byl to vlastně velmi krátký projekt, který vznikl, ale v příštím měsíci a půl ho budeme open-sourcovat, takže se tam vývojáři mohou podívat a uvidí kostru toho, co by mohli pustit na přesvědčivější herní smyčky.
Abychom byli spravedliví, ukázka Covert Protocol nebyla příliš působivá, protože hráč si musel pro svůj postup vzít převlek, stejně jako ve hře HITMAN…
Jsou tu dvě věci. Opět se jednalo o vertikální řez, technologickou ukázku. Víme, že to není přesvědčivý zážitek od konce do konce. Ale ve skutečnosti jsme demonstrovali dvě věci. První je, jak lze konverzaci využít k rozvoji hratelnosti v první řadě. Tou druhou je, jak můžeme umožnit kombinaci postav, povědomí o prostředí a informací o hráči měnit jeho interakce.
Diego má být namyšlený člověk typu „budu mluvit jen s VIP“. Jediná mechanika, kterou jsme bohužel nestihli zabudovat pro GDC, spočívala v tom, že pokud jste se pokusili mluvit s Diegem bez odznaku, skutečně vás po velmi krátké době odřízl a už se s vámi nebavil, protože nejste důležití a on musí pracovat na svém projevu na konferenci.
Ale protože jsme to nezavedli, bude se s vámi dál bavit a zapojí se do nějaké konverzace, ale všimnete si, že jsou to velmi krátké odpovědi. Nejsou skutečně poutavé, a to je záměr. Ale když se vrátíte a řeknete, že jste také řečník, Diego najednou řekne: „Dobře, tenhle člověk může být důležitý, možná bych se měl otevřít a vést s ním rozhovor, dozvědět se něco víc.“ A tak se to stane. To je záměr.
Ale samozřejmě pod kapotou je skutečnost, že abyste získali číslo místnosti, musíte Martina do jisté míry rozrušit, a existuje několik způsobů, jak to propojit prostřednictvím větví. Buď ho můžete rozčílit, nebo ho můžete znepokojit kvůli keynote, nebo ho můžete znepokojit kvůli zpoždění pokoje, a to by tak nějak vedlo ke skutečné sekvenci scénáře, kdy jde k recepci a odhaluje informace jejím prostřednictvím.
Ale ano, uznávám, že určitě existují lepší toky, které lze udělat tak, aby překlenuly mezeru mezi tím, jak hladce působí. Třeba jak nuancovaná interakce působí a skutečně tlačí na hráče a odměňuje správné chování, aby bylo jasnější, co má hráč dělat.
Zajímalo mě ještě něco ohledně nutnosti používat hlasové interakce se službou Inworld. Nejenže to zvyšuje náklady, ale často to vlastně snižuje imerzi, protože NPC nerozumí tomu, co jste řekli, a jejich vlastní hlasové odpovědi a animace obličeje nejsou dost dobré. Bylo by možné použít Inworld pouze pro převod textu na text?
Služby Inworld jsou nakonec plně modulární. Poskytujeme pouze čistý převod textu na text. To je to, co dostanete s Inworld Studio z krabice, ale rozumíme hlasům, které tomu samozřejmě vdechují život. ASR přináší větší ponoření do děje.
Existuje spousta způsobů, jak to obejít. V NEO NPC Ubisoft implementoval něco jako potvrzení ASR, které je opravdu unikátní. Řeknete svou větu, ASR ji zachytí a vy ji pak potvrdíte stisknutím tlačítka spouště na ovladači postavy. To samozřejmě není realistické. Narušuje to imerzi v reálném čase, ale mně jako hráči to vlastně přišlo velmi přirozené. Kromě toho zkoumáme nástroje, kde bychom mohli hráče považovat za postavu.
Takže koncept hráče jako postavy spočívá v tom, že neříkáte všechno sami, ale možná máte umělou inteligenci, která vás zastupuje, kterou ovládáte. Řekněme, že vaše verze umělé inteligence dokáže vygenerovat čtyři možnosti odpovědí, a vy pak můžete jednu z nich spáchat do skutečného chatu. Ta se může časem vyvíjet, a pokud se vám nelíbí, můžete si je třeba také upravit. Ale mám na mysli spíše zážitky na konzolích, kde lidé opravdu nechtějí mluvit do ovladače.
Tam je spousta příležitostí. Nakonec je to opravdu na designérovi hry, aby vytvořil zážitek, který hledá. Ale souhlasím, že to není jen stoprocentní ponoření do reálného času po celou dobu. To není nutné.
Jedním z velkých nedostatků NPC založených na generativní AI technologii je monetizace. Pokud vím, váš Character Engine v současnosti běží na cloudových serverech Inworldu a s používáním vašich dynamických NPC jsou spojeny náklady. Zdá se nepravděpodobné, že by uživatelé byli ochotni tyto náklady nést, zejména nyní, kdy ceny her rostou. Jak plánujete tento klíčový problém vyřešit?
Otázka monetizace je tak hluboké téma, že se do něj můžeme pustit. Pro každého je to na prvním místě, spolu s ochrannými lištami latence a halucinacemi. Ale z vyšší úrovně je můj pohled takový, že to prostě musí dávat smysl pro každého. Nakonec musí být vytvořena dostatečná hodnota pro hráče, herní studio i Inworld, aby to všechno bylo životaschopné.
Existují kapsy případů použití, kde se to již ukázalo jako ziskové, malé indie hry, kde je celá hra založena na tomto uvažování AI a přiměla k většímu počtu nákupů hry, kde to jasně ospravedlňuje náklady jako dnes.
Do budoucna se náklady výrazně sníží, to všichni chápeme. Ale i tak jde o design, ne? Opravdu potřebujete, aby všechny sekundární NPC byly hyperinteligentní? Možná ne; možná tam použijeme menší modely, ale pro základní postavu společníka je tu přidaná hodnota.
Takže je třeba vyvážit, kolik umělé inteligence se ve hře používá. Co je to herní design? Jakou to má přidanou hodnotu? Pak se můžeme začít bavit o různých monetizačních strukturách, ať už to bude za použití, nebo ne. Myšlenka předplatného a prémiových funkcí není špatná, ale myslím, že není vhodné ji používat jen tak zeširoka. Je třeba to brát případ od případu pro konkrétní hru.
Když se podíváte na Roblox, hráči neustále platí za příslušenství, opakované pokusy a podobně. Tyto mechaniky jsou již v určitých kapsách zapečené a pochopené. Jen musíme spolupracovat jako celek a určit, kde má použití této umělé inteligence největší smysl. Reklamy jsou také úplně jiné téma, do kterého bychom se mohli ponořit pro krátkodobé možnosti, které jsou také velmi přesvědčivé.
Ale nemám příliš velké obavy. Myslím, že pokud tomu dáme ještě pár měsíců, bude se o tom mluvit jinak, jakmile uvidíme životaschopné a ziskové případy použití, které se nasazují.
Myslíte si, že nakonec budou muset vývojáři her nést náklady na provoz technologie Inworld?
Vidím to z obou stran. Vidím zkušenosti, kdy se hráči budou přímo podílet na nákladech, protože je tam něco jako prémiový upsell, který pro ně má smysl. Vidím ale i jiné příklady, kdy to smysl nedává. Hráči si kupují paušální náklady na hru za 59,99 dolarů nebo jiné a plně se to udrží jen díky jiným monetizačním strukturám, nebo je to už amortizované v čase.
Jakmile se dostaneme na úroveň AAA titulů, náklady se sníží, takže už nebudou variabilní. Pokud máme miliony uživatelů, existuje spousta technik, které lze využít ke snížení nákladů tam. Ale ano, celkově záleží na vydavateli a vývojáři.
Samozřejmě existuje neochota k modelům sdílení příjmů, když je vaše hra tak velká, a tak existuje paušální licencování, na které se Inworld také dívá, aby pomohl spravovat výpočetní výkon buď v cloudových službách trojkového studia, nebo pokud mají infrastrukturu sami.
Myslíte si, že bude v blízké budoucnosti možné provozovat technologii Inworld na lokálních zařízeních? Některá zařízení, jako například počítače vybavené hardwarem GeForce RTX, již mají specializovaný ML hardware, a dokonce i konzole příští generace by mohly něco takového obsahovat.
Rozhodně. Ano, určitě se tam dostaneme. I na GTC jsme viděli spoustu zajímavých oznámení o specializovaném hardwaru v budoucnu pro umělou inteligenci oproti dnešnímu vykreslování.
Je tu spousta otázek, jako například, jestli přejdeme na zařízení, ovlivní to vykreslování grafiky? To se pro mnoho studií stává tématem, o kterém se nedá mluvit. Ale v Inworldu podporujeme i hybridní řešení. Některé služby by mohly běžet lokálně, některé na cloudovém vynálezu, a to může krátkodobě optimalizovat náklady a latenci. Ale do budoucna se asi všichni shodneme, že se to tam dostane. Bude to běžet lokálně, offline, na zařízeních, jako jsou konzole. Je to jen otázka času. I na to se těším.
Pokud jde o celou otázku nákladů, stačí se podívat na trendy. I z čistě inferenčního hlediska jsou dnešní modely oproti modelům před půl rokem mnohem menší a mají mnohem lepší kvalitu. Hardware, všichni víme, že když porovnáte grafické karty dnes a před dvěma lety, je to jako den a noc. Takže v budoucnu se tyto základní hodnoty sníží na zlomek. Myslím, že i poté budeme moci mnohem více přemýšlet o skutečných monetizačních strukturách, kde se vytváří hodnota a jak optimalizovat její zachycení všemi zúčastněnými stranami. To bude vzrušující.
Článek Otázky a odpovědi na konferenci The Big Inworld AI – „Všichni v herním průmyslu vidí potenciál generativní umělé inteligence se nejdříve objevil na GAME PRESS.