Rozpoznawanie mowy w grach RPG

Najbardziej pasjonują mnie gry strategiczne. Nie wiem czemu. Chyba lubię katować swój mózg nawet wtedy, gdy teoretycznie powinienem się relaksować… Co za życie…

Na kolejnym miejscu umieściłbym gry RPG. To już w moim przypadku relikt zamierzchłych, wspaniałych lat, kiedy można było wrócić ze szkoły i gapić się bezproduktywnie do północy w ekran. Gry RPG wymagają dużo czasu, bo nie można tak po prostu siąść na godzinę i przez tą godzinę zdążyć jakkolwiek zaangażować się w historię, czy wczuć się w klimat. W takich grach chodzi o immersję, o to, by stać się częścią fikcyjnego świata.

W chwili, gdy właśnie patrzyłem ze smutkiem na ikonkę TES: Skyrim (zainstalowane, nieodpalone od 2 lat), wpadłem na genialny pomysł jak jeszcze bardziej można by zwiększyć immersję i zaangażowanie gracza w świat gry… I spędziłem dzień na pisaniu tego tekstu… Zamiast w końcu zagrać… Ehhh… Chodzi o system dialogowy.

System dialogowy

Nieodłącznym i podstawowym elementem RPG jest system dialogowy. Formuła się zmienia, ewoluuje, ale rdzeń, w istocie, zawsze pozostaje taki sam. Jest kilka kwestii, klikamy w wybraną i nasza postać ją odgrywa. Co jednak, gdyby zamiast tego tradycyjnego kliknięcia gracz musiał… sam odczytać wybraną kwestię? Na głos. Wiem, to może się wydawać z początku głupie tak gadać do komputera (szczególnie jak ktoś inny jest w domu), ale chodzi nam o immersję, nie własny wizerunek.

System taki sprawdziłby się głównie w grach z widokiem z pierwszej osoby. Jeśli oglądamy naszego bohatera zza pleców, albo z lotu ptaka, to… no właśnie – oglądamy – nie jesteśmy bohaterem. Wypowiadanie więc kwestii na głos byłoby co najmniej w tym przypadku dziwne. To też sprawia, że idealnym rozwiązaniem byłby w zasadzie zestaw VR z mikrofonem. Wtedy nie dość, że wzrokowo jesteśmy częścią wirtualnego świata, to jeszcze wpływamy na niego w sposób dla nas naturalny – poprzez mowę. Jednak nawet bez VR, po prostu siedząc przed komputerem, opisywany system interakcji również miałby sens.

Jak to działa

Postacie NPC swobodnie poruszają się po świecie, rozmawiają ze sobą, lub mogę też i zaczepić gracza. W celu rozpoczęcia rozmowy z wybraną postacią wystarczy stanąć w bliskiej odległości i na nią spojrzeć (najechać celownikiem). Wtedy u dołu ekranu wyświetli się lista wszystkich możliwych w danym momencie kwestii do odczytania. Pasek akcji danej kwestii zapełnia się w miarę jej wypowiadania, a po odczytaniu całości kwestia jest aktywowana. Jeśli przerwiemy w trakcie, lub wybełkoczemy coś innego niż dostępne kwestie, to wirtualna postać stwierdzi, że nas nie rozumie, niedosłyszała i każe powtórzyć – tak jak to może się zdarzyć w prawdziwej rozmowie. Lista kwestii może być dynamiczna i zmieniać się w zależności od tego jak przebiega akcja.Powiedzmy, że ktoś w karczmie upuścił kufel piwa, to przez ułamek czasu mam możliwość odegrania krótkiej kwestii: „Ty ciapo!”, która w efekcie może doprowadzić do karczemnej bójki. Tak samo, jeśli to ktoś zaczepi mnie w stylu: „Oddawaj sakiewkę!”, to mogę dynamicznie zareagować na tą sytuację, albo zignorować prośbę i się odwrócić – co kończy rozmowę… i stwarza możliwość otrzymania ostrza w plecy.

Czy to jest w ogóle wykonalne?

Tak! Przecież już są i działają systemy rozpoznawania mowy. A sprawdzenie czy fala dźwiękowa zgadza się z jedną z dostępnych w danym momencie kwestii, powinno być teoretycznie jeszcze łatwiejsze. Oczywiście nigdy nie pisałem żadnej gry RPG, ani tym bardziej systemu rozpoznawania mowy, więc nie mam możliwości łatwo tego sprawdzić. Mimo to, taki system, przynajmniej w teorii, wydaje się ciekawy i możliwy do zrealizowania.

Na koniec wróćmy do ikonki TES: Skyrim. Jej historia, choć długa, wciąż pozostaje niezakończona. Puki nie walnie mi znowu SSD, będzie ona istniała nie tylko na pulpicie, ale również w moim sercu, czekając na… O żeż… Zapomniałem o Morrowindzie…