Uuno Turhapuro kirjoittamassa USA:n itsenäisyysjulistusta ja avokado-nojatuoli - asiantuntija pitää DALL·E -tekoälyä merkkipaaluna

YLE

Viime viikkoina ihmiset ovat jakaneet sosiaalisissa medioissa eriskummallisia kuvasarjoja. Niissä esiintyy esimerkiksi seesamikadun hahmoja Pelastakaa Sotamies Ryan -elokuvassa, televisiosarjan komisario Columbo Nintendo 64 -pelihahmona, Paavo Lipponen drag-artistina tai oikeussalipiirroksia Elon Muskin ja Kabybara-jättijyrsijän oikeudenkäynnistä.

Kyse ei ole hellekangastuksista tai pilapiirrosten uudesta tulemisesta, vaan lauseiden perusteella kuvia tehtailevasta, edistyksellisestä tekoälystä.

OpenAI-yrityksen DALL·E 2 ja sen pohjalta tekoälytaiteilija Boris Dayman kehittämä, vapaasti käytettävissä oleva DALL·E Mini ovat tekoälyjä, jotka ymmärtävät niin sanotusti luonnollista kieltä ja tuottavat sen perusteella kuvia. Tekoälyt eivät pelkästään kuvaa pyydettyjä asioita, vaan osaavat matkia tiettyjä tyylisuuntauksia ja tekniikoita, kuten vaikkapa vesivärimaalausta.

Huippurealistisia kuvia tuottava DALL·E 2 on vain rajatussa käytössä, kun taas Dayman DALL·E Miniin voi kuka tahansa kirjoittaa englanniksi minkälaisen kuvauksen tahansa, ja katsoa mitä malli saa aikaan.

Kuvien tekemisessä menee joitakin minuutteja ja homman ollessa valmis tekoäly tarjoaa yhdeksän erilaista vaihtoehtoa toteutuksesta. Osa kuvista on epäselviä ja vinksahtaneita, osa taas niin selkeitä ja kekseliäitä, että on vaikea uskoa niiden olevan pelkän algoritmin tuottamia.

DALL·E Minin tekoäly ei tarvitse toimiakseen koodinpätkää tai sen kummempia komentoja, vaan helppotajuiset englanninkieliset kuvailut riittävät. DALL·E "ymmärtää" luonnollista kieltä: tuhansien vuosien aikana ihmisten muovaamaa, lapsien luontaisesti omaksumaa, ihmisten maailman hahmottamiseksi käyttämää symbolijärjestelmää.

Aalto-yliopistossa tietotekniikan laitoksella professorina toimiva Jaakko Lehtinen pitää DALL·E:tä merkkipaaluna tekoälyjen kehityksessä.

- Menemättä tekniseen ulottuvuuteen häkellyttävintä näissä malleissa on se, että ne kykenevät tuottamaan kuvia, joissa konseptit yhdistyvät sellaisilla tavoilla, mitä ei varmasti ole nähty niiden koulutusmateriaalissa.

Lehtinen työskentelee tutkijana tietokonegrafiikan, konenäön, koneoppimisen ja tekoälyn parissa. Pitkän uran tehnyt Lehtinen oli suomalaisella pelifirma Remedyllä tekemässä Alan Wake - ja Max Payne -pelejä. Nykyään hän työskentelee Aallon professuurinsa lisäksi maailman johtaviin grafiikkateknologiafirmoihin kuuluvalla Nvidialla.

Lehtinen kertoo, että DALL·E:hen on jollain tapaa koodautunut ihmisille järkevinä näyttäytyviä toimintoja. Malli pystyy erikoisemmankin käskyn perusteella tuottamaan eri konseptien välille yhteyksiä, jotka ovat ihmiselle loogisia.

Lehtinen avaa mallin poikkeuksellisuutta hieman erikoisemman esimerkin kautta: tekoälyn voi laittaa tuottamaan avokado-nojatuolin.

- On melko varmaa, että mallin koulutusmateriaalissa ei ole ollut kuvaa avokado-nojatuolista. Silti malli pystyy komennon avocado-armchair perusteella tuottamaan kuvan avokadon mallisesta nojatuolista.

DALL·E ei siis vain toista lainalaisuuksia, joita se on koulutusmateriaalissaan nähnyt: se luo myös uusia ilman että ihmisten on pitänyt erikseen opettaa mallia tällaiseen työhön. Malli pystyy laskemaan, miten avokadon voi esittää tuolimaisena ilman, että tästä on ollut olemassa yhtäkään esimerkkiä siihen syötetyssä datassa. Yhdeksänä erilaisena "designina", kaiken lisäksi.

Tekoälyjen "kouluttaminen" on viikkojen ja miljoonien toistojen työtä

Avainasemassa esimerkiksi kuvien tuottamisessa on tekoälyn "kouluttaminen". DALL·E -tekoälyjä on koulutettu sinänsä yksinkertaisella materiaalilla, eli massiivisella määrällä kuvia ja näiden kuvien kuvatekstejä, jotka kertovat, mitä kuvassa esiintyy.

Lehtisen mukaan yksinkertainen tapa yrittää hahmottaa tekoälyn luomista ja kouluttamista on ajatella miksauspöytää - sellaista, joita löytyy studioista tai festarikeikoilta. Satojen nappuloiden sijasta tässä miksauspöydässä nappuloita on kuitenkin useita miljoonia.

Miksauspöytä on tekoäly, johon syötetään Lehtisen sanoin "satunnaislukuja ja kohinaa", ja miljoonien nappien asento määrittelee sen, mitä mallista tulee ulos.

Otetaan esimerkiksi DALL·E, johon syötetään kuvia ja kuvatekstejä. Miksauspöytä eli tekoäly laskee yhteyksiä pikseleiden ja kirjainten väliltä. Miljoonien toistojen ajan malli laskee esimerkiksi, että mitkä merkit muodostavat yhteyksiä keskenään ja miten tämä tapahtuu.

Tekoälyn koulutuksessa miksauspöydästä ulostulevaa tuotetta muutetaan hitaasti toivotunlaiseksi muuttamalla pöydän miljoonien namiskojen asentoja.

- Valtavaa miksauspöytää eli tekoälyn säätämistä taas tekee opetus- tai koulutusohjelma, Lehtinen kertoo.

Lehtinen painottaa, että kaikki tämä on pohjimmiltaan pelkkää matematiikkaa. Tekoälyt eivät tietystikään "tuota", "kouluttaudu", "ymmärrä" tai "tottele", vaan kaikki tapahtuu ihmisten suunnittelemien laskentamallien lopputuloksina. Koko touhu on vain hyvin monimutkaista matematiikkaa.

Supertietokoneilla toteutettavissa tekoälyjen viikkoja kestävissä koulutuksissa samoja laskutoimituksia toistetaan miljoonia kertoja. Tuloksia tutkitaan ja otetaan ylös virheisiin tai onnistumisiin johtavia muutoksia algoritmissa. Lopulta kun malliin ollaan tyytyväisiä, se "jäädytetään" ja siihen voi ajaa dataa ikään kuin käyttömielessä.

- DALL·E:ssä miksauspöydän napit määräävät sen, mitä valmiissa kuvissa näkyy. Tässä kaikki, mitä tästä on tiedettävissä, Lehtinen lopettaa selityksen, jotta se pysyy edes jotenkuten maallikon ymmärrettävissä.

Kohti yhteistä kieltä

Erilaisten konseptien yhdistelyn lisäksi Lehtinen kertoo DALL·E:n vaikuttavimman ominaisuuden olevan se, että malli toimii luonnollisen kielen avulla.

- Siellä on tietynlainen taju siitä, miten sanat vastaavat mitäkin, vaikka ohjelma ei tietystikään tiedä, mitä mikään tarkoittaa, Lehtinen selittää.

Se, että tämä on mahdollista, on Lehtisen mukaan tietotekniikan fundamentaalin perustutkimuksen kannalta todella mielenkiintoista. Pelkkiä kuvia ja kuvatekstejä malliin syöttämällä ohjelma on saatu muodostamaan asiayhteyksiä. Kun nyt koneäly voi tuottaa jotakin luonnollisen kielen avulla, aukeaa tulevaisuudessa aivan uudenlaisia mahdollisuuksia.

- Tällainen mallihan on aika käyttökelpoinen kaikenlaiseen konseptointiin, ja se herättää kysymyksiä luovuuden käsitteestä, Lehtinen sanoo.

Lehtisen mukaan selviä käytännön sovelluksia on esimerkiksi hänelle tutulla pelialalla. Nyt pelinkehittäjät joutuvat käyttämään valtavasti aikaa raskaaseen perustyöhön luodessaan pelien maisemia ja niiden yksityiskohtia. Esimerkiksi Lehtinen itse on omistanut urastaan paljon sen laskemiselle, miten varjot käyttäytyvät pinnoilla, jotta tämän saisi mallinnettua pelin tietokonegrafiikassa uskottavasti.

Jos jossain vaiheessa olisi mahdollista yhdistää kolmiulotteista tietokonegrafiikkaa kuvia lauseista tuottaviin tekoälyihin, voisi tällainen malli hoitaa ainakin joitain osia pelien maailmojen luomisesta käskyjen perusteella. Sama pätee esimerkiksi elokuvien erikoistehosteisiin. Tarpeeksi kattavasti koulutetut ja optimoidut tekoälyt voisivat luoda hetkessä uusia, ennennäkemättömiä maailmoja.

- Tällaisia asioita yhdisteleviä projekteja on tällä hetkellä käynnissä useita, myös minun työryhmilläni, Lehtinen kertoo.

Pidemmällä aikavälillä tällaista "luovaa" tekoälyä voisi soveltaa missä tahansa muussa suunnittelua vaativassa työssä rakennusalalta teollisuusmuotoiluun.

Lisäksi tällainen tekoälymallien ja ihmisten "yhteisen kielen" kehittyminen on erittäin merkittävää robotiikan kannalta. Jos erilaiset robotit pystyisivät tulkitsemaan tekstin ja visuaalisen muodon suhdetta vaivattomasti, olisi robotiikan alalla isoja kehitysaskeleita luvassa.

- Nämä uudet tekoälyt ovat hieno juttu nyt, mutta kehityksen kokonaiskuvassa niillä on vielä isompia lupauksia tulevalle, Lehtinen sanoo.

Lue lisää:

Kapellimestari Sakari Oramo opetti tekoälylle Sibeliuksen viulukonserttoa - pian "Janne" arvioi kilpailijoita ihmisten rinnalla

YLE

vendredi 15 juillet 2022 14:30:40 Categories: YLE tekoäly

Article précédent << >> Article suivant

Suomi sisu kantaa

NorpaNet Beta 1.1.0.18818 - Firebird 5.0 LI-V6.3.2.1497

TetraSys Oy.