Kotimaiseen kielimalliin tarvittiin miljardeja sanoja - nyt tekoäly osaa kirjoittaa vaikka satuja suomeksi

YLE

Kieliteknologian kehittämisessä on jo vuosia tavoiteltu kömpelön kääntämisen sijaan kieltä ymmärtäviä tekoälysovelluksia. Suomen kieli on ollut perinteisesti koneille vaikea pala purtavaksi.

Turussa on opetettu tietokoneelle suomea jo vuodesta 2009. Puhutaan luonnollisen kielen käsittelystä, eli Natural Language Processing - NLP.

Turun yliopistossa kolmen eri tiedekunnan tutkijat muodostavat TurkuNLP-ryhmän. Viimeisin iso edistysaskel otettiin vuonna 2019, kun FinBERT saatiin valmiiksi.

Oman kieliversion kehittämisen tarpeellisuuden nosti esiin tsekkitaustainen tutkija, apulaisprofessori Filip Ginter.

Google on kehittänyt monikielisen, myös suomeksi toimivan BERT-kielimallin, mutta oma suomenkielinen malli puuttui. Se on yksi kieliteknologian peruspalikoista.

Apulaisprofessori Filip Ginter hymyilee. — Alkusysäys koneellisen suomen kielimallin luomiseen tuli Filip Ginteriltä, joka oli muuttaanut Tsekeistä Suomeen. Työ on jatkunut vuosia.Jari Hakkarainen / Yle

- FinBERT:iä koulutettiin erilaisilla teksteillä, arviolta yli kolmella miljardilla sanalla. Ne ovat peräisin internetistä, esimerkiksi keskustelupalstoilta ja muista lähteistä. Myös kansalliskirjaston tekstejä on käytetty tekoälyn oppimateriaalina, Ginter kertoo.

Koneen opettaminen vastaa kielen opettamista ihmiselle. Tekstejä toistetaan ja käsitellään useita kertoja eri yhteyksissä, kunnes tietokoneohjelma osaa jo arvata oikein, mitä tarkoitetaan.

Tämä vaatii isoja laskentatehoja. Laskennassa käytetään menetelmänä alunperin ihmisen aivotoimintaa jäljitteleviä neuroverkkoja ja syväoppimista. Se tarkoittaa tietojen suodattamista monikerroksisten verkkojen läpi, jolloin erilaiset kielen riippuvuuksia kuvaavat määritelmät asettuvat kohdalleen opetuksen edetessä.

Filip Ginter arvioi kielimallin toimivan jo hyvin.

- Monessa tehtävässä kone on yhtä hyvä kuin ihminen. Kone ei tee virheitä sen enempää kuin ihminenkään, mutta ne ovat erilaisia. Ihminen usein ymmärtää väärin, mutta kone voi tehdä hassuja virheitä, joita ihminen ei koskaan tekisi.

Murteiden ja puhekielen harjoittelu jatkuu

Tutkijat haluavat laajentaa ja kehittää suomenkielistä tekoälyä. Professori Veronika Laippalan mukaan normaalin uutiskielen tasoinen teksti on jo hyvin hallussa, mutta puhekielessä ja murteissa riittää haastetta.

- Tällä hetkellä koulutamme generoivaa kielimallia, siis sellaista, joka pystyy itse tuottamaan tekstiä. Siihen on jo hyvät lähtökohdat, Veronika Laippala sanoo.

Professori Veronika Laippala hymyilee, — Veronika Laippala aloitti ranskan opinnoilla, mutta päätyi kieliteknologian kehittäjäksi. Taustalla kurkistaa FinBERT:in tunnus.Jari Hakkarainen / Yle

Kattavampaan kielimalliin tarvitaan jopa kymmeniä miljardeja sanoja. Se on huomattavasti enemmän kuin ihminen lukee tai kuulee elämänsä aikana. Tiedonkäsittelyn määrä on valtava.

Maailmalla saman asian parissa toimivat jättiläiset, kuten Google ja Facebook.

- Monikansalliset yritykset tekevät malleja, jotka ymmärtävät suomen kieltä, mutta suomi on niin pieni alue, ettei siihen panosteta täysillä. Eli jos me haluamme hyvin toimivaa kieliteknologiaa ja tekoälyä, joka ymmärtää suomen kieltä, se pitää tehdä itse, Veronika Laippala perustelee.

TurkuNLP on kehittänyt runsaasti kielen perusteknologiaa avoimeen käyttöön. Myös FinBERT on vapaasti internetissä saatavilla, ja käyttäjiäkin jo löytyy.

- Esimerkiksi on firmoja, jotka kehittävät kieliprosessointia omilla dokumenteilla. Kuka tahansa voi rakentaa kehittämämme mallin päälle mitä itse haluaa, Filip Ginter sanoo.

Ymmärrys on lisääntynyt ja satukin syntyy

Apulaisprofessori Sampo Pyysalo esittelee muutamia esimerkkejä kielimallin toiminnasta.

Nimientunnistamista varten tekoälyä on koulutettu merkitsemällä noin 10 000 lauseeseen erisnimet.

- Nyt kielimalli tunnistaa koulutusdatassa esiintyneiden nimien lisäksi myös muut nimet missä tahansa tekstissä.

Turussa on kehitetty myös kielen jäsentämistä osaavaa teknologiaa. Käsin merkityt sanaluokat, sanojen riippuvuudet, kuten verbien subjektit ja objektit on siirretty koneen "ymmärrykseen" ja se voi analysoida kieltä.

Tekoälyn luovuutta kielenkäytössä on yksinkertaisimmillaan, että kone osaa lisätä lauseesta puuttuvan sanan.

Jos annetussa lauseessa aiheena on vaikkapa pääsiäinen, tekoäly tietää, että "...sen viettoon liittyy paljon perinteitä". Joulun ollessa ajankohta, kone kirjoittaa: "...sen viettoon liittyy paljon lahjoja".

Tietokoneen näyttöruutu, jossa näkyy tekoälyn kirjoittama satu. — Konesadun tarina syntyy ilman ihmistä alkulauseesta, mutta sen tekemiseen tarvitaan paljon tietojenkäsittelyä.Jari Hakkarainen / Yle

Sampo Pyysalo esittää pidemmälle menevän esimerkin tietokoneen luovuudesta. Tekoäly osaa kirjoittaa eri aihepiirien tekstejä, esimerkiksi satuja.

Ensimmäisen lause on annettu: Olipa kerran, kauan kauan sitten, kaukaisessa kuningaskunnassa pieni sininen prinsessa, joka asui suuressa sinisessä linnassa. Eräänä päivänä...

Lopputulos vaikuttaa ihmisen tekemältä sadulta, vaikka kysymys on automaattisesti sanoja täydentävästä järjestelmästä, joka toimii sen mukaan, mitä tietovarastoon on tallentunut.

Tekoälyn viimeistelemän sadun voi lukea TurkuNLP:n verkkosivuilta. Sivuilta löytyy muitakin demoja.

Kieliteknologian vaarana tehokas mielipiteenmuokkaus

Kielimalliin siirtyy myös asenteita ja arvostuksia, joiden alkuperää on vaikea jäljittää. Näitä alustoja voidaan käyttää myös tarkoitushakuisesti.

Tietokoneiden kykyä tuottaa tekstiä voidaan käyttää hyödyllisesti esimerkiksi yhteiskunnallisen päätöksenteon tukena.

Tämä sisältää professori Tapio Salakosken mukaan myös riskejä, jotka on hyvä tiedostaa.

- Ihmisiä, yrityksiä, valtakuntia ja kansakuntia voidaan manipuloida. Se on hyvin voimakas informaatiovaikuttamisen väline. Sen takia olisi erittäin tärkeää, että ihmiset ymmärtäisivät mistä on kysymys, ettei heitä vietäisi kuin pässiä narussa, Salakoski sanoo.

Kone voi tuottaa mielipiteitä, kuten ihminenkin, mutta paljon tehokkaammin, nopeammin ja enemmän.

- Teknologian kyky manipuloida maailmaa tuottamalla sinne mielipiteitä ja tekstejä halutulla tavalla on pelottavaa, pohtii Salakoski.

Mistä tekoälyn arvot ja mielipiteet tulevat?

Sieltä mistä koulutusmateriaalikin on peräisin, eli koneeseen syötetystä kielestä - ihmisiltä siis.

- Kun luetaan vaikka kaikki mitä ikinä on kirjoitettu, opitaan kaikki mitä on sanottu. Jos ihmisen kirjoituksissa ja ajatuksissa on esimerkiksi rasistisia etnisiin tai sukupuolivähemmistöihin kohdistuvia ennakkoluuloja, nekin siirtyvät, sanoo Tapio Salakoski.

Google yritti taannoin poistaa hakukonetuloksista loukkaaviksi miellettäviä sisältöjä.

- Se onnistuikin siinä jossakin määrin, mutta sivutuloksena erilaiset vähemmistöt tulivat entistä huonommin edustetuiksi. Aineisto vääristyi sensuroinnin takia, eikä sekään ole hyvä, Tapio Salakoski sanoo.

Netissä alkaa olla entistä vaikeampi tietää, mistä viesti on peräisin ja mihin tieto perustuu. Edes se olisi hyvä tietää, onko keskustelussa mukana ihminen vai ihmisen virittämä koneellinen keskusteluarmeija.

Voit keskustella aiheesta Yle Tunnuksella. Kommentointi sulkeutuu 21.12. kello 23.

Lisää aiheesta:

Suomenkielinen vihapuhe rehottaa Facebookissa eikä ihme: tietovuoto paljastaa, että moderoijia on vain muutama ja algoritmit toimivat huonosti

Uusi tekoäly hämmästyttää: kirjoittaa uskottavasti mitä vaan - suomalaistutkija: "Tuottaa puppua, joka näyttää oikealta"

YLE

lundi 20 décembre 2021 13:03:00 Categories: YLE tekoäly

Article précédent << >> Article suivant

Suomi sisu kantaa

NorpaNet Beta 1.1.0.18818 - Firebird 5.0 LI-V6.3.2.1497

TetraSys Oy.