Suomalais-ugrilaiset kielet ja internet

Suomalais-ugrilaiset kielet ja internet -projekti on vuoden 2013 alussa alkanut tutkimushanke, joka on osa Koneen Säätiön kieliohjelmaa 2012-2016. Säätiön kieliohjelman tavoitteena on edistää pienten suomalais-ugrilaisten kielten, suomen ja Suomen vähemmistökielten dokumentointia. Tässä hankkeessa on tarkoitus rakentaa järjestelmä, joka kielentunnistinta apuna käyttäen automaattisesti etsii internetistä uralilaisilla kielillä kirjoitettua aineistoa. Löydetystä aineistosta muodostetaan virkekokoelmia ja linkkisivusto. Virkekokoelmat tai
-korpukset tulevat toimimaan lähdeaineistona kielentutkijoille. Projekti jatkuu ainakin vuoden 2018 loppuun asti.

Tutkimus suoritetaan Helsingin yliopiston digitaalisten ihmistieteiden osatolla ja sen vastuullisena johtajana toimii tutkimusjohtaja Krister Lindén. Projekti on Koneen säätiön rahoittama ja sitä tukee Kansalliskirjasto. Hanke toteutetaan osana kansainvälistä CLARIN yhteistyötä, jota Suomessa edustaa FIN-CLARIN-konsortio.

Verkkoharavointi

Projektin aikana internetistä etsitään pienillä uralilaisilla kielillä kirjoitettuja verkkosivuja. Tarkoitusta varten rakennetaan prototyyppi automaattisesta järjestelmästä, joka ylläpitää linkkisivustoa löydetyille sivuille. Saaduista sivustolistauksista on mahdollista rakentaa pienten kielten omia portaalisivustoja, jotka voivat parantaa verkkosivustojen saavutettavuutta ja siten edesauttaa uhanalaisten kielten käyttäjiä löytämään toisensa ja näin ylläpitämään yhteistä kielellistä kulttuuriaan.

Toisin kuin esimerkiksi Internet Archiven verkkoharava, jonka tarkoituksena on säilöä kaikki kerätyt sivustot kokonaisuudessaan, tässä hankkeessa rakennettavan prototyypin on tarkoitus tallentaa vain pieni osa haravoiduista sivustoista ja niistäkin ainoastaan tekstimateriaali. Verkkosivuthan sisältävät paljon metatietoa esimerkiksi halutunlaisen esitysmuodon saavuttamiseksi. Lisäksi iso osa verkkoharavoiden löytämästä materiaalista on erilaisia binääritiedostoja, kuten kuvia tai videoita, joita tässä projektissa ei myöskään ole tarkoitus säilöä. Järjestelmän rakentamiseksi projektissa verrattiin jo valmiiden avoimen lähdekoodin verkkoharavoiden toimintaa ja sitä miten niistä saataisiin muokattua halutunlainen harava. Uralilaisten kielten haravointiin on päätetty muokata ja käyttää Internet Archiven verkkoharavaa Heritrixiä.

Prototyypin lähdekoodi tullaan aikanaan julkaisemaan avoimen lähdekoodin lisenssillä, jolloin sitä voivat muutkin käyttää linkkisivustojen ja tekstikorpusten keräämiseen haluamillaan kielillä. Projektin aikana tullaan myös neuvottelemaan mahdollisten ylläpitotahojen kanssa prototyypin ottamisesta tuotantokäyttöön, jotta tietoa uralilaisilla kielillä kirjoitetuista verkkosivuista saataisiin jatkossakin pidettyä ajan tasalla.

Kielentunnistus

Internetistä löytyy suuri määrä erilaisia tekstidokumentteja, joissa ei ole juurikaan kielentunnistamiseen soveltuvaa metadataa. Tässä projektissa uralilaisten kielten tunnistamiseen käytetään kielentunnistinta, joka rakennetaan toimimaan mahdollisimman laajalle joukolle kieliä. Kielentunnistimen kielimallien rakentamiseen ja tunnistimen toimivuuden evaluointiin tarvitaan tekstikorpuksia kaikilla tunnistimen ymmärtämillä kielillä. Osana tutkimustyötä kartoitetaan mahdollisia käytettävissä olevia valmiita korpuksia. Korpustutkimuksessa hyödynnetään sekä CLARINin Virtual Language Observatoryn että META-NET hankkeen META-SHARE-varannon tietoja erilaisista kieliresursseista. Näiden tietoja tarkennetaan mahdollisuuksien mukaan erityisesti pienten uralilaisten kielten kohdalla.

Kielentunnistin tullaan lisensoimaan avoimella lähdekoodilla ja se tarjotaan kaikkien kansalliskirjastojen ja tulevien kieliteknologiaa hyödyntävien hankkeiden käyttöön.

Kielikorpukset

Haravoitujen uralilaisilla kielillä kirjoitettujen sivujen teksteistä tullaan luomaan avoimia virke-, lause- ja sanakorpuksia kullekin kielelle. Korpuksia ja niiden tekstin laatua on mahdollista automaattisesti parantaa ja tarkistaa olemassa olevilla kieliteknologisilla menetelmillä. Tekstikorpukset pyritään saattamaan mahdollisimman laajasti kielentukijoiden käytettäväksi FIN-CLARINin ja CSC:n Kielipankin kautta. Korpukset julkaistaan mahdollisuuksien mukaan Creatice Commons CC0-lisenssillä.

Tilastotietoa

Osana tutkimustyötä tuotetaan rakennettavan järjestelmän avulla tilastotietoa uralilaisten kielten levinneisyydestä internetissä. Järjestelmän kehitysvaiheessa kertyvät tilastot eivät välttämättä ole yhteismitallisia, mutta järjestemän siirryttyä tuotantokäyttöön pystytään seuraamaan muutoksia uralilaisilla kielillä kirjoitettujen sivustojen määrissä esimerkiksi vuositasolla.