Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Söguskýringar Samfylkingarinnar Stefanía K. Ásbjörnsdóttir Skoðun Hin eilífa kosningabarátta innan KSÍ Sævar Þór Sveinsson Skoðun Sannleikur um slökkvistöð í Kópavogi Jónas Már Torfason Skoðun Prince Polo, var táknmynd spillingar kommúnismans í Evrópu Júlíus Valsson Skoðun Ekki enn einn skandal, heldur upphaf breytinga Unnar Þór Sæmundsson Skoðun Skolfið á beinunum? Hjörtur J. Guðmundsson Skoðun Kveikt í trúverðugleika Samfylkingarinnar – slökkviliðið er sem betur fer á leiðinni Andri Steinn Hilmarsson Skoðun Þegar stuðningur skiptir raunverulega máli Einar Sveinbjörn Guðmundsson Skoðun Nú er tíminn! Ása Valgerður Sigurðardóttir Skoðun Þetta er ekki ástand – þetta er þjóðarglæpur Vilhelm Jónsson Skoðun Skoðun Skoðun Alþjóðleg lög eða ráðleggingar? Marko Medic skrifar Skoðun Kveikt í trúverðugleika Samfylkingarinnar – slökkviliðið er sem betur fer á leiðinni Andri Steinn Hilmarsson skrifar Skoðun Skolfið á beinunum? Hjörtur J. Guðmundsson skrifar Skoðun Þegar stuðningur skiptir raunverulega máli Einar Sveinbjörn Guðmundsson skrifar Skoðun Ekki enn einn skandal, heldur upphaf breytinga Unnar Þór Sæmundsson skrifar Skoðun Hin eilífa kosningabarátta innan KSÍ Sævar Þór Sveinsson skrifar Skoðun Sannleikur um slökkvistöð í Kópavogi Jónas Már Torfason skrifar Skoðun Söguskýringar Samfylkingarinnar Stefanía K. Ásbjörnsdóttir skrifar Skoðun Nú er tíminn! Ása Valgerður Sigurðardóttir skrifar Skoðun Að standa af sér storminn Gerður Björk Sveinsdóttir skrifar Skoðun Skaðabótalög – breytingar til hagsbóta fyrir neytendur? Tinna Björk Gunnarsdóttir skrifar Skoðun Fullveldið og 27. greinin Aðalsteinn Júlíus Magnússon skrifar Skoðun Prince Polo, var táknmynd spillingar kommúnismans í Evrópu Júlíus Valsson skrifar Skoðun Byggjum framtíð á ís – fyrir börnin okkar og samfélagið allt Anna Maria Hedman skrifar Skoðun Hvað er planið? Hildur Jónsdóttir skrifar Skoðun Ofbeldi er ekki starfslýsing Kolbrún Halldórsdóttir skrifar Skoðun Gerum okkar besta Ólafur Helgi Jóhannsson skrifar Skoðun Sterkir innviðir skapa sterkt samfélag Arna Rut Gunnarsdóttir skrifar Skoðun Hvað þarf marga borgarfulltrúa til að skipta um ljósaperu? Páll Edwald skrifar Skoðun Að vera upp á aðra kominn: Hugleiðingar öryrkja Unnur Hrefna Jóhannsdóttir skrifar Skoðun Þjóðin hræðist ekki leigupennana Sverrir Páll Einarsson skrifar Skoðun Meirihlutinn hafnar eigin tillögu um byggingu íbúða fyrir eldra fólk Stefán Már Gunnlaugsson skrifar Skoðun Hag(ó)stjórnin Bryndís Haraldsdóttir skrifar Skoðun Þegar við hugum að líðan styrkjum við allt samfélagið Valdimar Víðisson skrifar Skoðun Mannréttindasvikarar Ása Lind Finnbogadóttir skrifar Skoðun Smá pæling frá einni sem ætlar að taka þátt í uppbyggingu Grindavíkur Dagmar Valsdóttir skrifar Skoðun Samkeppnismat - aukin samkeppnishæfni íslensks atvinnulífs og virkari samkeppni Margrét Einarsdóttir,Páll Gunnar Pálsson skrifar Skoðun Þetta er ekki ástand – þetta er þjóðarglæpur Vilhelm Jónsson skrifar Skoðun Breytum menningu og eflum menntakerfið okkar – vitundarvakning meðal foreldra Sigurður Sigurðsson skrifar Skoðun Þegar orð verða vopn Anna Margrét Bjarnadóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Kveikt í trúverðugleika Samfylkingarinnar – slökkviliðið er sem betur fer á leiðinni Andri Steinn Hilmarsson Skoðun
Skoðun Kveikt í trúverðugleika Samfylkingarinnar – slökkviliðið er sem betur fer á leiðinni Andri Steinn Hilmarsson skrifar
Skoðun Meirihlutinn hafnar eigin tillögu um byggingu íbúða fyrir eldra fólk Stefán Már Gunnlaugsson skrifar
Skoðun Smá pæling frá einni sem ætlar að taka þátt í uppbyggingu Grindavíkur Dagmar Valsdóttir skrifar
Skoðun Samkeppnismat - aukin samkeppnishæfni íslensks atvinnulífs og virkari samkeppni Margrét Einarsdóttir,Páll Gunnar Pálsson skrifar
Skoðun Breytum menningu og eflum menntakerfið okkar – vitundarvakning meðal foreldra Sigurður Sigurðsson skrifar
Kveikt í trúverðugleika Samfylkingarinnar – slökkviliðið er sem betur fer á leiðinni Andri Steinn Hilmarsson Skoðun