Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Halldór 8.2.2026 Halldór Þegar traustið brestur - Háskólinn á Bifröst Stefanía Hrund Guðmundsdóttir Skoðun Er verið að kynna Borgarlínuna sem strætó? Bárður Sigurðsson Skoðun Heilsa og líðan barnanna okkar Alma D. Möller Skoðun Þegar álag barns reynir á hjónabandið Sigurður Árni Reynisson Skoðun Hvíl í friði, Bifrastarandinn Selma Klara Gunnarsdóttir Skoðun Sumt er hægt að verja aðeins einu sinni Steinunn Ólína Þorsteinsdóttir Skoðun „Er ekki bara best að hætta þessu fiskeldi?” Halla Hrund Logadóttir Skoðun Að þegja yfir óstjórn en segja að jafnvægi sé efnahagslegur dómsdagur Þórður Snær Júlíusson Skoðun Tryggjum hvata til stafrænnar námsgagnagerðar Bogi Ragnarsson Skoðun Skoðun Skoðun Heilsa og líðan barnanna okkar Alma D. Möller skrifar Skoðun Þegar traustið brestur - Háskólinn á Bifröst Stefanía Hrund Guðmundsdóttir skrifar Skoðun Tryggjum hvata til stafrænnar námsgagnagerðar Bogi Ragnarsson skrifar Skoðun Að liggja á göngum sjúkrahúsa Árni Gunnarsson skrifar Skoðun Þegar álag barns reynir á hjónabandið Sigurður Árni Reynisson skrifar Skoðun Hver er ábyrgur þegar heilbrigðiskerfið er komið langt yfir neyðarstig Sigurður Sigurðsson skrifar Skoðun Sumt er hægt að verja aðeins einu sinni Steinunn Ólína Þorsteinsdóttir skrifar Skoðun Hollt mataræði þarf ekki að vera flókið – bara framkvæmanlegt Birgitta Lind Vilhjálmsdóttir ,Gunnhildur Sveinsdóttir skrifar Skoðun Kópavogur og amma Stella Pétur Björgvin Sveinsson skrifar Skoðun Reykjavík er okkar allra Hlédís Maren Guðmundsdóttir skrifar Skoðun Ný forgangsröðun í Kópavogi Jónas Már Torfason skrifar Skoðun Hvíl í friði, Bifrastarandinn Selma Klara Gunnarsdóttir skrifar Skoðun Báknið óhaggað, tíma sóað, Miðflokkurinn á móti Kjartan Magnússon skrifar Skoðun Hvað segir ESB um umsóknarferlið? Hjörtur J. Guðmundsson skrifar Skoðun „Er ekki bara best að hætta þessu fiskeldi?” Halla Hrund Logadóttir skrifar Skoðun Stefnt að stjórnleysi í ríkisfjármálunum Sigurður Örn Hilmarsson skrifar Skoðun Þögnin sem umlykur loftslagsmálin Ingrid Kuhlman skrifar Skoðun Það er pláss fyrir einn aldraðan einstakling í stofunni hjá mér Steinunn Þórðardóttir skrifar Skoðun Skortur á framtíðarsýn skrifar Skoðun Að þegja yfir óstjórn en segja að jafnvægi sé efnahagslegur dómsdagur Þórður Snær Júlíusson skrifar Skoðun Ónýtt tækifæri í heilbrigðiskerfinu Kristján Jón Jónatansson skrifar Skoðun Afgerandi og vaxandi ánægja íbúa Hveragerðis Dagný Sif Sigurbjörnsdóttir skrifar Skoðun Forðist eftirlíkingar Berglind Sunna Bragadóttir skrifar Skoðun Pípulagningamenn Íslands – Fagkerfi/átak, fagmenn og fagmennska Snæbjörn R. Rafnsson skrifar Skoðun Forvarnir eru ekki kostnaður – þær eru fjárfesting í framtíðinni Helga Björg Loftsdóttir skrifar Skoðun Varðhundar verðbólgunnar Hilmar Harðarson skrifar Skoðun Tíminn líður hratt á gervihnattaröld Alexandra Rós Jóhannesdóttir skrifar Skoðun Er verið að kynna Borgarlínuna sem strætó? Bárður Sigurðsson skrifar Skoðun Undir yfirborði íslensku hamingjunnar Björg Sigríður Hermannsdóttir skrifar Skoðun Skærgulu skórnir á leið til Samhjálpar Birna Guðný Björnsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Að þegja yfir óstjórn en segja að jafnvægi sé efnahagslegur dómsdagur Þórður Snær Júlíusson Skoðun
Skoðun Hver er ábyrgur þegar heilbrigðiskerfið er komið langt yfir neyðarstig Sigurður Sigurðsson skrifar
Skoðun Hollt mataræði þarf ekki að vera flókið – bara framkvæmanlegt Birgitta Lind Vilhjálmsdóttir ,Gunnhildur Sveinsdóttir skrifar
Skoðun Það er pláss fyrir einn aldraðan einstakling í stofunni hjá mér Steinunn Þórðardóttir skrifar
Skoðun Að þegja yfir óstjórn en segja að jafnvægi sé efnahagslegur dómsdagur Þórður Snær Júlíusson skrifar
Skoðun Pípulagningamenn Íslands – Fagkerfi/átak, fagmenn og fagmennska Snæbjörn R. Rafnsson skrifar
Skoðun Forvarnir eru ekki kostnaður – þær eru fjárfesting í framtíðinni Helga Björg Loftsdóttir skrifar
Að þegja yfir óstjórn en segja að jafnvægi sé efnahagslegur dómsdagur Þórður Snær Júlíusson Skoðun