Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Afsláttur fyrir erlenda glæpamenn Anton Sveinn McKee Skoðun Launin mín eru ekki vandamálið. Hættu að kenna fátækum um mistök þín Ian McDonald Skoðun Stærsti foss jarðar er á landgrunni Íslands Júlíus Valsson Skoðun Um tæknirisana og stjórnlausa bruðlið Kristinn Jón Ólafsson Skoðun Vinnum að hag sjúklinga – og förum rétt með staðreyndir Aðalsteinn Arnarson,Kristján Jón Jónatansson Skoðun Stórslys á Suðurlandsbraut Lárus Bl. Sigurðsson Skoðun Góð áminning um sjálfsögð réttindi Helga Rósa Másdóttir,Magnús Þór Jónsson,Sonja Ýr Þorbergsdóttir Skoðun Hamingjan er ekki tilviljun, hún er afleiðing Elliði Vignisson Skoðun „Verður Guggan áfram gul?“ – hvað ætlar ráðherra að gera við Stykkishólm? Rannveig Tenchi Ernudóttir Skoðun Öfugir hvatar hlutdeildarlána Sindri Pálmason Skoðun Skoðun Skoðun Byrjum á byrjuninni – Framboð, ekki bara fjármögnun Hilmar Halldórsson skrifar Skoðun Enn ein hringekja vegatollaumræðu Runólfur Ólafsson skrifar Skoðun Hlaðborð gæluverkefna Helgi Áss Grétarsson skrifar Skoðun Vanfjármögnun leikskólanna er ekki valkostur James Robb skrifar Skoðun Ósvífni meirihluta sveitastjórnar Skeiða- og Gnúpverjahrepps Hrafnhildur Ágústsdóttir,Oddur Guðni Bjarnason skrifar Skoðun Hundseðlið sem heldur Íslandi niðri Sigurður Sigurðsson skrifar Skoðun Jysk, veikindaréttur opinberra starfsmanna, Emmsjé Gauti og forréttindablinda Rakel Linda Kristjánsdóttir skrifar Skoðun Nálaraugað rammaáætlun og markaðsskrifstofa frá 1997 Þorgerður María Þorbjarnardóttir skrifar Skoðun Vinnum að hag sjúklinga – og förum rétt með staðreyndir Aðalsteinn Arnarson,Kristján Jón Jónatansson skrifar Skoðun Afsláttur fyrir erlenda glæpamenn Anton Sveinn McKee skrifar Skoðun Góð áminning um sjálfsögð réttindi Helga Rósa Másdóttir,Magnús Þór Jónsson,Sonja Ýr Þorbergsdóttir skrifar Skoðun Launin mín eru ekki vandamálið. Hættu að kenna fátækum um mistök þín Ian McDonald skrifar Skoðun Öfugir hvatar hlutdeildarlána Sindri Pálmason skrifar Skoðun Hamingjan er ekki tilviljun, hún er afleiðing Elliði Vignisson skrifar Skoðun Er háskólamenntun trygging fyrir húsnæðisöryggi? Kolbrún Halldórsdóttir skrifar Skoðun Afsal fullveldis – eða ekki. Er það einhver spurning? Gunnar Ármannsson skrifar Skoðun Framkvæmdir auka losun en aðeins tímabundið Ívar Kristinn Jasonarson skrifar Skoðun Heilbrigðisráðherra eflir endó-meðferð Eydís Ásbjörnsdóttir skrifar Skoðun „Verður Guggan áfram gul?“ – hvað ætlar ráðherra að gera við Stykkishólm? Rannveig Tenchi Ernudóttir skrifar Skoðun Hjálp, það á að breyta malbikinu mínu! Sveinn Atli Gunnarsson skrifar Skoðun Hækkun örorkubóta eða raunverulegur stuðningur? Arnar Helgi Lárusson skrifar Skoðun Léttum á vegunum og eflum strandsiglingar Lilja Rafney Magnúsdóttir skrifar Skoðun Þáttaskil í umræðu um blóðmerahald Árni Stefán Árnason skrifar Skoðun Hamingja á stafrænum tímum Ingrid Kuhlman skrifar Skoðun Ósýnilegi reikningurinn í grunnskólum Kolbrún Áslaugar Baldursdóttir skrifar Skoðun Um tæknirisana og stjórnlausa bruðlið Kristinn Jón Ólafsson skrifar Skoðun Lögmaður á villigötum – skák og mát… Agnar Þór Guðmundsson skrifar Skoðun Áhrif endurgjafar á virkni heilans Hanna Steinunn Steingrímsdóttir skrifar Skoðun Meðvirka fjölskyldan Berglind Guðmundsdóttir skrifar Skoðun Sérkennilegur samhljómur Ingólfur Sverrisson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Vinnum að hag sjúklinga – og förum rétt með staðreyndir Aðalsteinn Arnarson,Kristján Jón Jónatansson Skoðun
Góð áminning um sjálfsögð réttindi Helga Rósa Másdóttir,Magnús Þór Jónsson,Sonja Ýr Þorbergsdóttir Skoðun
„Verður Guggan áfram gul?“ – hvað ætlar ráðherra að gera við Stykkishólm? Rannveig Tenchi Ernudóttir Skoðun
Skoðun Ósvífni meirihluta sveitastjórnar Skeiða- og Gnúpverjahrepps Hrafnhildur Ágústsdóttir,Oddur Guðni Bjarnason skrifar
Skoðun Jysk, veikindaréttur opinberra starfsmanna, Emmsjé Gauti og forréttindablinda Rakel Linda Kristjánsdóttir skrifar
Skoðun Nálaraugað rammaáætlun og markaðsskrifstofa frá 1997 Þorgerður María Þorbjarnardóttir skrifar
Skoðun Vinnum að hag sjúklinga – og förum rétt með staðreyndir Aðalsteinn Arnarson,Kristján Jón Jónatansson skrifar
Skoðun Góð áminning um sjálfsögð réttindi Helga Rósa Másdóttir,Magnús Þór Jónsson,Sonja Ýr Þorbergsdóttir skrifar
Skoðun „Verður Guggan áfram gul?“ – hvað ætlar ráðherra að gera við Stykkishólm? Rannveig Tenchi Ernudóttir skrifar
Vinnum að hag sjúklinga – og förum rétt með staðreyndir Aðalsteinn Arnarson,Kristján Jón Jónatansson Skoðun
Góð áminning um sjálfsögð réttindi Helga Rósa Másdóttir,Magnús Þór Jónsson,Sonja Ýr Þorbergsdóttir Skoðun
„Verður Guggan áfram gul?“ – hvað ætlar ráðherra að gera við Stykkishólm? Rannveig Tenchi Ernudóttir Skoðun