Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Veit Inga hvað hún syngur? Íris Róbertsdóttir Skoðun Er betra að fólk sé sett á sakamannabekk en að stjórnmálamenn vinni vinnuna sína? Ólafur Stephensen Skoðun What is Snorri Másson talking about? Colin Fisher Skoðun Fyrir dómstólum fyrir að verja líf – augliti til auglitis við Kristján Loftsson Samúel Karl Ólason Skoðun Í gamla daga voru allir læsir Eydís Hörn Hermannsdóttir Skoðun Flott hjá læknum! Siv Friðleifsdóttir Skoðun Hvers vegna læra börnin þín ekki neitt? Svarið gæti verið í speglinum Jónas Sen Skoðun Og ári síðar er málið enn „í ferli“ Eva Hauksdóttir Skoðun Halldór 17.01.2026 Halldór Erum við að reyna að láta rangan hóp leysa húsnæðisvandann? Stefnir Húni Kristjánsson Skoðun Skoðun Skoðun Erum við að reyna að láta rangan hóp leysa húsnæðisvandann? Stefnir Húni Kristjánsson skrifar Skoðun Fyrir dómstólum fyrir að verja líf – augliti til auglitis við Kristján Loftsson Samúel Karl Ólason skrifar Skoðun What is Snorri Másson talking about? Colin Fisher skrifar Skoðun Sjálfskaparvíti meirihlutans í Reykjavík Vilhelm Jónsson skrifar Skoðun Öxlum ábyrgð og segjum satt Pétur Marteinsson skrifar Skoðun Hvers vegna er endurtekið ófremdarástand á bráðamóttökunni? Jón Magnús Kristjánsson skrifar Skoðun Einföldum lífið í úthverfunum Bjarnveig Birta Bjarnadóttir skrifar Skoðun Sigfús í sexuna! Mörður Árnason skrifar Skoðun Drengirnir okkar, Ísland vs Finnland Sigurður Árni Reynisson skrifar Skoðun Án tónlistar væri lífið mistök Unnur Malín Sigurðardóttir skrifar Skoðun Veit Inga hvað hún syngur? Íris Róbertsdóttir skrifar Skoðun Með einkarétt á internetinu? Ólafur Stephensen skrifar Skoðun Tilraunastarfsemi stjórnvalda á kostnað matvælaöryggis og lýðheilsu Þorsteinn Narfason skrifar Skoðun Viðkvæmni fyrir gríni? Halldór Auðar Svansson skrifar Skoðun Tímabær endurskoðun jafnlaunavottunar Hákon Skúlason skrifar Skoðun Ertu að kjósa gegn þínum hagsmunum? Guðni Freyr Öfjörð skrifar Skoðun Úr neðsta helvíti Dantes Móheiður Hlíf Geirlaugsdóttir skrifar Skoðun Íbúar í Reykjavík skipta máli ‒ endurreisum íbúaráðin Sigfús Ómar Höskuldsson skrifar Skoðun Breytt heimsmynd kallar á endurmat á öryggi raforkuinnviða Halldór Halldórsson skrifar Skoðun Í gamla daga voru allir læsir Eydís Hörn Hermannsdóttir skrifar Skoðun Kvartanir eru ekki vandamál – viðbrögðin eru það Margrét Reynisdóttir skrifar Skoðun Vatnsmýrin rís Birkir Ingibjartsson skrifar Skoðun Er betra að fólk sé sett á sakamannabekk en að stjórnmálamenn vinni vinnuna sína? Ólafur Stephensen skrifar Skoðun Ung til athafna Hildur Rós Guðbjargardóttir,Eyrún Fríða Árnadóttir skrifar Skoðun Hvað með Thorvaldsen börnin á árunum 1967 til 1974? Sölvi Breiðfjörð skrifar Skoðun Tjáningarfrelsi: Hvers vegna skiptir það máli? Ásgeir Jónsson skrifar Skoðun Sjávarútvegur framtíðarinnar – friðun, vistvænni veiðar og réttlátara kvótakerfi Arnar Helgi Lárusson skrifar Skoðun Loftslagsmál: að lifa vel innan marka jarðar Ingrid Kuhlman skrifar Skoðun Við getum ekki breytt sólinni - en við getum breytt klukkunni! Erla Björnsdóttir skrifar Skoðun Steinunni í 2. sæti Bjarki Bragason skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Er betra að fólk sé sett á sakamannabekk en að stjórnmálamenn vinni vinnuna sína? Ólafur Stephensen Skoðun
Fyrir dómstólum fyrir að verja líf – augliti til auglitis við Kristján Loftsson Samúel Karl Ólason Skoðun
Skoðun Fyrir dómstólum fyrir að verja líf – augliti til auglitis við Kristján Loftsson Samúel Karl Ólason skrifar
Skoðun Hvers vegna er endurtekið ófremdarástand á bráðamóttökunni? Jón Magnús Kristjánsson skrifar
Skoðun Tilraunastarfsemi stjórnvalda á kostnað matvælaöryggis og lýðheilsu Þorsteinn Narfason skrifar
Skoðun Er betra að fólk sé sett á sakamannabekk en að stjórnmálamenn vinni vinnuna sína? Ólafur Stephensen skrifar
Skoðun Sjávarútvegur framtíðarinnar – friðun, vistvænni veiðar og réttlátara kvótakerfi Arnar Helgi Lárusson skrifar
Er betra að fólk sé sett á sakamannabekk en að stjórnmálamenn vinni vinnuna sína? Ólafur Stephensen Skoðun
Fyrir dómstólum fyrir að verja líf – augliti til auglitis við Kristján Loftsson Samúel Karl Ólason Skoðun