Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Fleiri ásælast Grænland en Trump Hjörtur J. Guðmundsson Skoðun Þegar þeir sem segjast þjóna þjóðinni ráðast á hana Ágústa Árnadóttir Skoðun Þetta varð í alvöru að lögum! Snorri Másson Skoðun Aftur um Fjarðarheiðargöng Stefán Ómar Stefánsson van Hagen Skoðun Halldór 27.12.2025 Halldór Verður Hvalfjörður gerður að einni stærstu rotþró landsins? Haraldur Eiríksson Skoðun Vínsalarnir og vitorðsmenn þeirra Ögmundur Jónasson Skoðun RÚV: Þú skalt ekki önnur útvörp hafa! Gunnar Salvarsson Skoðun Alvarlegar rangfærslur í Hitamálum Eyþór Eðvarðsson Skoðun Hverjum þjónar kerfið? Erna Bjarnadóttir Skoðun Skoðun Skoðun ESB: Penninn og sverðið, aðgangur og yfirráð Helgi Hrafn Gunnarsson skrifar Skoðun Aftur um Fjarðarheiðargöng Stefán Ómar Stefánsson van Hagen skrifar Skoðun Hitamál - Saga loftslagsins Höskuldur Búi Jónsson skrifar Skoðun Von, hugrekki og virðing við lok lífs Ingrid Kuhlman skrifar Skoðun Hverjum þjónar kerfið? Erna Bjarnadóttir skrifar Skoðun Vínsalarnir og vitorðsmenn þeirra Ögmundur Jónasson skrifar Skoðun Viðskilnaður Breta við ESB: Sársauki, frelsi og veðmálið um framtíðina Eggert Sigurbergsson skrifar Skoðun RÚV: Þú skalt ekki önnur útvörp hafa! Gunnar Salvarsson skrifar Skoðun Áramótaannáll 2025 Þórir Garðarsson skrifar Skoðun Vonin sem sneri ekki aftur Sigurður Árni Reynisson skrifar Skoðun Ljósadýrð loftin gyllir Hrefna Sigurjónsdóttir skrifar Skoðun Þegar reglugerðir og raunveruleiki rekast á Erna Bjarnadóttir skrifar Skoðun Hugmyndafræðilegur hornsteinn ESB Hjörtur J. Guðmundsson skrifar Skoðun Hinn falski raunveruleiki Kristján Fr. Friðbertsson skrifar Skoðun Bandaríkin léku lykilhlutverk í samruna Evrópu sem leiddi til friðar og efnahagslegrar velsældar Kristján Vigfússon skrifar Skoðun Alvarlegar rangfærslur í Hitamálum Eyþór Eðvarðsson skrifar Skoðun Verður Hvalfjörður gerður að einni stærstu rotþró landsins? Haraldur Eiríksson skrifar Skoðun Fleiri ásælast Grænland en Trump Hjörtur J. Guðmundsson skrifar Skoðun Mótmæli frá grasrótinni eru orðin saga í Evrópu Erna Bjarnadóttir skrifar Skoðun Er tímabili friðar að ljúka árið 2026? Jun Þór Morikawa skrifar Skoðun Reykvískir lýðræðisjafnaðarmenn – kjósum oddvita Freyr Snorrason skrifar Skoðun Ástandið, jólavókaflóðið og druslur nútímans Sæunn I. Marinósdóttir skrifar Skoðun Gerið Ásthildi Lóu aftur að ráðherra – taka tvö Eyjólfur Pétur Hafstein skrifar Skoðun Mikilvægi björgunarsveitanna Kristján Þórður Snæbjarnarson skrifar Skoðun Andi hins ókomna á stjórnarheimilinu? Jean-Rémi Chareyre skrifar Skoðun Var ég ekki nógu mikils virði? Kristján Friðbertsson skrifar Skoðun Jólin eru rökfræðilega yfirnáttúruleg – og sagan sem menn dóu fyrir lifir enn Hilmar Kristinsson skrifar Skoðun Þegar jólasveinninn kemur ekki á hverri nóttu Guðlaugur Kristmundsson skrifar Skoðun 100 lítrar á mínútu Sigurður Friðleifsson skrifar Skoðun Stöðugleiki sem viðmið Arnar Laxdal skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Viðskilnaður Breta við ESB: Sársauki, frelsi og veðmálið um framtíðina Eggert Sigurbergsson skrifar
Skoðun Bandaríkin léku lykilhlutverk í samruna Evrópu sem leiddi til friðar og efnahagslegrar velsældar Kristján Vigfússon skrifar
Skoðun Jólin eru rökfræðilega yfirnáttúruleg – og sagan sem menn dóu fyrir lifir enn Hilmar Kristinsson skrifar