Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Hugleiðingar flugmanns Sara Hlín Sigurðardóttir Skoðun Bætt aðgengi að nýjum lyfjum skilar víðtækum ávinningi fyrir samfélagið Ragnhildur Reynisdóttir, Pétur Magnússon Skoðun Kerfislægt ofbeldi og pólitísk svik við ungu kynslóðina - tvöföld eignaupptaka Sigurður Sigurðsson Skoðun Hvað er hægt að semja um? Hjörtur J. Guðmundsson Skoðun Alþjóðlegi mjólkurdagurinn 2026 Sigurbjörg Ottesen Skoðun Gervigreindarkapphlaup sem Norðurlöndin geta unnið Halldóra Mogensen,Kristinn R. Þórisson Skoðun Á hvaða vegferð erum við? Ragnheiður Stephensen Skoðun Ef fyrirtæki nota AI til að fækka fólki, eru þau að hugsa of smátt Vaka Ágústsdóttir Skoðun Mygluna burt úr Laugalækjarskóla Stefán Steingrímur Bergsson Skoðun Hvað ertu hræddur við, Jón Pétur Zimsen? Óðinn Freyr Baldursson Skoðun Skoðun Skoðun Bætt aðgengi að nýjum lyfjum skilar víðtækum ávinningi fyrir samfélagið Ragnhildur Reynisdóttir, Pétur Magnússon skrifar Skoðun Háskólar falla á prófi í samkeppnisrétti Ólafur Stephensen skrifar Skoðun Jarðhiti sem samkeppnisforskot Helga Kristín Jóhannsdóttir skrifar Skoðun Ef fyrirtæki nota AI til að fækka fólki, eru þau að hugsa of smátt Vaka Ágústsdóttir skrifar Skoðun Hugleiðingar flugmanns Sara Hlín Sigurðardóttir skrifar Skoðun Mygluna burt úr Laugalækjarskóla Stefán Steingrímur Bergsson skrifar Skoðun Borgum ekki skuldir óreiðuríkja Jón Pétur Zimsen skrifar Skoðun Hvað ertu hræddur við, Jón Pétur Zimsen? Óðinn Freyr Baldursson skrifar Skoðun Hvað er hægt að semja um? Hjörtur J. Guðmundsson skrifar Skoðun Á hvaða vegferð erum við? Ragnheiður Stephensen skrifar Skoðun Alþjóðlegi mjólkurdagurinn 2026 Sigurbjörg Ottesen skrifar Skoðun Gervigreindarkapphlaup sem Norðurlöndin geta unnið Halldóra Mogensen,Kristinn R. Þórisson skrifar Skoðun Kerfislægt ofbeldi og pólitísk svik við ungu kynslóðina - tvöföld eignaupptaka Sigurður Sigurðsson skrifar Skoðun Hugsum stærra Magnús Lyngdal Magnússon skrifar Skoðun Leigufélög eignast fasteignamarkaðinn, fjárfestar eignast Garðabæ Baldur Jezorski skrifar Skoðun Mannauðsvald stjórnar meiru en margir halda skrifar Skoðun Viðskiptaráð rýnir í skólakerfið á árunum 2016–2026 – var nokkuð í gangi þá? Þóranna Rósa Ólafsdóttir skrifar Skoðun Liðbólgusjúkdómar – fræðsla skiptir máli Katrín Þórarinsdóttir skrifar Skoðun Í stormi reynir á leiðtogana Óskar Tryggvi Svavarsson skrifar Skoðun Á bak við hverja gigtargreiningu er fjölskylda sem verður fyrir áhrifum af sjúkdómnum. Hrönn Stefánsdóttir skrifar Skoðun Er virkilega ekki um neitt að semja? Berglind Guðmundsdóttir skrifar Skoðun Um laun, arðgreiðslur og skatta Gunnar Björgvinsson skrifar Skoðun Aftur til fortíðar: Tóbaks- og nikótínvarnir Vala Smáradóttir,Jóhanna Kristjánsdóttir skrifar Skoðun Hvers konar samfélag viljum við byggja með gervigreind? Rannveig Tenchi Ernudóttir skrifar Skoðun Brennandi hús Jón Steindór Valdimarsson skrifar Skoðun Hvaleyrarvatn - ekki byggja í Vatnshlíð Stefán Georgsson skrifar Skoðun Ósýnilegi aldurshópurinn í íslenskum sviðslistum Hrafnhildur Theodórsdóttir skrifar Skoðun Svona verndum við Ísland fyrir útlendingum Ingólfur Shahin skrifar Skoðun Hverju getur aukið sjálfstraust og sérþekking skilað komandi kynslóðum? Þorvaldur Ingi Jónsson skrifar Skoðun Að byggja brú til þeirra sem bíða Sigurður Árni Reynisson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Bætt aðgengi að nýjum lyfjum skilar víðtækum ávinningi fyrir samfélagið Ragnhildur Reynisdóttir, Pétur Magnússon Skoðun
Kerfislægt ofbeldi og pólitísk svik við ungu kynslóðina - tvöföld eignaupptaka Sigurður Sigurðsson Skoðun
Skoðun Bætt aðgengi að nýjum lyfjum skilar víðtækum ávinningi fyrir samfélagið Ragnhildur Reynisdóttir, Pétur Magnússon skrifar
Skoðun Gervigreindarkapphlaup sem Norðurlöndin geta unnið Halldóra Mogensen,Kristinn R. Þórisson skrifar
Skoðun Kerfislægt ofbeldi og pólitísk svik við ungu kynslóðina - tvöföld eignaupptaka Sigurður Sigurðsson skrifar
Skoðun Viðskiptaráð rýnir í skólakerfið á árunum 2016–2026 – var nokkuð í gangi þá? Þóranna Rósa Ólafsdóttir skrifar
Skoðun Á bak við hverja gigtargreiningu er fjölskylda sem verður fyrir áhrifum af sjúkdómnum. Hrönn Stefánsdóttir skrifar
Skoðun Aftur til fortíðar: Tóbaks- og nikótínvarnir Vala Smáradóttir,Jóhanna Kristjánsdóttir skrifar
Skoðun Hverju getur aukið sjálfstraust og sérþekking skilað komandi kynslóðum? Þorvaldur Ingi Jónsson skrifar
Bætt aðgengi að nýjum lyfjum skilar víðtækum ávinningi fyrir samfélagið Ragnhildur Reynisdóttir, Pétur Magnússon Skoðun
Kerfislægt ofbeldi og pólitísk svik við ungu kynslóðina - tvöföld eignaupptaka Sigurður Sigurðsson Skoðun