Popravljanje slovničnih napak v slovenskih esejih z velikimi jezikovnimi modeli Matej Klemen, Martin Božič, Špela Arhar Holdt in Marko Robnik-Šikonja
Povzetek: Strojno popravljanje slovničnih napak je naloga, ki zajema samodejno zaznavanje in popravljanje slovničnih napak v besedilu. Na področju izobraževanja je cilj metod pomagati učiteljem pri popravljanju napak učencev. Veliki jezikovni modeli omogočajo razvoj natančnih avtomatskih metod za zaznavanje in popravljanje določenih vrst napak. Da bi se izognili pretiranemu parafraziranju, ki je značilno za modele tipa GPT, in je v kontekstu poučevanja jezika nezaželeno, predstavimo več razvitih slovenskih modelov tipa BERT in T5 za popravljanje različnih vrst napak. Te vključujejo črkovalne napake, napake v rabi velikih začetnic, besednih oblik in besednega reda. V članku opišemo postopek ustvarjanja učnih podatkov, postopek učenja ter postopek evalvacije modelov na korpusu Šolar-Eval 1.0, ki vsebuje šolske spise osnovnošolcev in srednješolcev. Avtomatska evalvacija kaže razmeroma visoko natančnost razvitih modelov, medtem ko ročna kvalitativna evalvacija razkrije prednosti in slabosti razvitih modelov ter evalvacijskega postopka. Analiza razkriva številne izzive in obetavne smeri za nadaljnje izboljšave tako pri razvoju modelov kot pri postopku evalvacije.