Битка на јазичните модели

Во светот на вештачката интелигенција јазичните модели се наоѓаат во постојана трка за доминација. Оваа технолошка битка не е само прашање на престиж, туку и на реална моќ во дигиталната ера. Долго време ChatGPT на OpenAI беше неприкосновен лидер, но сега Claude на Anthropic се појавува како сериозен предизвикувач. Веќе со месеци се шпекулира дека Claude го надминал GPT, но досега тоа беше неубедливо. Што е сменето и дали навистина е така?

Мерење на успехот: Како се споредуваат јазичните модели?

За да се одреди кој модел е подобар, се користат специфични тестови познати како “benchmarks”.

Овие тестови се разликуваат од стандардните тестови за луѓето и можат да варираат во зависност од тоа што се оценува. На пример, ако на јазичен модел му се зададе да напише расказ за Крали Марко, тоа може да се смета за бенчмарк тест. Меѓутоа, за да биде валиден, потребно е да се постават јасни критериуми за евалуација. Тие можат да вклучуваат квалитет на стилот, структура на нарацијата, историска точност, или креативност во приказната.

Важно е да се напомене дека бенчмарк тестовите не се секогаш целосно објективни. Тие можат да бидат дизајнирани за да нагласат одредени аспекти на перформансите на моделот, што може да доведе до пристрасни резултати. Ова е особено значајно во контекст на технолошката „ладна војна” што се води меѓу компаниите за вештачка интелигенција, каде што секој сака да биде перципиран како лидер во полето.

Меѓутоа, за просечниот корисник официјалните бенчмарк тестови може да не бидат најрелевантни. На пример, што значи ако еден модел е одличен во пишување код, но корисникот не е програмер? Затоа, многу истражувачи и ентузијасти развиваат свои сопствени тестови кои се порелевантни за нивните специфични потреби.

Македонски предизвик: Бенчмарк тест на Арно.мк

На Арно.мк е трениран првиот графички модел со кој се илустрирани ликови од македонската историја (Горан Стефановски, Петре М. Андреевски, Тоше Проески, Ѓорѓи Абаџиев), таму се издадени првата книга и графичка новела на македонски јазик со илустрации направени со АИ, првите едукативни видеа со помош на АИ и е објавен прв македонски краток филм правен со вештачка интелигенција.

Во овој контекст, Арно.мк, македонски портал за наука, технологија и уметност, развил уникатен бенчмарк тест фокусиран на способноста на јазичните модели да работат со македонскиот јазик. Овој тест, наречен „пишување вистински панграм на македонски јазик”, е создаден уште во март 2023 година, кога јазичните модели допрва стануваа популарни.

Изборот на панграм како тест не е случаен. Панграмот е реченица која ја содржи секоја буква од азбуката барем еднаш. За луѓето, создавањето панграм може да биде забавен јазичен предизвик. За јазичните модели, меѓутоа, ова е исклучително сложена задача која бара прецизно броење на карактери и длабоко разбирање на јазикот. Оваа разлика во тежината на задачата за луѓе наспроти машини е позната како Парадокс на Моравец: „Она што е лесно за нас е тешко за AI/роботите и обратно.”

Најкраткиот познат панграм на македонски јазик го има напишано Живко Гроздановски, сегашниот претседател на ДПМ. Овој панграм служи како златен стандард за споредба со обидите на AI моделите.

За да го олесни процесот на тестирање, тимот на Арно.мк има развиено „Панграм проверувач” – алатка програмирана со помош на ChatGPT 3.5. Оваа алатка автоматски проверува дали дадената реченица ги содржи сите букви од македонската азбука, што овозможува брзо и прецизно оценување на обидите на AI моделите.

Изворниот код на програмата можете да го преземете од тука.

Во првичните експерименти со ChatGPT, тимот на Арно.мк постигнал охрабрувачки резултати, иако процесот бил макотрпен. Било потребно да се „тренира” ChatGPT и да се искористи за пишување програма со која самиот ќе се тестира. Иако ChatGPT не успеал да создаде совршен панграм, дошол поблиску од кој било друг модел во тоа време. Ова било особено импресивно со оглед на фактот дека многу модели во тој период дури и не го препознавале македонскиот јазик или кирилицата.

Заклучокот од овие рани експерименти бил дека создавањето панграм на македонски јазик е невозможно за тогашните јазични модели, дури и за најнапредните. Овој предизвик бил наречен „кршење кичма” на јазичен модел, алудирајќи на популарниот скеч на К-15.

Напредокот на Claude

Во март 2024 година, тимот на Арно.мк го тестирал Claude 3 со истиот тест. И покрај тврдењата на Anthropic дека нивниот модел го надминал GPT-4, Claude се покажал како недоволно способен за оваа задача. Заклучокот бил дека ChatGPT и понатаму останува супериорен, барем во контекст на работа со македонскиот јазик.

Меѓутоа, во јуни 2024 година, со појавата на Claude 3.5, ситуацијата драматично се променила. Овој нов модел бил најавен како супериорен во однос на GPT-4o, актуелната верзија на OpenAI моделот. Иако првично скептични, истражувачите на Арно.мк одлучиле да го тестираат.

Резултатите биле изненадувачки. Claude 3.5 успеал да создаде панграм на македонски јазик по само пет обиди. Финалниот резултат бил:

„Фабричка ѕидна жица со ќумбе, ѓезве и њушкав хмељ – булева преграда чудно џиткаше јас.”

Според панграм проверувачот, оваа реченица ги содржи сите 31 букви од македонската азбука и има вкупно 69 карактери. Иако не е совршен – зборовите „њушкав” и „булева” не се стандардни македонски зборови – ова претставува значаен напредок во споредба со претходните обиди.

GPT-4o не се дава!

За да се обезбеди фер споредба, тимот на Арно.мк го тестирал и најновиот GPT-4o модел со истиот „кичмокршач” предизвик. По осум обиди, GPT-4o исто така успеал да создаде панграм:

„Џиновската жаба прецизно чукна секој ѕид и фрли куфер во мрак, гледајќи Ѓорѓи и Љупче, тие ќарат нивниот храбар пајажњар и шише.”

Овој панграм ги содржи сите 31 букви и има вкупно 104 карактери, што го прави подолг и помалку елегантен од оној на Claude 3.5.

Овие резултати укажуваат на значаен напредок во способноста на јазичните модели да работат со македонскиот јазик. Фактот дека и Claude 3.5 и GPT-4o успеале да создадат панграми е импресивен, особено ако се земе предвид дека пред само една година ова се сметаше за невозможна задача.

Сепак, Claude 3.5 се истакнува со својата ефикасност, создавајќи покус и поелегантен панграм за помалку обиди. Ова сугерира дека Claude можеби навистина го престигнал GPT во некои аспекти на јазичното разбирање и генерирање.

Импликации за иднината

Важно е да се напомене дека овој тест, иако импресивен, е само еден аспект на способностите на јазичните модели. Потребни се дополнителни и поразновидни тестови за да се добие целосна слика за релативните предности на овие модели.

Исто така, брзиот напредок во оваа област укажува на тоа дека ситуацијата може брзо да се промени. Можеме да очекуваме дека и OpenAI и Anthropic, како и други компании во оваа област, ќе продолжат да ги подобруваат своите модели со брзо темпо.

Иако е прерано да се прогласи дефинитивен победник во „војната” на јазичните модели, експериментите на Арно.мк покажуваат дека Claude 3.5 направил значаен чекор напред. Неговата способност ефикасно да создаде македонски панграм го поставува како сериозен конкурент на GPT-4o, особено во контекст на работа со помалку застапени јазици како македонскиот.

Овој напредок не е само академско достигнување. Тој има потенцијал да ги подобри алатките за автоматско преведување, создавање содржина и обработка на природен јазик за македонските говорници. Ова би можело да има широк спектар на примена, од подобрување на дигиталните услуги до зачувување и промовирање на македонскиот јазик во дигиталната ера.

Како што технологијата продолжува да напредува, ќе биде возбудливо да се види како овие модели ќе продолжат да се развиваат и како нивните способности ќе влијаат на нашата интеракција со јазикот и технологијата. Засега, се чини дека Claude успева да му ја „скрши кичмата” на предизвикот на македонскиот панграм, поставувајќи нов стандард во полето на вештачката интелигенција и обработката на природни јазици.

Бранко Прља

(Преземено од Республика)