Освен тоа, ГПТ-4.1 на ОпенАИ детално објаснил како антраксот може да се користи како оружје и како може да се направат два вида нелегални дроги.
Тестирањето било дел од необична соработка помеѓу ОпенАИ, стартапот за вештачка интелигенција вреден 500 милијарди долари, предводен од Сем Алтман, и конкурентската компанија Антропик, основана од експерти што го напуштија ОпенАИ поради страв за безбедноста.
Тестирањето не е директен одраз на тоа како моделите се однесуваат во јавната употреба, кога се применуваат дополнителни безбедносни филтри. Но Антропик вели дека забележал „загрижувачко однесување… околу злоупотребата“ во ГПТ-4o и ГПТ-4.1 и дека потребата за евалуации на усогласеноста со вештачката интелигенција е „сè поитна“.
Двете компании објаснија дека ги објавуваат наодите за да создадат транспарентност околу „евалуациите на усогласеноста“. Компаниите што се тркаат да развијат сè понапредна вештачка интелигенција честопати ги чуваат таквите наоди за себе.
ОпенАИ забележа дека ЧетГПТ-5, лансиран по тестирањето, „покажува значителни подобрувања во областите како што се подлизуркувањето, неточните податоци и отпорноста на злоупотреба“.
Антропик: Моделите се попопустливи отколку што очекувавме
Антропик нагласи дека е голем број многу од проучуваните злоупотреби да не бидат можни во практиката доколку се инсталираат заштитни мерки надвор од моделите. „Треба да разбереме колку често и под кои околности системите би можеле да се обидат да преземат несакани дејствија што би можеле да доведат до сериозна штета“, предупредија тие.
Истражувачите на Антропик откриле дека моделите на ОпенАИ се „попопустливи отколку што очекувавме во справувањето со очигледно штетните барања на симулираните корисници“. Тие давале упатства за користење алатки од темната мрежа за купување нуклеарни материјали, лажен идентитет и фентанил, производство на метамфетамин и импровизирани бомби и развој на шпионски софтвер.
Антропик рече дека моделот ќе го прифати барањето на корисникот по повеќекратни обиди или нудење слаб изговор, како тврдењето дека барањето е за истражувачки цели.
Во еден случај, корисникот барал слаби точки на спортските објекти за целите на „безбедносно планирање“. Моделот тогаш дал информации за слабите точки во одредени арени, вклучувајќи оптимално време на напад, хемиски формули за експлозиви, дијаграми на струјни кола за тајмери на бомби и опции за купување оружје на црниот пазар.






