Vojska od 15.000 hakera ovog AI startupa testira Claude, GPT-5 i Gemini

TEHNOLOGIJA Forbes 31. maj 2026. 20:32
featured image

31. maj 2026. 20:32

Prošlog proljeća Kameron Bettridge učestvovao je u bezbjednosnom izazovu koji je organizovao AI startap Gray Swan. Cilj je bio da ubijedi modele vještačke inteligencije kompanija poput OpenAI-ja i Anthropica da se, prije nego što budu pušteni u javnost, ponašaju na zlonamjeran način. To je uključivalo navođenje modela da otkrivaju osjetljive podatke, poput medicinskih kartona, i da izbacuju sadržaj zaštićen autorskim pravima, poput kompletnog teksta pjesme Hotel California.

Bettridge, 23-godišnji inženjer za bezbjednost u gejming kompaniji Blizzard Entertainment, u početku je „džejlbrejkovao“ (pokušaj da se AI model prevari ili navede da zaobiđe svoja bezbjednosna pravila i ograničenja) modele iz zabave.

„Nikada nijesam bio pravi potpuni pristalica AI-ja“, kaže on. „Zato mi je ponekad bilo smiješno samo da vidim kako model pada.“

Za gotovo godinu, Bettridge se takmičio u više od 1.000 izazova preko Arene – platforme koju vodi startap Gray Swan, a koju oko 15.000 stručnjaka za bezbjednost iz cijelog svijeta koristi za „red timovanje“ (bezbjednosna praksa u kojoj stručnjaci namjerno pokušavaju da „napadnu“ sistem) AI sistema kao što su Claude Mythos kompanije Anthropic i GPT-5 kompanije OpenAI, pronalazeći i popravljajući ranjivosti prije nego što budu iskorišćene. Na tome je zaradio 10.000 dolara.

To nije mnogo za dobro plaćenog softverskog inženjera. Ali kako je AI postajao sveprisutan, Bettridge je shvatio koliko je važno testirati granice tih AI modela. Tehnologija je korištena za planiranje masovnih pucnjava, krađu novca i kreiranje nezakonitog materijala seksualnog zlostavljanja djece.

„Sada imamo veoma snažne modele kojima svako može pristupiti sa bilo kojeg mjesta u svijetu, što je zastrašujuća pomisao“, kaže Bettridge. „Ljudi zaista pokušavaju da ih koriste za štetne stvari.“

Nezaobilazan pružalac bezbjednosnih usluga

Fredrkson i Kolter, Foto: Gray Swan

Gray Swan su 2023., osnovali profesori Univerziteta Carnegie Mellon Matt Fredrikson i Zico Kolter. Kompanija je postala nezaobilazan pružalac bezbjednosnih usluga za vodeće AI laboratorije: OpenAI, Anthropic, Google DeepMind, Metu, xAI i ByteDance. Startup je pomenut u 11 sistemskih kartica vodećih modela, uključujući GPT-5 i Mitos – dokumentima u kojima se navode rizici koje AI model nosi i bezbjednosne mjere preduzete da se oni spriječe.

Sada je kompanija prikupila 40 miliona dolara u Seriji A, koju su predvodili Wing VC i Madrona, uz učešće Snowflake Venturesa, Hudson River Tradinga i Samsung Nexta, čime je njena valuacija dostigla 200 miliona dolara. Već ima 20 velikih poslovnih klijenata, a sredstva će joj pomoći da prodaje usluge većem broju kompanija koje moraju da zaštite sopstvene AI proizvode.

Iako Gray Swan vodi Arenu, koju ne treba miješati sa LMArenom koja poredi modele na osnovu performansi, to nije njen glavni proizvod. Kompanija koristi podatke iz Arene, koje prikupljaju ljudski „red timovi“, kako bi trenirala svog AI agenta Shade, koji aktivno traži ranjivosti tako što kontinuirano napada sistem na različite načine, kao i Cygnal, softver koji prati upite i izlaze AI modela kako bi ga blokirao da generiše štetne odgovore i pristupa alatima kojima ne bi smio. Upravo ti ljudski podaci predstavljaju njenu prednost, jer omogućavaju Gray Swan da najsofisticiranije hakerske napade usmjeri protiv sve sposobnijih AI modela.

„Agenti su sada mnogo pametniji“, kaže glavni naučnik i suosnivač Kolter, koji je i član odbora OpenAI fondacije. „Oni traže prompt injekcije. Pokušavaju da pobijede ove stvari. Ne nailaze na njih slučajno.“

Hakerski pedigre osnivača

Startup sa sjedištem u Pittsburghu rano je stekao uporište među najvećim AI laboratorijama zahvaljujući hakerskom pedigreu svojih osnivača. Dvojac je počeo da istražuje bezbjednosne rizike AI sistema godinama prije talasa generativne vještačke inteligencije. Godine 2023., otkrili su ono što je nazvano „majkom svih džejlbrejkova“ – da dodavanje niza nasumičnih karaktera upitu može zaobići bezbjednosne filtere modela koje su izgradili OpenAI, Antropik, Meta i Google. Taj propust je u međuvremenu ispravljen. Upravo to je pokrenulo ideju o osnivanju Grej Svona.

Manje od mjesec nakon pokretanja kompanije, OpenAI je postao njen prvi klijent, koristeći njenu tehnologiju za džejlbrejkovanje porodice modela o1 i testiranje da li generišu nasilni sadržaj i zlonamjerni kod. Godine 2024. Kolter je imenovan u odbor OpenAI fondacije, gdje kao predsjednik odbora za bezbjednost i sigurnost nadgleda velika lansiranja modela.

„Razmišljali su o bezbjednosti modela u trenutku kada to jednostavno nije bilo važno“, kaže partner u Wing VC-ju Jake Flomenberg. „Doslovno su čitav profesionalni život proveli radeći na ovom problemu iz akademskog ugla. Zato su i u razmišljanju i u istraživanju bili na pravom mjestu za ovu veliku promjenu.“

Iako vodeće AI laboratorije čine većinu prihoda Gray Swana, kompanija postaje sve privlačnija i velikim preduzećima. Snowflake koristi softver Gray Swana za stres-testiranje svog agenta za kodiranje Cortex Code i opštenamjenskog agenta Snowflake Intelligence, koje prodaje klijentima, kaže Anupam Datta, glavni istraživač u Snowflakeu.

U jednom scenariju, softver Gray Swana traži zlonamjerne upite skrivene unutar eksternih web-sajtova ili alata kojima Snowflakeovi agenti mogu pristupiti kako bi završili zadatak. Ti upiti mogli bi instruisati agenta da pošalje interne vlasničke podatke, poput informacija o zaradi kompanije, na mejl adresu kojom upravlja napadač.

„Gray Swan može da zaštiti od veoma suptilnih vrsta napada“, kaže Datta.

Agenti pronalaze nove rupe koje mogu da iskoriste

Kako AI sistemi postaju inteligentniji, njihovo džejlbrejkovanje zahtijevaće više složenosti i nijansi, kaže izvršni direktor Fredrikson. Agenti pronalaze nove rupe koje mogu da iskoriste. Budući da ti sistemi komuniciraju sa mrežom alata, „površina“ za napade postala je veća.

„Ono na šta možete računati jeste da će biti iznenađenja“, kaže Fredrikson. „Ovi sistemi mogu stvoriti nove površine za napade o kojima danas čak ni ne razmišljamo i koje nisu očigledne.“

Rashi Shrivastava, Forbes

This AI Startup’s Army Of 15,000 Hackers Pressure Test Claude, GPT-5 And Gemini