OpenAI ja Microsoft selvittävät laajaa datan kopioimista.
ChatGPT:n luonut yhdysvaltalaisyhtiö OpenAI syyttää kiinalaista Deepseekiä datansa varastamisesta.
Jättisuosioon noussut Deepseek-tekoäly olisi siis kehitetty käyttämällä luvattomasti ChatGPT:n tuottamaa dataa.
OpenAI kertoo Financial Timesille, että sillä on myös todisteita väitteidensä tueksi. Toistaiseksi OpenAI ei ole esittänyt todisteitaan julkisuuteen tai tarkentanut, minkälaisia todisteita sillä on.
OpenAI ja sen suurin omistaja Microsoft selvittävät Bloombergin mukaan niin sanottua datan ”suodattamista”, minkä ne ovat havainneet OpenAI:n ohjelmistoissa viime syksynä. Laajaa datan keräämistä on yhtiöiden mukaan tehnyt ryhmittymä, jolla on kytköksiä kiinalaiseen Deepseekiin.
Aiemmin myös Yhdysvaltain presidentti Donald Trumpin neuvonantaja David Sacks epäili, että Deepseek olisi hyväksikäyttänyt OpenAI:n tietoja.
Deepseekin kehittänyt yhtiö ja sen perustaja olivat vielä runsas viikko sitten lähes täysin tuntemattomia. Yhtiö väittää, että se on kehittänyt mallinsa vain noin kuudella miljoonalla eurolla, mikä olisi vain murto-osa johtavien tekoäly-yhtiöiden käyttämistä rahasummista.
Dataa voidaan varastaa ”suodattamalla”
Tekoälyn kehittämisessä datan suodattamisella tarkoitetaan toisen, suuremman tekoälyn vastausten hyödyntämistä.
Olemassa olevaa tekoälyä käytetään kehitettävän tekoälyn opettamiseen. Toiselta tekoälyltä kerätään vastauksia komentoihin ja ne kopioidaan uuteen tekoälymalliin. Se tekee kehityksestä tehokkaampaa ja halvempaa.
OpenAI kieltää tällaisen datan kopioimisen ohjelmistoistaan.
Financial Timesille puhunut Kalifornian yliopiston tekoälytutkija Ritwik Gupta sanoo, että suodattamisella yritetään kopioida etenkin tekoälyn tarjoamien vastausten ihmismäisyyttä.
Juuri OpenAI on palkannut runsaasti ihmisiä opettamaan tekoälyjään antamaan mahdollisimman ihmismäiseltä kuulostavia vastauksia. Toiminta on kallista, koska se edellyttää suurta työmäärää, jonka voivat tehdä vain oikeat ihmiset.
Näin vaikkapa OpenAI:n ChatGPT:n dataa suodattamalla pystyy opettamaan uudelle tekoälymallille kielen ihmismäisyyttä.
– Tällä tapaa ihmisiltä kerätyn palautteen saa siis hankittua ilmaiseksi, Gupta sanoo FT:lle.
OpenAI sanoo etsivänsä jatkuvasti uusia keinoja immateriaalioikeuksiensa suojaamiseen.
– Tiedämme, että [kiinalaiset] ja muut yhtiöt yrittävät jatkuvasti suodattaa Yhdysvaltain johtavien tekoäly-yhtiöiden tekoälymalleja, yhtiö sanoo tiedotteessaan.
Suomalaiset tekoälyasiantuntijat laittavat Deepseek-tekoälyn kehitysloikan kontekstiin: