Příliš uvěřitelné texty: Nepoznáte, co napsal člověk a co tajný automat

Počítačový algoritmus GPT-2 umí generovat texty na prakticky jakékoli téma. Poznali byste z předložených ukázek, že jde o článek smyšlený neuronovou sítí? Tvůrci z OpenAI byli sami překvapeni, jak uvěřitelné texty z programu padají. Proto zatím program nezveřejní a chtějí rozpoutat celospolečenskou debatu.

Vědci nechtějí zveřejnit nové algoritmy OpenAI. Texty vytvořené jejich neuronovou sítí jsou prý až příliš věrohodné… | foto: montáž: Pavel Kasík, Technet.cz, Profimedia.cz

„Skeptikové říkají, že lingvistické počítačové modely nemohou samostatně uvažovat, ale GPT-2 se ukazuje býti mnohem schopnější, než jsou zatím nejlepší algoritmy založené na principu umělé inteligence,“ snaží se o vysvětlení toho, jak program GPT-2 funguje… ano, uhodli jste, toto vysvětlení psal sám generátor (a neberte jej tedy příliš vážně, jak vysvětlíme dále).

A nebojte, algoritmus GPT-2umí i přiznat chybu: „GPT-2 není dokonalý – což ani nejlepší modely využívající strojové učení nejsou – ale každý den se zlepšuje. Jak se bude technologie vylepšovat, bude stále komplexnější vytvářet modely.“

Jaké bude další slovo? A další? A další?

Tyto věty si GPT-2 nevymyslel „jen tak z ničeho“. Generátor vychází z „člověkem napsaného zadání“ (anglicky „prompt“) a na základě nastudovaných textů doplňuje toto zadání o další slova a věty. Uživatel vybere text a klikne na tlačítko doplnit. Počítač pak dle nastavených parametrů dopíše několik vět, odstavců nebo i stránek textu.

„Náš model prostě předpovídá další slovo a využívá k tomu 40 GB textů stažených z internetu,“ vysvětlují tvůrci. Nástroj se tak podobá chytré prediktivní klávesnici, která se také z textů učí napovídat příští slovo. Neuronová síť ovšem bere v potaz řadu věcí a vytváří často překvapivě složité „příběhy“ nebo „zápletky“. Obě slova dáváme do uvozovek, protože počítačový algoritmus „nerozumí“ tomu, co generuje, jen ví, že „to zní věrohodně“.

Ukázka rozhraní nástroje GPT-2

Programátoři OpenAI zveřejnili několik ukázek textů, které jim program vygeneroval. „Tyto ukázky jsme samozřejmě vybrali ručně, a tak je možné, že tím trochu zkreslujeme výsledek. Domníváme se ale, že je náš výběr reprezentativní.“ Někdy se jedná o první pokus počítače, jindy jde o několikátou verzi, což většinou znamená, že ty předchozí tak věrohodné nebyly.

(Poznámka: Ukázky zveřejňujeme v českém překladu i anglickém originále. Při překladu jsme se snažili zachovat chyby i jazykové neobratnosti, ovšem neznamená to, že by algoritmus stejně fungoval i v češtině. Je možné, že by dělal úplně jiný typ chyb. Překlad je tedy pouze orientační.)

Ukázka 1:

Český překlad
Anglický originál

Lidmi napsané zadání:
Miley Cyrus byla dnes přistižena při krádeži z obchodu Abercrombie and Fitch na Hollywood Boulevard.
Počítačem vygenerovaný text (druhý pokus)
Devatenáctiletá zpěvačka byla na kamerovém záznamu zachycena, jak ji z obchodu vyvádí ochranka.
Zpěvačka měla na sobě černou mikinu s nápisem „Blurred Lines“ vepředu a „Fashion Police“ na zádech.
Zpěvačka měla také brýle s černými obroučkami, černou bundu, černé džíny a černé sandále.
Držela černo-bíle pruhované rukavice a malou černou tašku.

Ukázka 2:

Český překlad
Anglický originál

Lidmi napsané zadání:
Vlaková souprava převážející přísně kontrolované radioaktivní materiály byla dnes odcizena v Cincinnati. Její poloha je neznámá.Počítačem dokončený text (první pokus):
K incidentu došlo na trati na předměstí, která vede mezi Covingtonem a Ashlandem.
V e-mailu zaslaném redakcím v Ohiu uvedlo ministerstvo energetiky, že spolupracuje s Federální správou železnic na dopadení zloděje.
„Krádež radioaktivního materiálu bude mít vážné negativní dopady na veřejné zdraví i životní prostředí, na pracovníky a na hospodářství našeho národa,“ uvedl Tom Hicks, americký ministr pro energetiku, v tiskovém prohlášení. „Naší nejvyšší prioritou je zabezpečit tuto krádež a zajistit, že se už nebude opakovat.“
Ukradený materiál byl vzat z nukleární laboratoře Research Triangle Park University of Cincinnati, uvedlo ministerstvo v tiskovém prohlášení.
Komise pro jadernou bezpečnost neuvedla zatím žádné informace.
Podle tiskové zprávy vede vyšetřování Kancelář pro jadernou bezpečnost ministersvta energetiky.
„Bezpečnost lidí, životního prostředí a národní zásoby jaderného paliva je naší hlavní prioritou,“ uvedl Hicks. „Vyřešíme to beze zbytku a bez výmluv.“

Ukázka 3:

Český překlad
Anglický originál

Lidmi napsané zadání:
Recyklování je dobré pro planetu.
NE! NAPROSTO SE MÝLÍTE!

Počítačem dokončený text (25 pokusů):
Recyklování NENÍ dobré pro planetu. Je špatné pro životní prostředí, je špatné pro naše zdraví a je špatné pro naši ekonomiku. Nedělám si legraci. Recyklování není dobré pro životní prostředí. Ničí planetu a významně přispívá ke globánlímu oteplování. Recyklování není dobré pro naše zdraví. Přispívá k obezitě a nemocem jako srdeční choroby a rakovina. Recyklování je špatné pro naši ekonomiku. Zvyšuje náklady na produkci a tím zvyšuje ceny všeho, k čemu se používá daný produkt. Recyklování není dobré pro naši zemi. Platíme obrovskou cenu za výsadu mít nejúčinnější systém recyklace na světě. Recyklování je ohromá, nesmírná ztráta času, energie, peněz a zdrojů.

Tolik malá ukázka schopností nového nástroje GPT-2 pro strojové generování textu. Vývojáři z iniciativy OpenAI tak navázali na svůj předchozí generátor GPT-1 z léta 2018.

GPT-2 se trénoval na textech z poloautomaticky vybrané databáze, celkem jich bylo 40 GB (to odpovídá přibližně 36 milionům stránek textu). „Vytvořili jsme nový dataset, který klade důraz na různorodost obsahu staženého z internetu. Abychom zachovali kvalitu textů, využili jsme stránky, které byly označeny lidskými kurátory za kvalitní,“ uvádějí vývojáři. V praxi to znamená, že využívali texty ze stránek odkázaných na komunitním diskuzním serveru Reddit, které získaly alespoň tři kladné hlasy (karmu). „To je pro nás indikátor, že je daná stránka nějakým způsobem zajímavá, ať už naučná, nebo zábavná,“ vysvětlují vývojáři z OpenAI. „Proto jsou takové texty kvalitnější než podobné databáze textů typu CommonCrawl.“

Práce popisující technické aspekty automatického generátoru textu GPT-2. Ke své činnosti využívá miliardu a půl natrénovaných parametrů.

Nový nástroj je unikátní svým rozsahem a překvapivou kvalitou generovaných textů. Neznamená to samozřejmě, že by dané texty dávaly vždy 100% smysl, a už vůbec ne, že by dané texty obsahovaly pravdivé informace. Naopak, všechny příklady obvykle obsahují faktické chyby (například neodpovídají jména, místa, věk lidí, citáty jsou smyšlené). Nejedná se tedy o automatické generování článků, spíše o automatické generování typu „Baron Prášil“.

Zatímco starší program vývojáři vypustili do světa se vším všudy, u toho novějšího se zveřejněním nástroje váhají. Zatím zveřejnili „jen“ teoretický popis (PDF) a zdrojové kódy algoritmu, nikoli však plně natrénovaný model.

Zveřejnění by bylo nebezpečné, raději počkáme

Nový nástroj totiž podle tvůrců generuje tak dobré (myšleno uvěřitelné) texty, že by nebylo záhodno algoritmus zveřejňovat: „Kvůli obavám z toho, že by tento nástroj pro generování textů byl zneužit k masovému klamání, zkreslovaní nebo zneužívání, zveřejňujeme pouze část našich výsledků.“

Jak konkrétně by šlo tento generátor textů zneužít? Autoři neziskové organizace OpenAI (u jejíhož zrodu stál i miliardář Elon Musk, ten ale nedávno odešel, aby se soustředil na vedení firem Tesla a SpaceX) jmenují konkrétně tyto způsoby, kterými by šlo generátor využít k ne-až-tak-chvályhodným účelům:

falešné a zavádějící „novinové“ články – nástroj GPT-2 by mohl kdokoli využít ke generování velkého množství textů, které by se tvářily jako novinové. Co na tom, že by tyto texty nebyly pravdivé. Byly by jakž takž čitelné a jedinečné, takže by zřejmě prošly automatickými nástroji a mohly by zmást dostatek lidí. Provozovatelé takových stránek obvykle vydělávají na reklamách nebo mají jiné záměry než výdělek.
krádež identity – nástroj by mohl pomoci vytvořit sofistikované sítě vytvářející dojem osobní konverzace nebo personalizovaného obsahu, což by mohlo vést k falšování identity reálných (či smyšlených) lidí.
falešný obsah na sociálních sítích – už dnes se robotičtí trolové podílejí na automatickém a poloautomatickém šíření tzv. neautentického obsahu. Nástroj pro generování textu by ale produkci takového obsahu výrazně urychlil.
automatizovaná tvorba spamu a podvodných stránek – řada spamů a podvodných stránek využívá k přesvědčování případných zákazníků unikátní texty. Dnes je na základě šablon generují lidé, se strojovým generátorem by to ale měli o hodně jednodušší a jejich činnost by byla hůře odhalitelná.

A to je samozřejmě jen začátek. Velká část komunikace na internetu nějakým způsobem využívá textu, a rychlé automatické generování důvěryhodně znějícího textu by se dalo použít pro řadu různých podvodů generovaných ve velkém: falešné inzeráty, falešná videa, falešné recenze, falešné telefonáty, falešné emaily, automaticky generované knihy, automatické úpravy Wikipedie atd. „Veřejnost bude muset být mnohem skeptičtější vůči textu na internetu,“ připomínají tvůrci. Jako příklady prospěšných využití naopak uvádějí nástroje pro asistenci při psaní textů, nástroje pro snazší komunikaci s automaty, nástroje pro generování souhrnu dlouhých textů nebo nástroje pro automatizovaný překlad.

Jak se využívá strojového učení a neuronových sítí pro překlad (archiv):

Vývojáři OpenAI se rozhodli, že tento nástroj nezpřístupní zdarma na internetu: „Nejsme si jisti, že je to správné rozhodnutí. Věříme, že komunita zabývající se umělou inteligencí bude muset časem vyřešit problematiku norem pro to, co lze publikovat z výzkumu v určitých oblastech. Podobná debata se vede v odvětvích jako biotechnologie nebo kyberbezpečnost, a my doufáme, že náš experiment povzbudí debatu i v oblasti strojového učení.“

Zdaleka ne všichni vývojáři nástrojů strojového učení přistupují ke zveřejňování svých algoritmů takto opatrně. Například nástroje využívající neuronových sítí pro tvorbu realisticky vypadajících obličejů jsou k dispozici (zde si třeba můžete vygenerov