Transparentnost, která je zbytečná. Twitter zveřejnil kód algoritmu, neříká ale skoro nic podstatného
Elon Musk se rád považuje za proponenta transparentnosti a svobody projevu, a tak zveřejnil část kódu Twitteru. Odpovědi na klíčové otázky ale chybí.
Elon Musk, šéf Tesly a SpaceX
Komentář Jiřího Svobody: Když loni Elon Musk kupoval Twitter, dělal to podle svých slov kvůli tomu, že chtěl vytvořit svobodné médium. Sám se označuje za „absolutistu svobody projevu“, tvrdí, že podporuje transparentnost, a tak zároveň slíbil, že zveřejní algoritmus sociální sítě, na jehož základě se řadí příspěvky, které pak uživatel vidí. Jak slíbil, tak také – alespoň zčásti – nakonec učinil a kód visí na platformě GitHub.
Mnozí se na tento okamžik těšili. Doporučovací algoritmy sociálních sítí jsou zpravidla neprůhledné černé skříňky a jejich otevření by mělo pomoct přijít na kloub palčivým otázkám. Třeba proč se někteří uživatelé dostávají do dezinformacemi protkaných informačních bublin nebo proč naopak některé příspěvky přes svou nepochybnou relevanci zapadnou v nekonečném proudu tweetů. A také proč se vám na twitterové zdi objevují stále dokola videa s roztomilými kočičkami, přestože jste to nikdy nechtěli.
Sociální sítě mají dobré obchodní důvody, proč tyto algoritmy nechávat utajené – je to koneckonců jeden z hlavních nástrojů, na kterých vydělávají. Zveřejnění doporučovacího algoritmu Twitteru by tak bylo revolučním momentem. Jenže kdo doufal v přelom, nakonec bude zklamaný. Transparentnost algoritmu totiž může znamenat mnoho věcí.
Twitter skutečně na svém webu popisuje, jak doporučovací algoritmus na stránce zvané „Pro vás“ funguje. Proces, jakým se na ní tweety řadí, rozděluje na tři hlavní fáze. Zaprvé takzvaný candidate sourcing, v němž Twitter dává dohromady tweety z několika zdrojů, přičemž polovina je ze sledovaných účtů. V této fázi výběru přichází do hry také první algoritmický model, takzvaný Real Graph, který predikuje pravděpodobnost interakce mezi dvěma uživateli. Zadruhé se relevantní tweety pomocí strojového učení seřadí. A za třetí Twitter vyfiltruje například tweety ze zablokovaných účtů. Výsledek tohoto procesu pak zamíří na displeje uživatelů.
Algoritmus Twitteru zajišťuje i to, aby se vám nezobrazovalo příliš mnoho tweetů od jednoho autora nebo aby doporučil „férový“ balanc obsahu. Vše je zajištěno pomocí neuronové sítě s přibližně 48 miliony parametrů, která je neustále trénována s cílem celkově většího počtu lajků, retweetů nebo odpovědí na tweet.
Nastartujte svou kariéru
Více na CzechCrunch JobsTechnických detailů Twitter popisuje vícero, ale na zmíněné otázky, které tíží třeba odborníky v oblastech sociologie či mediálních studií, v nich odpověď nenajdete. Snad by tedy mohl více napovědět hluboký pohled do kódu samotného?
Krátce po jeho zveřejnění byly k vidění zdánlivě fantastické titulky – například, že Twitter dává speciální status tweetům Elona Muska a zvyšuje jejich visibilitu. Nebo že naopak potlačuje tweety s ukrajinskou válečnou tematikou. Obě zprávy se však ukázaly být zavádějící, patrně z důvodu, že prostý pohled do kódu neřekne ani zkušenému analytikovi bez kontextu mnoho.
Paradoxně asi nejzajímavější nová informace se nenachází v kódu, ale v jednom z přiložených textových souborů. Ten pojednává o části algoritmu, takzvaném Heavy Rankeru, který tweety řadí za sebe ve zmíněném třetím kroku. Jak popsal bývalý datový analytik Facebooku Jeff Allen, odhalené informace zjednodušeně znamenají, že „hodnota“ tweetu je zvyšována různými formami interakce – přičemž lajk má hodnotu poloviny retweetu, odpověď má hodnotu 27 retweetů a odpověď s reakcí autora tweetu má hodnotu dokonce 75 retweetů. Jinými slovy, odpovědi na tweet jsou nejdůležitějším faktorem, pokud chcete, aby váš příspěvek byl viditelný co možná největšímu počtu lidí.
According to the Heavy Ranker readme, it looks like this is the “For you” feed ranking formula is
Each “is_X” is a predicted probability the user will take that action on the Tweet.
Replies are the most important signal. Very similar to MSI for FB.https://t.co/Bmv7qg4voc pic.twitter.com/lWfaUboT6q
— Jeff Allen (@jeff4llen) March 31, 2023
Tím ale zajímavé informace prakticky končí. Problém shrnul Sol Messing, jenž je odborným asistentem na Newyorské univerzitě v Centru pro sociální média a politiku: „Samotný kód je k dispozici, ale scházejí v něm konkrétní údaje – chybí nebo jsou abstrahovány klíčové parametry, sady funkcí a váhy modelů. A samozřejmě data,“ popisuje s tím, že všechny tyto údaje by byly potřeba pro to, abychom skutečně věděli, jak algoritmus funguje.
Twitter tak „transparentně“ pojmenoval modely, které používá, vysvětlil složitý systém řazení a zveřejnil část kódu, která, ačkoliv obsahuje tisíce řádků, je podle mnohých značně oklešťená. Jakou váhu tyto modely mají, podle jakých číselných hodnot fungují nebo co je to v případě Twitteru „férový balanc obsahu“, se nedozvíme. Informace zkrátka nejdou dost do hloubky na to, abychom mohli konečně přijít na kloub třeba problému informačních bublin.
Jedná se tak o typ transparentnosti, která je samoúčelná. Není to nový problém – vědci jej identifikovali a zevrubně vyzkoumali už v minulé dekádě. Kupříkladu Mike Ananny a Kate Crawfordová už v roce 2016 varovali před tím, co lze vidět teď v praxi v případě Twitteru – že snahy o transparentnost mohou prioritizovat „vidění“ algoritmů před jejich porozuměním.
Transparentnost jako zástěrka
Výzkumníci zároveň podotýkají, že transparentnost nemá příliš význam bez následné zákonné odpovědnosti a vymahatelnosti. Jeden by tak mohl kvitovat třeba evropský Akt o digitálních službách, který by měl už letos mimo jiné přimět velké platformy, aby prováděly audity svých algoritmů třetími stranami.
Na druhou stranu se v minulosti podobnou – samoúčelnou „transparentností“ – a technickým slovníkem podařilo třeba TikToku na čas odrazit kritiku i ze strany zákonodárců. Opakovaná slyšení technologických ředitelů před senátními komisemi v USA zároveň nedávají důvod se domnívat, že by politici kdovíjak technologii rozuměli, a tak je otázka vymahatelnosti značně na vážkách.
Podle německé analytičky Brandi Geurkinkové je navíc postup Twitteru ve skutečnosti zástěrkou, která má odvést pozornost od kroků, které naopak transparentnost snižují. Tím nejvýraznějším bylo uzavření veřejného rozhraní (API), které umožňovalo zdarma výzkumníkům zkoumat obsah na Twitteru. Nově za něj musí platit astronomické částky – vyšší desítky až stovky tisíc dolarů měsíčně.
Ve výsledku tak nejde jen o to, že by Elon Musk musel balancovat na kladině mezi transparentností a nutným utajením algoritmu pro obchodní zájmy. Jeden z nejbohatších lidí planety naopak postupuje tak, že transparentnost jen předstírá a dokonce jí aktivně zabraňuje. To je docela málo na člověka, co se dušoval, že chce vytvořit z Twitteru jediné skutečně svobodné médium.