Všeobecný úvod do umelej inteligencie
Prečo umelá inteligencia diskriminuje
Autorka textu: Lucie Borovičková, odborný garant: Pavel Kordík
Termín predpojatosť (bias) označuje jav, kedy nesprávne pripravené alebo nevyvážené dáta spôsobia, že systémy umelej inteligencie dospejú k riešeniam, ktoré podporujú predsudky. Takéto riešenia môžu mať silný dopad na konkrétne ľudské životy.
Vráťme sa späť k príkladu z kapitoly Ako sa stroje učia, kde sme písali o aplikácii, ktorá rozpoznáva psov a mačky. V prípade, že by sme modelu vo fáze testovania predložili tisíc fotografií mačiek, ktoré odpočívajú doma na kresle, a tisíc fotiek psov, ktorí behajú vonku na tráve, tak by natrénovaný model pravdepodobne rozpoznal mačku chytajúcu motýľa na záhrade ako psa.
Prečo? Model by považoval za dôležitejšie vzory pozadia na fotografiách, pretože to obvykle tvorí väčšinu plochy obrázka. A modely nemajú žiadnu intuíciu, nevedia samy, čo je dôležité, a snažia sa od seba príklady oddeliť tým najjednoduchším možným spôsobom.
Dáta
Dáta hrajú pri tvorbe modelu veľkú rolu, ale je dôležité spomenúť, že predpojatosť (alebo tiež skreslenie) môže byť zanesená do modelu v ktorejkoľvek časti procesu strojového učenia. Od prvej chvíle, kedy ešte len analyzujeme problém a navrhujeme, akým spôsobom budeme postupovať pri jeho riešení, pri zbere dát, ich čistení a analyzovaní alebo aj pri nesprávnom použití modelu po jeho uverejnení (napr. v mobilnej alebo webovej aplikácii).
Typy predpojatosti
Rôzne zdroje uvádzajú rôzny počet spôsobov toho, ako môže byť AI model predpojatý. Táto kapitola vychádza zo štúdie z roku 2021 od autorov z MIT (zdroj 1, zdroj 2), ktorá spomína celkovo 7 rôznych typov predpojatosti. Prehľad o typoch predpojatosti a o tom, kde sa môžu objaviť, je prvým krokom na ceste k tvorbe nezaujatých modelov.
Svět, ve kterém žijeme, má chyby, a proto mohou i data, která z něho vychází, být vadná, ačkoli mohou být naprosto perfektně nasbíraná. Historická předpojatost jde často ruku v ruce například s upevňováním předsudků vůči určité skupině lidí. Často se jedná o genderové nebo rasové předsudky.
Vzorek dat od obyvatel Prahy pravděpodobně nebude správně reprezentovat Karvinou. Podobně nebude vzorek od obyvatel Prahy starý 50 let odpovídat dnešnímu obyvatelstvu. K reprezentační předpojatosti dochází při natrénování modelu na datech, kterou nedostatečně reprezentují skupinu lidí, pro které je model určený.
Pokud budeme chtít získat sadu dat reprezentující lidi ve věku 18 až 40 let, bude obsahovat určité minoritní skupiny. Např. kolem 5% těhotných žen. Je proto velice pravděpodobné, že model nebude fungovat tak dobře pro těhotné, protože měl méně dat, na kterých by se naučil.
Nejčastěji se tento typ objevuje, pokud se snažíme přibližně zachytit nějaký konstrukt (myšlenku nebo koncept) a příliš ho zjednodušíme. Například pokud nálepku „úspěšného studenta“ omezíme pouze na jeho prospěch ve škole. Nebo pokud se způsob měření liší v různých skupinách, od kterých sbíráme data.
Předpojatost při uvedení modelu do praxe
K tomuto typu může dojít při nesouladu záměru, ke kterému byl AI model vyvinut, a způsobu, jakým je AI model v praxi využíván.
Předpojatost získaná při učení modelu
Při tvorbě modelu musíme udělat rozhodnutí, např. volba účelové funkce, která upřednostní nějaké vyhodnocovací metriky na úkor jiných. A model bude mít větší míru falešně pozitivních výsledků, než by bylo žádoucí.
Předpojatost při hodnocení/vyhodnocování
Kvalita modelu je často určována porovnáním s benchmarkovými datasety (volně dostupné, velké datové sady). Problém nastává v momentě, kdy benchmarkové datasety obsahují historické, reprezentační předpojatosti nebo předpojatosti v měření. Snaha mít co nejvyšší přesnost na takovémto typu datasetu potom podporuje vývoj a uvedení do praxe modelů, které mají vysokou přesnost pouze na skupině dat reprezentované těmito datasety. (A tím posiluje obsažené typy předpojatostí.)
Předpojatost při seskupování
Pokud zkombinujeme datasety reprezentující skupiny lidí s rozdílným zázemím nebo kulturou, může dojít k tomu, že výsledný model nebude přijatelně reprezentovat ani jednu skupinu, nebo bude reprezentovat tu skupinu, které je v datasetu nejdominantnější.
Například:
Cukrovka se objevuje u Hispánců ve vyšší míře oproti ostatním a mají i vyšší riziko komplikací spojených s tímto onemocněním. Při tvorbě AI pro diagnózu nebo monitorování cukrovky je potřeba tuto nerovnost nějak ošetřit například přidáním etnicity mezi vstupní parametry, nebo vytvořením samostatného modelu pro různá etnika.
Předpojatost z nedbalosti
Pokud jsou historická data, ze kterých AI vychází, jasně předpojatá a my z nich vytvoříme AI model, bude předpojatý také. Tomuhle se říká „garbage in, garbage out“. Pokud naučím chatbota na konverzacích, které jsou rasistické a sexistické, bude v tomto duchu vést i nové konverzace.
Čo môžeme urobiť?
Otázka, ktorá je teda na mieste, znie: „Môžeme sa ich nejako zbaviť?“ A rýchla odpoveď znie: „Áno, čiastočne.“ Neexistuje nejaké univerzálne riešenie, ktoré by odstránilo predpojatosť spoľahlivo vždy a všade. Je dôležité premýšľať v kontexte konkrétneho zadania a poznať dataset.
Niektoré z odporúčaní, ako sa predpojatosti môžeme vyhnúť, sú: rozšírte dataset, zapojte do vývoja ľudí rôzneho pohlavia a národnosti, vylúčte z dát informácie, podľa ktorých by model mohol diskriminovať (pohlavie, národnosť, vek...) a model dostatočne otestujte, než ho nazdieľate verejnosti.
Napriek tomu sa aj pri dodržaní všetkých zásad model nemusí vydariť. Nič nie je dokonalé. Pokiaľ k tomu dôjde, je dôležité uznať chybu a snažiť sa ju napraviť dostupnými prostriedkami. Za pekný príklad si môžeme vziať Google. Ich model rozpoznával bezkontaktný teplomer na obrázku správne, pokiaľ ho držal človek svetlej pleti. Pokiaľ ho držal človek tmavej pleti, domnieval sa, že teplomer je zbraň. Po upozornení sa ospravedlnil a upravil model, aby sa vyhol týmto záverom. (zdroj)
Záverom
So zvyšujúcim sa vplyvom strojového učenia na naše životy je dôležité, aby sme sa na umelú inteligenciu boli schopní spoľahnúť s ohľadom na presnosť a nezaujatosť modelov. Všetci ľudia zapojení do procesu tvorby AI modelov by mali neustále pracovať na tom, aby zdokonaľovali časti, ktoré majú na starosti — zber dát, čistenie, tvorba modelu a vyhodnotenie výsledkov, a znižovali tak mieru predpojatosti svojich modelov.
Zároveň aj my by sme sa mali stať kritickými používateľmi technológií. Všímať si, aktívne posudzovať svet okolo nás, vzdelávať sa. Nikto z nás nedokáže predpovedať budúcnosť, ale môžeme ju spoluvytvárať tak, aby nám v nej bolo dobre.