Site pictogram stil gehouden

Waarom mensen boos worden als AI giftige spraak markeert Nieuw onderzoek werpt licht op waarom kunstmatige intelligentie identificatie van giftige spraak op internet mensen vaak frustreert, ondanks hoge scores op technische tests. Het grootste probleem: er is een enorm verschil tussen het evalueren van meer traditionele AI-taken, zoals het herkennen van gesproken taal, en de veel rommeligere taak om haatzaaiende uitlatingen , intimidatie of verkeerde informatie te identificeren, vooral in de huidige gepolariseerde omgeving. "Het lijkt alsof de modellen bijna perfecte scores krijgen, dus sommige mensen denken dat ze ze kunnen gebruiken als een soort zwarte doos om te testen op toxiciteit", zegt Mitchell Gordon, een promovendus in computerwetenschappen aan de Stanford University die werkte aan de projecteren. “Maar dat is niet het geval. Ze evalueren deze modellen met benaderingen die goed werken als de antwoorden redelijk duidelijk zijn, zoals herkennen of 'java' koffie betekent of de computertaal, maar dit zijn taken waar de antwoorden niet duidelijk zijn." Facebook zegt dat zijn kunstmatige-intelligentiemodellen in de laatste drie maanden van 2020 27 miljoen haatzaaiende uitlatingen hebben geïdentificeerd en verwijderd. In 97% van de gevallen ondernamen de systemen actie voordat mensen de berichten zelfs maar hadden gemarkeerd. Dat is een enorme vooruitgang, en alle andere grote sociale-mediaplatforms gebruiken op vergelijkbare manieren AI-aangedreven systemen. Aangezien mensen elke dag honderden miljoenen items posten, van opmerkingen en memes tot artikelen, is er geen echt alternatief. Geen enkel leger van menselijke moderators kon het alleen bijbenen. Het team hoopt dat hun onderzoek de kloof zal verlichten tussen wat ontwikkelaars denken dat ze bereiken en de realiteit – en hen misschien zal helpen systemen te ontwikkelen die bedachtzamer omgaan met de inherente meningsverschillen rond giftige spraak. Zelfs mensen kunnen het er niet mee eens zijn Er zijn geen eenvoudige oplossingen, omdat er nooit unanieme overeenstemming zal zijn over zeer omstreden kwesties. Om de zaken ingewikkelder te maken, zijn mensen vaak ambivalent en inconsistent over hoe ze reageren op een bepaald stuk inhoud. In één onderzoek bereikten menselijke annotators bijvoorbeeld zelden overeenstemming toen hen werd gevraagd om tweets te labelen die woorden uit een lexicon van haatspraak bevatten. Slechts 5% van de tweets werd door een meerderheid erkend als haatspraak, terwijl slechts 1,3% unanieme uitspraken ontving. In een onderzoek naar het herkennen van verkeerde informatie, waarin mensen uitspraken kregen over ogenschijnlijk ware gebeurtenissen, was slechts 70% het erover eens of de meeste gebeurtenissen wel of niet hadden plaatsgevonden. Ondanks deze uitdaging voor menselijke moderators, behalen conventionele AI-modellen hoge scores bij het herkennen van giftige spraak – .95 "ROCAUC" – een populaire maatstaf voor het evalueren van AI-modellen waarbij 0.5 puur gissen en 1.0 betekent perfecte prestaties. Maar het Stanford-team ontdekte dat de echte score veel lager is – maximaal 0,73 – als je rekening houdt met de onenigheid tussen menselijke annotators. Giftige spraak spotten In een nieuwe studie beoordeelt het team de prestaties van de huidige AI-modellen opnieuw door een nauwkeurigere meting te krijgen van wat mensen echt geloven en hoeveel ze het onderling oneens zijn. Michael Bernstein en Tatsunori Hashimoto, universitair hoofddocent en assistent-professoren computerwetenschappen en faculteitsleden van het Stanford Institute for Human-Centered Artificial Intelligence (HAI) hielden toezicht op het onderzoek. Om een betere meting te krijgen van de werkelijkheidsbeelden, ontwikkelden de onderzoekers een algoritme om de 'ruis' – ambivalentie, inconsistentie en misverstanden – uit de manier waarop mensen dingen als toxiciteit bestempelen, eruit te filteren, waardoor een schatting wordt gemaakt van de hoeveelheid echte onenigheid. Ze richtten zich op hoe herhaaldelijk elke annotator hetzelfde soort taal op dezelfde manier labelde. De meest consistente of dominante reacties werden wat de onderzoekers 'primaire labels' noemden, die de onderzoekers vervolgens gebruikten als een nauwkeurigere dataset die meer van het ware scala aan meningen over potentiële giftige inhoud vastlegde. Het team gebruikte die benadering vervolgens om datasets te verfijnen die veel worden gebruikt om AI-modellen te trainen in het opsporen van toxiciteit, verkeerde informatie en pornografie. Door bestaande AI-statistieken toe te passen op deze nieuwe "onenigheid-gecorrigeerde" datasets, onthulden de onderzoekers dramatisch minder vertrouwen over beslissingen in elke categorie. In plaats van op alle fronten bijna perfecte scores te behalen, behaalden de AI-modellen slechts 0,73 ROCAUC bij het classificeren van toxiciteit en 62% nauwkeurigheid bij het labelen van verkeerde informatie. Zelfs voor pornografie – zoals in "Ik weet het wanneer ik het zie" – was de nauwkeurigheid slechts 0,79. Controverse is onvermijdelijk Gordon zegt dat AI-modellen, die uiteindelijk één enkele beslissing moeten nemen, haatspraak of cyberpesten nooit naar ieders tevredenheid zullen beoordelen. Er zal altijd grote onenigheid zijn. Door menselijke annotators preciezere definities van haatspraak te geven, wordt het probleem misschien ook niet opgelost, omdat mensen uiteindelijk hun echte opvattingen onderdrukken om het 'juiste' antwoord te geven. Maar als sociale-mediaplatforms een nauwkeuriger beeld hebben van wat mensen echt geloven, en ook van welke groepen bepaalde opvattingen hebben, kunnen ze systemen ontwerpen die beter geïnformeerde en opzettelijke beslissingen nemen. Uiteindelijk, zo suggereert Gordon, zullen zowel annotators als leidinggevenden van sociale media waardeoordelen moeten vellen in de wetenschap dat veel beslissingen altijd controversieel zullen zijn. “Gaat dit de meningsverschillen in de samenleving oplossen? Nee”, zegt Gordon. “De vraag is wat je kunt doen om mensen minder ongelukkig te maken. Gezien het feit dat je sommige mensen ongelukkig moet maken, is er dan een betere manier om na te denken over wie je ongelukkig maakt?” Andere co-auteurs van het artikel zijn onderzoekers van Stanford en Apple Inc. Bron: Stanford University Het bericht Waarom mensen boos worden als AI toxische spraak markeert verscheen eerst op Futurity .

Bron

Nieuw onderzoek werpt licht op waarom kunstmatige intelligentie identificatie van giftige spraak op internet mensen vaak frustreert, ondanks hoge scores op technische tests.

Het grootste probleem: er is een enorm verschil tussen het evalueren van meer traditionele AI-taken, zoals het herkennen van gesproken taal, en de veel rommeligere taak om haatzaaiende uitlatingen , intimidatie of verkeerde informatie te identificeren, vooral in de huidige gepolariseerde omgeving.

"Het lijkt alsof de modellen bijna perfecte scores krijgen, dus sommige mensen denken dat ze ze kunnen gebruiken als een soort zwarte doos om te testen op toxiciteit", zegt Mitchell Gordon, een promovendus in computerwetenschappen aan de Stanford University die werkte aan de projecteren. “Maar dat is niet het geval. Ze evalueren deze modellen met benaderingen die goed werken als de antwoorden redelijk duidelijk zijn, zoals herkennen of 'java' koffie betekent of de computertaal, maar dit zijn taken waar de antwoorden niet duidelijk zijn."

Facebook zegt dat zijn kunstmatige-intelligentiemodellen in de laatste drie maanden van 2020 27 miljoen haatzaaiende uitlatingen hebben geïdentificeerd en verwijderd. In 97% van de gevallen ondernamen de systemen actie voordat mensen de berichten zelfs maar hadden gemarkeerd.

Dat is een enorme vooruitgang, en alle andere grote sociale-mediaplatforms gebruiken op vergelijkbare manieren AI-aangedreven systemen. Aangezien mensen elke dag honderden miljoenen items posten, van opmerkingen en memes tot artikelen, is er geen echt alternatief. Geen enkel leger van menselijke moderators kon het alleen bijbenen.

Het team hoopt dat hun onderzoek de kloof zal verlichten tussen wat ontwikkelaars denken dat ze bereiken en de realiteit – en hen misschien zal helpen systemen te ontwikkelen die bedachtzamer omgaan met de inherente meningsverschillen rond giftige spraak.

Zelfs mensen kunnen het er niet mee eens zijn

Er zijn geen eenvoudige oplossingen, omdat er nooit unanieme overeenstemming zal zijn over zeer omstreden kwesties. Om de zaken ingewikkelder te maken, zijn mensen vaak ambivalent en inconsistent over hoe ze reageren op een bepaald stuk inhoud.

In één onderzoek bereikten menselijke annotators bijvoorbeeld zelden overeenstemming toen hen werd gevraagd om tweets te labelen die woorden uit een lexicon van haatspraak bevatten. Slechts 5% van de tweets werd door een meerderheid erkend als haatspraak, terwijl slechts 1,3% unanieme uitspraken ontving. In een onderzoek naar het herkennen van verkeerde informatie, waarin mensen uitspraken kregen over ogenschijnlijk ware gebeurtenissen, was slechts 70% het erover eens of de meeste gebeurtenissen wel of niet hadden plaatsgevonden.

Ondanks deze uitdaging voor menselijke moderators, behalen conventionele AI-modellen hoge scores bij het herkennen van giftige spraak – .95 "ROCAUC" – een populaire maatstaf voor het evalueren van AI-modellen waarbij 0.5 puur gissen en 1.0 betekent perfecte prestaties. Maar het Stanford-team ontdekte dat de echte score veel lager is – maximaal 0,73 – als je rekening houdt met de onenigheid tussen menselijke annotators.

Giftige spraak spotten

In een nieuwe studie beoordeelt het team de prestaties van de huidige AI-modellen opnieuw door een nauwkeurigere meting te krijgen van wat mensen echt geloven en hoeveel ze het onderling oneens zijn.

Michael Bernstein en Tatsunori Hashimoto, universitair hoofddocent en assistent-professoren computerwetenschappen en faculteitsleden van het Stanford Institute for Human-Centered Artificial Intelligence (HAI) hielden toezicht op het onderzoek.

Om een betere meting te krijgen van de werkelijkheidsbeelden, ontwikkelden de onderzoekers een algoritme om de 'ruis' – ambivalentie, inconsistentie en misverstanden – uit de manier waarop mensen dingen als toxiciteit bestempelen, eruit te filteren, waardoor een schatting wordt gemaakt van de hoeveelheid echte onenigheid. Ze richtten zich op hoe herhaaldelijk elke annotator hetzelfde soort taal op dezelfde manier labelde. De meest consistente of dominante reacties werden wat de onderzoekers 'primaire labels' noemden, die de onderzoekers vervolgens gebruikten als een nauwkeurigere dataset die meer van het ware scala aan meningen over potentiële giftige inhoud vastlegde.

Het team gebruikte die benadering vervolgens om datasets te verfijnen die veel worden gebruikt om AI-modellen te trainen in het opsporen van toxiciteit, verkeerde informatie en pornografie. Door bestaande AI-statistieken toe te passen op deze nieuwe "onenigheid-gecorrigeerde" datasets, onthulden de onderzoekers dramatisch minder vertrouwen over beslissingen in elke categorie. In plaats van op alle fronten bijna perfecte scores te behalen, behaalden de AI-modellen slechts 0,73 ROCAUC bij het classificeren van toxiciteit en 62% nauwkeurigheid bij het labelen van verkeerde informatie. Zelfs voor pornografie – zoals in "Ik weet het wanneer ik het zie" – was de nauwkeurigheid slechts 0,79.

Controverse is onvermijdelijk

Gordon zegt dat AI-modellen, die uiteindelijk één enkele beslissing moeten nemen, haatspraak of cyberpesten nooit naar ieders tevredenheid zullen beoordelen. Er zal altijd grote onenigheid zijn. Door menselijke annotators preciezere definities van haatspraak te geven, wordt het probleem misschien ook niet opgelost, omdat mensen uiteindelijk hun echte opvattingen onderdrukken om het 'juiste' antwoord te geven.

Maar als sociale-mediaplatforms een nauwkeuriger beeld hebben van wat mensen echt geloven, en ook van welke groepen bepaalde opvattingen hebben, kunnen ze systemen ontwerpen die beter geïnformeerde en opzettelijke beslissingen nemen.

Uiteindelijk, zo suggereert Gordon, zullen zowel annotators als leidinggevenden op het gebied van sociale media een waardeoordeel moeten vellen in de wetenschap dat veel beslissingen altijd controversieel zullen zijn.

“Gaat dit de meningsverschillen in de samenleving oplossen? Nee”, zegt Gordon. “De vraag is wat je kunt doen om mensen minder ongelukkig te maken. Gezien het feit dat je sommige mensen ongelukkig moet maken, is er dan een betere manier om na te denken over wie je ongelukkig maakt?”

Andere co-auteurs van het artikel zijn onderzoekers van Stanford en Apple Inc.

Bron: Stanford University

Het bericht Waarom mensen boos worden als AI toxische spraak markeert verscheen eerst op Futurity .

Mobiele versie afsluiten