TextGain strijdt in 24 talen tegen haatspraak
Het Antwerpse bedrijf TextGain gaat een nieuw AI-instrument bouwen dat onlinehaatspraak detecteert in alle officiële Europese talen.
De klus zal twaalf maanden duren, en uitmonden in een large language model dat haatspraak in 24 talen kan herkennen en verwerken. Voor TextGain, een spin-off van de Universiteit Antwerpen, is dat een prestigieuze opdracht. Die komt voort uit een prijsvraag die werd uitgeschreven door de Europese Unie, en waaraan 94 bedrijven deelnamen. TextGain is een van de vier bedrijven die een contract in de wacht sleepten. Het kan beschikken over een budget van 250.000 euro, aangevuld met 2 miljoen uren ontwikkeltijd op de Europese supercomputer Lumi, die in Finland staat.
Het is een mooie referentie voor TextGain, dat al negen jaar actief is in de wereld van ‘AI for good’. Onder die noemer vallen toepassingen van kunstmatige intelligentie die niet als belangrijkste doel hebben om geld te genereren, maar veeleer de wereld willen verbeteren. TextGain richtte zich na de aanslagen in Brussel en Zaventem toe op het herkennen van jihadistische propaganda, maar bestrijdt nu ook andere vormen van haatspraak, zoals racisme en seksisme. Het werkt mee aan het EU Observatory of online hate.
Culturele context
“Zo’n large language model moeten we van nul opbouwen”, zegt ceo Guy De Pauw. “We doen dat met behulp van een groep zogenoemde annotatoren, die in verschillende landen helpen om de culturele achtergronden van toxisch taalgebruik in kaart te brengen. Bij scheldwoorden hangt het vaak van de context af of ze toxisch gebruikt worden. In Nederland wordt het woord ‘kanker’ soms gebruikt in een toxische context, maar heeft het uiteraard ook een niet-toxische betekenis.”
“Er is een verschil tussen schrijven dat je tegen immigratie bent, en oproepen om een asielcentrum in brand te steken. Het algoritme moet dat onderscheid kunnen maken”
Guy De Pauw
Ceo Textgain
Het illustreert dat de opdracht delicaat is. Voor je het weet, worden zaken als toxisch bestempeld die het niet zijn. De Pauw is zich daarvan bewust. “Er is een verschil tussen schrijven dat je tegen immigratie bent, en oproepen om een vluchtelingencentrum in brand te steken. Het gaat erom dat onderscheid te kunnen maken. Als ons programma daartoe in staat is, kan het interessant zijn voor bijvoorbeeld veiligheidsdiensten. Het eindproduct zal iets zijn waarover geen enkel ander bedrijf beschikt, omdat het bij de herkenning van haatspraak rekening zal houden met de culturele context. Dat is een enorme troef voor ons bedrijf.” Al zegt hij dat het model ook gevaren met zich mee kan brengen. “Een model dat zoveel haatspraak heeft gezien, kan het natuurlijk ook produceren. In die zin kan het in de verkeerde handen een verschrikkelijk monster zijn.”
Actief afwijzen
TextGain draait nu vooral op overheidsopdrachten. Ook de Vlaamse
overheid was al klant. Vlaamse steden en gemeenten kunnen gebruikmaken van ‘DeDuider’, een detectiesysteem dat onlinetrends in haatspraak herkent op onlineplatforms. Er zijn ook commerciële projecten. Zo ligt TextGain mee aan de basis van Rhetoric, een programma dat mediabedrijven gebruiken om lezers te betrekken bij actuele discussies. Ook De Standaard gebruikt Rhetoric. “Daarin hebben we onze expertise over haatspraak verwerkt”, zegt De Pauw. “Als een Rhetoric-gebruiker over de schreef gaat, volgt een mededeling dat de bijdrage niet aanvaardbaar is.” Een ander commercieel project is dochterbedrijf Klare.ai, dat kunstmatige intelligentie gebruikt om documenten en andere kennisbronnen geautomatiseerd te verwerken.
TextGain is volledig in handen van zijn oprichters. “Er is geen extern kapitaal. Dat geeft ons de vrijheid om de principes van ‘AI for good’ zo goed mogelijk toe te passen”, legt De Pauw uit.