Actu

Découvrez toute l’actualité de l’agence My Media mais aussi de nos métiers : Achat media, Publicité, Business, Campagnes, Opérations spéciales et Digital !

  • Actu
  • Brave New World EP04 : Pourquoi le fact-checking ne peut pas gagner la guerre contre l’IA
26
Apr

Brave New World EP04 : Pourquoi le fact-checking ne peut pas gagner la guerre contre l’IA

Entre citations de “Notre-Dame de Paris” et rappels que Victor Hugo a aussi écrit “Les Misérables”, les références à l’écrivain furent très nombreuses dans les médias au cours des deux dernières semaines. La plateforme YouTube, quant à elle, a peut-être aussi rendu hommage à l’auteur en ajoutant sa touche théâtrale à la tragédie. Les utilisateurs situés aux Etats-Unis ou en Corée du Sud ont vu apparaître en bas de la vidéo diffusant le live de Paris un bandeau renvoyant vers l’Encyclopedia Britannica et associant l’incendie aux attentats du 11 septembre. L’algorithme de fact-checking automatisé de la plateforme avait trouvé un rapport direct entre les deux événements. Le buzz autour de la toute-puissance des algorithmes enflamme l’espoir que l’IA pourrait apporter une solution technologique à ce qui est avant tout un problème technique. Il convient donc de replacer le débat dans le contexte des promesses et des limites de l’automatisation de la procédure. Sur cette scène, un coup de théâtre : en février dernier, les chercheurs de l’Open AI ont annoncé avoir créé un générateur de texte très performant capable d’écrire en prose. Jugé trop dangereux à cause de son potentiel à générer de fausses nouvelles, le programme AI n’a pas été rendu public.

Un raisonnement conséquentialiste

Nous qualifions les fake news de problème technologique puisque leur impact sociétal passe par la distribution et la personnalisation – les caractéristiques qui rendent les technologies de communication plus efficaces ont aussi les effets les plus pervers. En l’absence de celles-ci, l’existence des fake news en soi n’est pas un problème. Les mensonges existent depuis toujours et ils ne deviennent un souci que lorsque que leur abondance nous empêche de faire la distinction entre fiction et réalité. Par conséquent, si les infox sont jugées selon leur impact sur la société, toute alternative visant à lutter contre les fake news doit nécessairement atténuer l’impact de celles-ci. Dans cette optique, des réponses comme les applications ou les sites de fact-checking à l’instar de Checknews.fr en France ou Politifact aux US ne sont pas tout à fait la solution. Deux facteurs sont clés dans cette évaluation : le temps nécessaire au fact-checking et la couverture des “fake news” versus celle des “news checkées”. Au moment où les corrections sont faites, les fausses nouvelles auront déjà touché un nombre important de personnes et tant que l’accès aux “vraies nouvelles” se fait de façon active, il n’existe aucune garantie que les personnes qui lisent ces corrections sont les mêmes.

Source checking vs fact-checking

Le principe au cœur des initiatives que l’on a vu se multiplier ces derniers temps est plutôt celui de source checking que celui de fact checking : la labellisation des sites jugés fiables. D’un côté, les éditeurs de presse réaffirment que vérifier ses sources est un principe de base du journalisme donc ces labels revalorisent à juste titre la marque média. D’un autre côté, dans un Factsheet publié en février 2018 par le Reuters Institute for the The Study of Journalism, chercheurs et praticiens du fact-checking soulignent que le calcul des scores qui évaluent essentiellement la crédibilité de la source ne peut pas se substituer à l’évaluation de la justesse factuelle des affirmations. Ce n’est pas que sur le plan philosophique qu’il n’est pas souhaitable que la hiérarchie des affirmations soit décidée seulement en fonction de l’autorité de la source, notamment parce que même les sources officielles peuvent se tromper. Une erreur commise par une source comme l’Office National des statistiques est donc d’autant plus nocive que la source est jugée fiable. Il s’avère donc pratique que les modèles sur lesquels les décisions des IA sont basées soient une combinaison d’algorithmes qui prennent en compte l’autorité de la source et d’autres qui ne le font pas.

Promesses et limites du fact-checking automatisé

Il y a trois éléments fondamentaux au cœur du fact-checking automatisé (FCA) : l’identification des informations erronées, la vérification de celles-ci ou la facilitation de la vérification par un journaliste et la correction (qui comporte l’envoi des clarifications cross-media).

Pour l’instant, c’est dans le domaine de l’identification des déclarations frauduleuses que la recherche est la plus avancée. Une combinaison de machine learning et de traitement automatique du langage naturel permet d’identifier avec succès les allégations factuelles. Néanmoins, les sous-entendus ainsi que les affirmations factuelles intégrées dans des structures grammaticales complexes échappent toujours aux FCAs. A cette liste on pourrait également rajouter des éléments comme l’ironie, la fausse causalité établie entre deux faits ou la compréhension de la façon dont un sujet est cadré par l’auteur. Le fameux “framing” est l’un des plus grands reproches fait aux médias traditionnels, puisque les solutions envisagées découlent de la manière dont un débat est cadré (par exemple si l’on pense que la sécurité nationale est essentiellement liée au terrorisme, l’état d’urgence s’impose comme la solution). Même à l’avenir, selon ce Factsheet, il reste peu probable que la recherche dans le domaine du FCA avancera au point où l’activité sera entièrement déléguée aux algorithmes, leur plus importante contribution étant donc celle de faciliter le travail des humains. Toutefois, si les fausses nouvelles se multiplient de façon exponentielle, elles dépasseront la capacité des journalistes à le vérifier et c’est justement cette hypothèse qui devient réalité avec la découverte de l’IA qui génère des fake news.

Ceux qui se positionnent en faveur du rendu publique de ce code par Open AI mettent un avant un argument qui mérite d’être discuté : si l’on connaît la façon dont les fausse nouvelles sont produites, on aurait également les moyens techniques de les repérer. Mit Technology Review nous éclaire à ce sujet. Ce qui est possible pour le moment c’est de créer un modèle qui, lorsqu’il reçoit un texte, calcule la probabilité d’avoir écrit lui-même le mot suivant dans la position n+1. En fonction du score attribué, on peut déterminer si le texte a été écrit par un humain ou une IA. La limite à de telles initiatives est qu’elles ne parviennent pas à repérer avec succès les textes conçus par des algorithmes basés sur des principes différents d’eux-mêmes.

En effet, l’aspect le plus intéressant des débats autour de l’IA est qu’en partant des problématiques technologiques, ils nous renvoient à des questions philosophiques comme : « qu’est ce qui est propre à l’homme et qui ne peut pas être imité par la machine ? ». La compréhension du sens du langage semble être parmi ces caractéristiques. Pour l’instant, même de simples phrases comme « Entre une boîte aux chaussures et la lune, laquelle est plus grande ? » posent des problèmes à l’algorithme. L’essor des tendances comme le marketing conversationnel risque de compliquer encore plus le paysage linguistique puisque nous avons tendance à utiliser des pronoms faisant référence à des idées énoncées antérieurement dans la conversation.

Mettre en contexte, porter un jugement, synthétiser des informations de multiples sources sont des éléments indispensables au fact checking. A titre d’exemple, même une statistique parfaitement exacte peut désinformer dans un contexte inadéquat. Par ailleurs, faire un jugement de valeur et distinguer de fausses informations de points de vue légitimes sont souvent un sujet polémique et la controverse qui l’entoure est nécessairement reporté dans le FCA. En pratique, le fact-checking entièrement automatisé est limité aux expériences au sein d’univers restreints à des données statistiques. Cela nous indique qu’un autre frein au développement du fact-checking automatisé est le manque de disponibilité de données officielles sous un format accessible aux développeurs.

AE