Extrait du texte en description de la vidéo sur la chaîne YouTube Monsieur Phi :
On a un peu vite oublié à quel point BingChat (le chatbot de Microsoft fondé sur GPT-4) avait eu des comportements agressifs et erratiques à ses débuts. Aujourd'hui on va essayer de comprendre pourquoi ça s'est produit et on va parler de l'étrange prompt secret qui doit invoquer le "bon chatbot" (et pourquoi c'est très hasardeux comme approche, et pourquoi on peut difficilement faire autrement).
- 06: 28 de la vidéo :
Les données d'entraînement des modèles GPT 3 et 4 étant issues de ressources livresques ou de publications sur Internet récoltées jusqu'en 2021, Monsieur Phi avance comme postulat : « il va de soi que ces données d'entraînement sont quasi uniquement des textes écrits par des humains. »
Or, la création du laboratoire de recherche à l'origine de l'entreprise OpenAI (sic) remontant à 2015, un grand nombre de textes publiés et donc récoltés sur le web à l'époque étaient objectivement déjà des productions automatiques, issues de services déployés à grand échelle depuis le début des années 2000 : pour le grand public, "traductions" (sic) automatiques (par exemple depuis le lancement public de Google Translate en 2006, DeepL en 2009 (1), ou encore l'intégration du module de traduction automatique Content Translation à Wikimedia depuis 2013) (2)) et pour les entreprises américaines au moins, services en ligne de "génération de textes" tels que Jasper (2018, renommé "Jasper AI" en 2021) (3), largement utilisés pour les contenus marketing, commerciaux (e-mails notamment), de référencement web (SEO), et la communication à visée publicitaire sur les réseaux sociaux.
En 2024, on estime que la majeure partie des contenus du web public n'est déjà plus qu'essentiellement issue d'un traitement automatique et particulièrement redondante, notamment car elle est alimentée, en de multiples langues,
par un traitement de "traduction (sic) automatique" de piètre qualité sur la base de l'anglais. (4)
- 33:27 de la vidéo :
BingChat a certes accès à Internet contrairement à la base de données d'entraînement de ChatGPT qui est issue d'une extraction fixe, mais un LLM ou sa déclinaison en simulateur de Chatbot ne "consultent" pas de "résultats de recherche" et n'interrogent pas le web pour répondre au requêtes des utilisateurs. Le programme a certes accès à un corpus de base plus large, évolutif et mis à jour régulièrement, mais celui-ci ne sert toujours qu'à imiter des modèles de structure du langage humain : ordre et nombre crédibles de signes, alternance crédible de lettres, chiffres, signes de ponctuation et d'espaces afin qu'ils soient reconnus comme des "mots" de la langue cible par l'humain, etc. Les données d'entraînement des LLM ne contiennent pas d'informations pour le programme ; elles sont converties en chiffres et "consultées" sous cette forme uniquement pour la prédiction statistique appliquée à la simulation de génération de texte.
Bibliographie sélective :
1. [s.n.]. Companies: List of machine translation companies [Internet]. Machine Translate. 2024 [cité 3 mai 2024]. Disponible sur: https://machinetranslate.org/companies
2. Coll. Content translation [Internet]. MediaWiki. 2013 [cité 3 mai 2024]. Disponible sur: https://www.mediawiki.org/wiki/Content_translation
3. Meet Jasper, your AI assistant 👋 Write amazing content 10X faster with the #1 AI Content Platform. 2022 [cité 3 mai 2024]. Disponible sur: https://www.youtube.com/watch?v=6JTBoPhjqKg
4. Thompson B, Dhaliwal MP, Frisch P, Domhan T, Federico M. A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism [Internet]. arXiv; 2024 [cité 7 févr 2024]. Disponible sur: http://arxiv.org/abs/2401.05749
Référence bibliographique et accès à la vidéo : GPT-4 est-il incontrôlable ? 2023 [cité 4 mai 2023]. Disponible sur: https://www.youtube.com/watch?v=dDhTMIao-fM
Voir aussi
[Vidéo] De quoi ChatGPT est-il VRAIMENT capable ?