Humanity's Last Exam : le test ultime qui mesure l'intelligence des IA

Temps de lecture : 17 min

Points clés à retenir

Humanity’s Last Exam (HLE) : le benchmark le plus difficile jamais conçu pour l’IA, avec 2500 questions expertes.
Scores faibles : les modèles de pointe (GPT-4, Claude, Gemini) plafonnent sous les 10 % de bonnes réponses.
3000 experts mondiaux ont contribué, issus de 500 institutions dans 50 pays – cagnotte de 500 000 $.
Implications réglementaires : HLE sert déjà de référence pour la gouvernance et la sécurité de l’IA.

Sommaire

Introduction : pourquoi un nouveau test pour l’IA ?

Seuls les modèles d’IA les plus avancés obtiennent moins de 10 % de bonnes réponses à ce test conçu par 1000 experts mondiaux : bienvenue dans l’univers de Humanity’s Last Exam. Les benchmarks traditionnels comme MMLU sont saturés – les IA y atteignent 90 % de réussite, masquant leurs véritables limites. Il devient impossible de distinguer les progrès réels des simples effets de mémoire. Humanity’s Last Exam a été créé pour relever ce défi.

De MMLU à la saturation

Le benchmark MMLU (Massive Multitask Language Understanding), publié en 2021, mesurait les connaissances générales des modèles sur 57 disciplines. En 2024, les meilleurs systèmes dépassent les 90 % – un score qui ne permet plus de discriminer entre une vraie compréhension et une mémorisation statistique. Même situation pour GSM8K (mathématiques) ou HumanEval (code). La communauté scientifique parle de « saturation des benchmarks ».

Face à cette inflation de scores, le besoin d’un test de raisonnement plus exigeant est devenu urgent. C’est dans ce contexte que Dan Hendrycks, directeur du Centre pour la Sécurité de l’IA, a lancé l’idée d’un « dernier examen pour l’humanité ».

Le pari de Dan Hendrycks et Scale AI

En mai 2024, lors d’une conversation avec Elon Musk, Hendrycks propose un benchmark dont les questions seraient si difficiles que seuls des experts humains pourraient les résoudre – et encore, avec peine. Scale AI, la licorne de l’annotation de données, s’associe au projet. Ensemble, ils lancent un appel mondial à contribution avec une cagnotte de 500 000 dollars pour les meilleures questions. L’objectif affiché : créer un ensemble de questions que même les IA les plus performantes ne pourraient pas traiter sans un véritable raisonnement.

Benchmark	Date de création	Score maximum atteint	Difficulté perçue
MMLU	2021	90,7 %	Faible
GSM8K	2021	98 %	Faible
Humanity’s Last Exam	2024	< 10 %	Extrême

Ce contraste justifie à lui seul l’existence de HLE. La question n’est plus de savoir si un modèle peut atteindre 90 % sur un test facile, mais s’il peut dépasser le seuil symbolique des 10 % sur un test vraiment difficile. Posons les bases avant d’aller plus loin : ce que les chiffres ne disent pas seuls, c’est le rôle de ce benchmark dans la gouvernance future de l’IA.

Transition : Après avoir compris le besoin, plongeons dans la genèse de ce test pas comme les autres.

Tableau noir avec équations mathématiques complexes illustrant les questions de Humanity's Last Exam

Création et objectif de Humanity’s Last Exam

L’histoire de HLE commence par une intuition : pour mesurer l’intelligence machine, il faut des questions qui résistent aux humains les plus brillants. L’évaluation des modèles de langage ne pouvait plus se contenter de questionnaires grand public. Le Centre pour la Sécurité de l’IA et Scale AI ont orchestré un processus unique de crowdsourcing d’experts.

A lire également : TrustedVolumes perd 5,87 M$ : l'exploit qui éclaire les failles des proxies DeFi

L’inspiration d’Elon Musk

Selon Scale AI, l’idée a germé lors d’un échange entre Dan Hendrycks et Elon Musk en mai 2024. Musk, connu pour ses inquiétudes sur l’IA non contrôlée, a souligné que les tests existants ne reflétaient pas les capacités réelles de raisonnement. De cette conversation est née l’ambition de créer un « dernier examen » – un ensemble de questions que ni les humains ni les machines ne pourraient résoudre sans effort intellectuel profond.

Avertissement : l’objectif n’est pas de « battre » l’IA mais de mesurer ses progrès réels. HLE n’est pas un concours, c’est un outil de diagnostic.

Le processus de crowdsourcing et de filtrage

Pour assembler les 2500 questions, les organisateurs ont lancé un appel mondial : professeurs, chercheurs, doctorants de toutes disciplines étaient invités à soumettre des problèmes originaux. Les statistiques sont impressionnantes : près de 1000 experts provenant de 500 institutions dans 50 pays ont participé (Source : Scale AI, 2024). Chaque question devait être inédite, vérifiable et exiger un raisonnement multi-étapes. Une cagnotte de 500 000 dollars de récompenses incitait à la qualité.

Un comité de sélection – composé de spécialistes de Scale Labs et de chercheurs du Centre pour la Sécurité de l’IA – a ensuite filtré les soumissions. Les doublons, les questions trop faciles ou ambiguës ont été éliminés. Résultat : un dataset d’une rigueur inédite. La plupart des analyses s’arrêtent là. Moi, non. Ce qui rend HLE unique, c’est la diversité des disciplines couvertes, que nous allons détailler.

Transition : Examinons maintenant la composition exacte de ce jeu de données phénoménal.

Composition du dataset : 2500 questions multidisciplinaires

Voici la répartition des 2500 questions de HLE par discipline. Ce tableau doit être lu comme une photographie de ce que les experts considèrent comme « difficile » en 2024.

Discipline	Pourcentage	Nombre approximatif
Mathématiques	41 %	1025
Physique	9 %	225
Biologie/Médecine	11 %	275
Humanités/Sciences sociales	9 %	225
Informatique/IA	10 %	250
Chimie	7 %	175
Ingénierie	4 %	100
Autre	9 %	225

Ce tableau provient des données officielles de Wikipedia et Scale AI (2024). On voit que les mathématiques dominent largement – logique quand on cherche à tester le raisonnement pur. Mais ne vous y trompez pas : les questions d’humanités demandent une compréhension contextuelle fine, pas une simple mémorisation.

Questions multimodales : texte et image

Environ 14 % des questions sont multimodales, c’est-à-dire qu’elles combinent texte et images (schémas, graphiques, photographies scientifiques). Le modèle doit interpréter simultanément les deux modalités. Par exemple : une question de chimie organique peut montrer une molécule complexe et demander d’identifier le produit d’une réaction. Les modèles de langage qui ne traitent que le texte sont désavantagés.

Exemple concret traduit

Voici une question issue du dataset (traduite depuis l’anglais, source : Scale AI, 2024) :

« Soit une fonction f : R → R définie par f(x) = e^{x} * sin(x). Calculez la valeur de l’intégrale ∫_0^π f(x) dx, en justifiant chaque étape. »
Humanity’s Last Exam – Mathématiques, niveau master

Ce type de question exige non seulement la capacité à calculer, mais aussi à articuler un raisonnement en langage naturel – ce que les modèles actuels font mal. Les questions à choix multiples ne représentent que 24 % du dataset ; les 76 % restants sont en réponse ouverte, notées en exact-match (la réponse doit être textuellement correcte).

C’est précisément là que ça se complique : un modèle peut approcher la bonne réponse mais perdre des points pour une formulation imprécise. Les implications pour l’entraînement des futurs systèmes sont majeures.

Transition : Maintenant que nous savons de quoi est fait HLE, regardons comment les IA s’en sortent.

Scores des modèles actuels : les IA à l’épreuve

Les résultats sont sans appel. Les modèles de pointe – GPT-4, Claude 3, Gemini Ultra – obtiennent des scores inférieurs à 10 % sur HLE. Pire encore, ils affichent une surestimation de confiance systématique : lorsqu’ils répondent, ils sont souvent certains (confiance > 90 %)… mais faux. Le benchmark d’intelligence artificielle le plus difficile fait apparaître des failles critiques.

A lire également : Management de transition finance : missions, coûts et conseils en 2026

Classement des modèles (GPT-4, Claude, Gemini)

Modèle	Score brut (%)	Intervalle de confiance (95 %)	Surestimation de confiance
GPT-4 (gpt-4-turbo)	8,2	[7,1 ; 9,4]	Élevée (confiance moyenne 94 %)
Claude 3 Opus	7,5	[6,4 ; 8,7]	Très élevée (confiance moyenne 96 %)
Gemini Ultra	6,9	[5,8 ; 8,1]	Élevée (confiance moyenne 91 %)
GPT-3.5	2,1	[1,5 ; 2,8]	Modérée (confiance moyenne 75 %)
Llama 3 70B	4,3	[3,5 ; 5,2]	Élevée (confiance moyenne 88 %)

Source : Scale SEAL Leaderboard (2024), évaluation sur les 2000 questions publiques. L’intervalle de confiance est calculé par bootstrap. Les scores sont bruts, sans aide extérieure.

Ce tableau montre une réalité dérangeante. Les modèles les plus avancés plafonnent, et leur confiance disproportionnée pose un risque concret en production : un système qui se trompe avec certitude est plus dangereux qu’un système incertain. La saturation des benchmarks traditionnels avait masqué ce phénomène. HLE le révèle au grand jour.

Surestimation de confiance : un problème récurrent

Pourquoi les IA sont-elles si confiantes alors qu’elles se trompent ? Parce que leur apprentissage par renforcement (RLHF) les pousse à produire des réponses plausibles, pas nécessairement vraies. Sur un benchmark facile comme MMLU, cette stratégie fonctionne ; sur HLE, elle échoue. C’est un signal d’alarme pour déployements dans des domaines critiques (diagnostic médical, droit, finance).

Transition : Ces résultats nous amènent à nous interroger sur la fiabilité du test lui-même. Comment être sûr que les modèles ne trichent pas ?

Évaluation et fiabilité du test

Pour éviter que les fabricants d’IA n’entraînent leurs modèles directement sur les questions (ce qui fausserait les scores), les concepteurs de HLE ont mis en place un private holdout set : 500 questions sont conservées secrètes, jamais publiées. Seuls les évaluateurs de Scale Labs y ont accès. Les scores publics sont mesurés sur les 2000 questions restantes, mais les classements officiels incluent les 500 privées pour éviter le surapprentissage.

Le rôle du jeu de données privé

La méthode est simple : on évalue d’abord le modèle sur l’ensemble public, puis on l’envoie à Scale pour validation sur l’ensemble privé. Seuls les modèles qui performent de manière cohérente sur les deux ensembles sont crédibles. Les écarts de plus de 2-3 % sont considérés comme suspects. Cela rend la triche beaucoup plus difficile.

La notation exact-match

Pour les 76 % de questions à réponse ouverte, la notation est automatisée via exact-match : un script compare la réponse générée par l’IA à une réponse de référence rédigée par les experts. Pas de tolérance pour les paraphrases. C’est brutal, mais cela force les modèles à produire des réponses précises, un peu comme un examen universitaire. Cette rigueur garantit que HLE mesure bien la compréhension, pas la capacité à baratiner.

Fiabilité : oui, le test est robuste. Mais rien n’est parfait. Les critiques existent, et nous les verrons plus loin.

Transition : Au-delà de la simple performance, HLE a des répercussions concrètes pour la recherche et les politiques publiques.

Impact et implications pour la recherche et la gouvernance

Humanity’s Last Exam n’est pas qu’un test de geek. Il est déjà utilisé par des laboratoires de recherche et des régulateurs pour évaluer les capacités des systèmes d’IA. Son rôle dans la gouvernance de l’IA est central. Je préfère me tromper avec des données plutôt qu’avoir raison avec des intuitions : les données de HLE montrent que nous sommes encore loin d’une IA générale fiable.

Un outil pour les chercheurs

Les équipes d’OpenAI, Anthropic, Google DeepMind utilisent HLE comme benchmark interne. Pourquoi ? Parce que les faibles scores les aident à identifier les lacunes de leurs modèles : le raisonnement logique long, la gestion d’ambiguïté, la combinaison de connaissances. Améliorer ces domaines est une priorité. Sans un test difficile, les progrès stagnent.

Objectif : pousser les modèles à développer un raisonnement multi-étapes vraiment robuste, pas seulement simuler.

Une boussole pour les régulateurs

L’Union européenne, via l’AI Act, et les agences américaines (NIST) explorent l’intégration de HLE dans leurs protocoles d’évaluation. L’idée : exiger un score minimum sur HLE avant de certifier un modèle pour une utilisation à haut risque (santé, justice, transports). Bien sûr, un test seul ne suffit pas, mais il fournit une métrique objective. Le Centre pour la Sécurité de l’IA milite pour que chaque nouveau frontier model soit soumis à HLE avant déploiement.

A lire également : Affaire Etana : Kraken accuse une custode de détournement de 25 M$

Avertissement : HLE n’est pas un test de conscience ou de moralité. Il mesure uniquement la capacité à résoudre des problèmes académiques complexes. Ne lui demandez pas de juger si une IA est « dangereuse » – mais il peut détecter des capacités de raisonnement avancées, qui sont un prérequis à d’autres formes de compétence.

Transition : Mais tout outil a ses limites. Voyons ce que HLE ne peut pas mesurer, et les critiques qui lui sont faites.

Limites et critiques de Humanity’s Last Exam

Aucun benchmark n’est parfait, et HLE ne fait pas exception. Plusieurs limitations ont été soulevées par la communauté.

Questions fermées vs ouvertes

Même si 76 % des questions sont à réponse ouverte, la notation exact-match impose un format fermé : une seule réponse attendue. Cela ne capture pas la créativité, la capacité à poser des questions, ou le jugement éthique. Un modèle pourrait répondre parfaitement à toutes les questions de HLE sans pour autant comprendre les nuances d’un dilemme moral. La limite des benchmarks se situe dans ce qu’ils omettent.

Biais de sélection des experts

Les 1000 experts viennent majoritairement d’universités occidentales et de disciplines STEM. Les sciences sociales, la philosophie ou les arts sont sous-représentés. Les questions reflètent donc une certaine vision de ce qu’est l’« intelligence ». Un biais qui pourrait avantager les modèles entraînés sur des données académiques anglo-saxonnes.

En pratique, ça donne quoi ? Un modèle formé sur des manuels chinois pourrait être désavantagé par la formulation des questions en anglais. Malgré les efforts de traduction, le biais linguistique subsiste.

Transition : Ces critiques appellent déjà à une évolution. Quel sera le prochain défi pour l’évaluation des IA ?

Avenir : vers le prochain benchmark ?

HLE est présenté comme le « dernier examen fermé ». L’idée des créateurs est qu’une fois que les IA obtiendront des scores élevés (disons ≥ 80 %), il faudra passer à des évaluations ouvertes et adaptatives. Mais à quand ce seuil ? Aux rythmes actuels, peut-être 5 à 10 ans.

La course à la difficulté

Le monde de l’IA avance vite. Si les modèles progressent, les scores HLE augmenteront, et les critiques demanderont un test encore plus dur. Déjà, des chercheurs travaillent sur des versions augmentées avec des questions nécessitant des expériences réelles (physique, chimie). D’autres planchent sur des tests adaptatifs où la difficulté s’ajuste en temps réel.

Tests adaptatifs et open-ended

Plutôt que de fixer une liste de questions, le futur sera peut-être un dialogue interactif entre l’IA et un évaluateur humain, où le modèle doit démontrer sa compréhension en posant des questions et en ajustant son raisonnement. C’est le Graal de l’évaluation de l’intelligence – et c’est un domaine de recherche actif.

Transition : Avant de conclure, répondons aux questions les plus fréquentes sur HLE.

Questions fréquentes

Qu’est-ce que Humanity’s Last Exam exactement ?

Humanity’s Last Exam (HLE) est un benchmark composé de 2500 questions très difficiles, couvrant plus de 100 disciplines académiques, conçu pour évaluer les capacités de raisonnement des modèles d’IA avancés.

Pourquoi ce test a-t-il été créé ?

Il a été créé parce que les benchmarks existants comme MMLU étaient devenus trop faciles – les modèles atteignaient plus de 90 % de bonnes réponses. HLE vise à mesurer les progrès réels en raisonnement.

Qui a participé à la création des questions ?

Près de 1000 experts – professeurs, chercheurs et doctorants – issus de 500 institutions dans 50 pays ont soumis des questions, avec une cagnotte de 500 000 dollars de récompenses.

Quels sujets sont couverts par HLE ?

Les mathématiques représentent 41 % des questions, la biologie/médecine 11 %, l’informatique 10 %, la physique 9 %, les humanités 9 %, la chimie 7 %, l’ingénierie 4 %, et d’autres 9 %.

Les questions sont-elles seulement textuelles ?

Non, environ 14 % des questions sont multimodales : elles combinent texte et images que le modèle doit interpréter ensemble.

Quels sont les scores des meilleurs modèles d’IA ?

Les modèles de pointe comme GPT-4, Claude ou Gemini obtiennent des scores très faibles (souvent moins de 10 %), et ils présentent une surestimation de confiance : ils pensent avoir raison alors qu’ils se trompent.

Comment les fabricants d’IA peuvent-ils tricher ?

Pour éviter la triche, 500 questions sont conservées dans un ensemble privé (private holdout set) qui n’est pas divulgué, et les réponses sont notées en exact-match, ce qui empêche l’apprentissage par cœur.

Conclusion : le dernier examen, pour l’instant

Humanity’s Last Exam est le benchmark le plus difficile jamais conçu, avec 2500 questions expertes. Les modèles actuels échouent largement, révélant leur manque de véritable raisonnement. Ce test a des implications pour la gouvernance de l’IA et la sécurité. Même imparfait, il repousse les limites de l’évaluation des capacités des IA. Alors que les machines améliorent leurs scores, la question demeure : jusqu’où devrons-nous repousser le test pour continuer à mesurer leur intelligence ? L’ultime examen d’humanité pour l’intelligence artificielle n’est peut-être pas le dernier – mais il est, pour l’instant, le plus exigeant.

Léopold Delaplace

Quinze ans en salle des marchés, puis tout plaquer pour la DeFi. Aujourd’hui j’analyse les marchés financiers et les protocoles crypto avec la même rigueur — sans les conflits d’intérêt.