Si nous atteignons la superintelligence avant de résoudre le problème d'alignement, nous risquons l'extinction. Avoir une estimation de la période à laquelle nous pourrions avoir une superintelligence est essentiel pour éviter d'être pris au dépourvu. Si nos prédictions sont trop éloignées, nous pourrions ne pas pouvoir nous préparer à temps.
Sur Metaculus, la prédiction de la communauté pour une AGI (intelligence artificielle générale) faible était de 2057 il y a trois ans, et maintenant c'est 2027.
Examinons la définition de l'AGI utilisée dans cette enquête :
Score > 90 % au Winograd Schema Challenge
Score > 75 % aux examens SAT
Réussir un test de Turing
Terminer la revanche de Montezuma
GPT-4 obtient 94,4 % au Winograd Schema Challenge, et 93 % à l'examen de lecture SAT, 89 % à l'examen de mathématiques SAT. Il n'a pas réussi le test de Turing, mais probablement pas à cause d'un manque de capacités. C'est parce que GPT-4 a été affiné pour ne pas induire les gens en erreur. Ce n'est pas bon pour les affaires si votre IA dit aux gens qu'elle est réellement une personne. Il ne reste que la revanche de Montezuma. Il n'est pas impensable qu'il puisse être terminé par une configuration astucieuse de GPT-4, utilisant quelque chose comme AutoGPT pour analyser l'écran et générer les entrées correctes. En mai 2023, GPT-4 a pu écrire du code pour obtenir des équipements en diamant dans Minecraft. En bref : GPT-4 a obtenu 2/4 critères avec certitude, les deux autres étant à portée de main.
Nous avons déjà une AGI faible. Ça n'a pas pris 35 ans, mais seulement trois. Nous nous sommes trompés d'un facteur 10.
Il y a de nombreuses raisons pour lesquelles les gens sous-estiment les progrès de l'IA.
C'est difficile de suivre. Presque tous les jours, nous voyons de nouvelles percées dans l'IA. Il est presque impossible de suivre le rythme des progrès. Vous n'êtes pas seul si vous avez l'impression de prendre du retard.
Nous déplaçons constamment les poteaux des buts. Dans les années 90, les gens pensaient que le Saint Graal de l'IA était quelque chose qui pouvait jouer aux échecs. Quand l'IA a battu Kasparov, son prochain défi était le Go. Maintenant, nous avons des machines qui obtiennent des scores dans le 99,9e percentile aux tests de QI, peuvent traduire 26 langues et gagner des concours de photographie, mais nous posons toujours des questions comme « Quand l'IA atteindra-t-elle le niveau humain ? ». Elle nous dépasse déjà dans de nombreux domaines, mais nous nous concentrons toujours sur le nombre de plus en plus restreint de choses que nous pouvons encore faire mieux.
Nous aimons penser que nous sommes spéciaux. Les humains aiment sentir que nous sommes spéciaux. Si une IA peut faire ce que nous pouvons faire, nous ne sommes plus spéciaux. C'est une pilule difficile à avaler, et le cerveau a de nombreux mécanismes de défense pour éviter cela.
Nous sommes vraiment mauvais avec la croissance exponentielle. Nous avons tendance à sous-estimer systématiquement et de manière prévisible comment la croissance exponentielle s'accumule au fil du temps. Cela a été démontré dans des études scientifiques.
Heureusement, il reste encore des choses qu'une IA ne peut pas encore faire. Elle ne peut pas pirater mieux que les meilleurs pirates informatiques et elle ne peut pas faire de recherche en IA aussi bien que les meilleurs chercheurs en IA. Quand nous atteindrons l'un de ces seuils, nous serons dans un nouveau régime de risque accru.
Alors, quand atteindrons-nous le point où une IA peut faire toutes ces choses à un niveau surhumain ? Quand aurons-nous une superintelligence ?
Le point crucial que nous devrions considérer est le point auquel une IA est plus capable de faire de la recherche en IA que quelqu'un comme Ilya Sutskever (scientifique en chef chez OpenAI). Une IA capable de contribuer de manière significative aux algorithmes et architectures de l'IA est susceptible de pouvoir s'améliorer elle-même. Appelons ce point de potentiel auto-amélioration le seuil d'Ilya. Lorsqu'il atteint ce point, une IA pourrait s'améliorer elle-même parce qu'elle a été explicitement instruite de le faire, ou parce qu'être plus intelligent est un sous-objectif utile pour d'autres objectifs (les IA créent déjà leurs propres sous-objectifs). Ces itérations pourraient prendre des semaines (l'entraînement de GPT-3 a pris 34 jours), mais il est également possible qu'une sorte d'amélioration en temps réel soit mise en œuvre qui permette des progrès significatifs en quelques minutes : une Explosion de l'Intelligence.
Alors, à quel point sommes-nous loin du seuil d'Ilya ? Il est fondamentalement difficile de prédire quand certaines capacités émergent à mesure que les LLMs (modèles de langage à grande échelle) évoluent, mais jusqu'à présent, nous avons vu de nombreuses capacités émerger qui étaient auparavant considérées comme lointaines. GPT-4 est déjà un programmeur impressionnant, et combiné avec AutoGPT il peut faire de la recherche autonome sur Internet. Être capable de faire de la recherche en IA de manière autonome et d'apporter des améliorations significatives à une base de code ne semble pas impossible dans un avenir proche. Il existe plusieurs chemins potentiels pour atteindre le niveau de capacités d'Ilya :
Un modèle plus grand. Cela implique probablement une combinaison de plus de données, de plus de paramètres et de plus de puissance de calcul. Jusqu'à présent, l'augmentation de l'échelle a été très réussie. Les coûts de formation deviennent astronomiques (100 millions de dollars pour le GPT-4), mais les enjeux sont élevés et des milliards de dollars sont investis soit pour rester en tête, soit pour rattraper leur retard. De nouveaux matériels sont développés pour rendre la formation de modèles plus grands plus faisable. Une augmentation de taille de 10 fois pourrait être suffisante pour dépasser le seuil d'Ilya. Cependant, Sam Altman a déclaré qu'il y a des rendements décroissants sérieux à l'échelle et que nous pourrions être proches de la limite de ce qui est réalisable en échelonnant les architectures actuelles.
Améliorations du temps d'exécution. Des outils comme MemoryGPT et AutoGPT ont montré que simplement placer un LLM existant dans un nouveau contexte débloque des types de capacités radicalement nouveaux. Certains ont argué que les LLM actuels n'ont accès qu'à quelque chose qui ressemble au type de pensée "Système 1" (rapide, intuitif), et non au "Système 2" (lent, critique). Il est possible qu'une amélioration du temps d'exécution débloque de telles capacités.
Améliorations algorithmiques. L'architecture Transformer a rendu les modèles beaucoup plus performants avec moins de matériel. Ce type de percée algorithmique 10x est rare, mais cela arrive. Il est très probable que des algorithmes d'apprentissage beaucoup plus optimaux soient possibles et que nous n'avons pas atteint la limite théorique pour des algorithmes d'apprentissage efficaces. Par exemple, un humain peut lire un manuel sur JavaScript et ensuite écrire du code. Le GPT-4 a dû lire des milliers (ou plus) de ces livres pour atteindre le même niveau. Les IA ont besoin de beaucoup de données pour apprendre, mais pas les humains, donc il y a probablement beaucoup à gagner (ou en fait à perdre) en trouvant un moyen d'apprentissage plus efficace.
Nous avons donc au moins ces trois chemins pour atteindre le seuil d'Ilya. Nous n'avons aucune garantie que l'un de ces chemins, ou tous, nous amènera au-delà du seuil d'Ilya, mais cela semble probable. Il est difficile de quantifier cela, mais il y a maintenant d'innombrables personnes travaillant sur ces trois aspects - bien plus que juste il y a quelques mois. Nous ne savons pas comment aligner une telle IA (même OpenAI l'admet), et les conséquences d'avoir une superintelligence mal alignée sont susceptibles d'être catastrophiques.
Nous pourrions avoir une superintelligence dans quelques mois. Un risque de 1% est inacceptablement élevé. Nous ne pouvons que conclure qu'il faut prendre des mesures urgemment.