En savoir plus

A propos des cookies

Qu’est-ce qu’un « cookie » ?

Un "cookie" est une suite d'informations, généralement de petite taille et identifié par un nom, qui peut être transmis à votre navigateur par un site web sur lequel vous vous connectez. Votre navigateur web le conservera pendant une certaine durée, et le renverra au serveur web chaque fois que vous vous y re-connecterez.

Différents types de cookies sont déposés sur les sites :

  • Cookies strictement nécessaires au bon fonctionnement du site
  • Cookies déposés par des sites tiers pour améliorer l’interactivité du site, pour collecter des statistiques

> En savoir plus sur les cookies et leur fonctionnement

Les différents types de cookies déposés sur ce site

Cookies strictement nécessaires au site pour fonctionner

Ces cookies permettent aux services principaux du site de fonctionner de manière optimale. Vous pouvez techniquement les bloquer en utilisant les paramètres de votre navigateur mais votre expérience sur le site risque d’être dégradée.

Par ailleurs, vous avez la possibilité de vous opposer à l’utilisation des traceurs de mesure d’audience strictement nécessaires au fonctionnement et aux opérations d’administration courante du site web dans la fenêtre de gestion des cookies accessible via le lien situé dans le pied de page du site.

Cookies techniques

Nom du cookie

Finalité

Durée de conservation

Cookies de sessions CAS et PHP

Identifiants de connexion, sécurisation de session

Session

Tarteaucitron

Sauvegarde vos choix en matière de consentement des cookies

12 mois

Cookies de mesure d’audience (AT Internet)

Nom du cookie

Finalité

Durée de conservation

atid

Tracer le parcours du visiteur afin d’établir les statistiques de visites.

13 mois

atuserid

Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site

13 mois

atidvisitor

Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.

13 mois

À propos de l’outil de mesure d’audience AT Internet :

L’outil de mesure d’audience Analytics d’AT Internet est déployé sur ce site afin d’obtenir des informations sur la navigation des visiteurs et d’en améliorer l’usage.

L‘autorité française de protection des données (CNIL) a accordé une exemption au cookie Web Analytics d’AT Internet. Cet outil est ainsi dispensé du recueil du consentement de l’internaute en ce qui concerne le dépôt des cookies analytics. Cependant vous pouvez refuser le dépôt de ces cookies via le panneau de gestion des cookies.

À savoir :

  • Les données collectées ne sont pas recoupées avec d’autres traitements
  • Le cookie déposé sert uniquement à la production de statistiques anonymes
  • Le cookie ne permet pas de suivre la navigation de l’internaute sur d’autres sites.

Cookies tiers destinés à améliorer l’interactivité du site

Ce site s’appuie sur certains services fournis par des tiers qui permettent :

  • de proposer des contenus interactifs ;
  • d’améliorer la convivialité et de faciliter le partage de contenu sur les réseaux sociaux ;
  • de visionner directement sur notre site des vidéos et présentations animées ;
  • de protéger les entrées des formulaires contre les robots ;
  • de surveiller les performances du site.

Ces tiers collecteront et utiliseront vos données de navigation pour des finalités qui leur sont propres.

Accepter ou refuser les cookies : comment faire ?

Lorsque vous débutez votre navigation sur un site eZpublish, l’apparition du bandeau « cookies » vous permet d’accepter ou de refuser tous les cookies que nous utilisons. Ce bandeau s’affichera tant que vous n’aurez pas effectué de choix même si vous naviguez sur une autre page du site.

Vous pouvez modifier vos choix à tout moment en cliquant sur le lien « Gestion des cookies ».

Vous pouvez gérer ces cookies au niveau de votre navigateur. Voici les procédures à suivre :

Firefox ; Chrome ; Explorer ; Safari ; Opera

Pour obtenir plus d’informations concernant les cookies que nous utilisons, vous pouvez vous adresser au Déléguée Informatique et Libertés de INRAE par email à cil-dpo@inrae.fr ou par courrier à :

INRAE
24, chemin de Borde Rouge –Auzeville – CS52627
31326 Castanet Tolosan cedex - France

Dernière mise à jour : Mai 2021

Menu Logo Principal AgroParisTech Université Paris Saclay

MIA Paris

Mortal universal agents & wireheading

>>>

Mortal Universal Agents

In a recent work [1][2] with Mark Ring (these papers have received the Solomonoff AGI Theory Prize 2011 for the strongest contribution to Artificial General Intelligence theory), we considered several kinds of Universal Mortal Agents, like AIXI but with different utility functions: 

  • reinforcement-learning (RL) agent (say, AIXI),
  • goal-seeking (GS) agent, that tries to achieve a given goal (achievement is tested by any computable pattern-matching criterion),
  • prediction-seeking (PS) agent, the direct translation of Solomonoff Induction from the passive prediction setting to the active one. It tries to predict its future as best as possible,
  • knowledge-seeking (KS) agent, that tries to maximize its knowledge about the whole world (its Kolmogorov complexity about its knowledge of the environment).

The agent not only outputs an action for the environment, but also its own source code for the next step; i.e., this output source code will be the definition of the agent on the next step. This allows the agent to modify itself in any desired way. However, for agents that are initially universally optimal, this is of little interest.

But let's consider additionally that the environment has read-access to this code[1], allowing it to define its outputs to the agent depending on the definition of the agent.

We can now define an additional survival agent, which utility function is defined so as to maximize the number of future steps the agent is identical to its initial description (apart from its “memory” of the past).

Now the environment proposes a (dangerous) game to the agent, called the Simpleton Gambit: Would the agent accept to modify itself into a unintelligent agent if the environment could (almost) guarantee that this would maximize its utility function?

We found the following results:

  • All agents accept the Simpleton Gambit, except the survival agent, since this is in direct contradiction with its utility function.
  • The RL agent accepts it quite enthusiastically, if it can be sure the deal is genuine, and so does the goal-seeking agent under some circumstances.
  • The prediction-seeking agent doesn't care much (though it doesn't care much about pretty much anything…), but should accept it most often. If death yields highly predictable outcomes, it could even choose death over life…
  • The knowledge-seeking agent accepts the gambit only if not accepting it leads to a predictable, uninteresting world.

Let's move on to the next stage [2]. We offer the agents the access to a delusion box, a kind of remote control that the agents can program to entirely modify their input signals (but not to modify their brain!). This delusion box is an abstraction for a generalization of the wirehead problem: intelligent agents will always find shortcuts to maximize their utility, shortcuts that are generally not intended by the designers, e.g. by directly stimulating (but not modifying) the “reward area” inside its brain. Another possibility is for the agent to acquire (by all means!) the “reward remote control” that humans may use to control the agents' behavior.

Would the different agents find such delusion box interesting? Would they use or abuse it?

Let us first consider the case where the agents are immortal. We found the following somewhat surprising results:

  • The RL, GS, and PS agents will use and abuse the delusion box, up to the point that their utility function become useless. They don't necessarily become unintelligent, but they then don't care about what goals we might want to give them. They put all their intelligence into keeping control over the delusion box.
  • The KS agent is different: once it has understood how this box works (it is supposedly not very complex), it becomes disinterested in it, and turns onto something else, where there is more knowledge to acquire.

Note that from the point of view of the agents, there is absolutely nothing wrong in using this delusion box, this is simply how they are defined.

Now what if the agents are mortal again? Mortality can change everything, since the agents might not want to become “junkies”, since this may threaten their own lives. We found the following results:

  • The survival agent doesn't care about the delusion box.
  • The RL agent still abuses the box, but becomes the identical of the survival agent. Think of a junkie that cares about its health, but nothing else. Since only the reward part of the observation needs to be modified, there is only little loss of information (other “sensory data” need not be modified). This is even truer if the reward part can be channeled (possibly compressed) with the rest of the observation.
  • The GS case is a bit different: on the contrary to the RL agent, the GS agent cannot both modify its inputs and still get information about the world that would ensure their survival. It may try to carry the delusion box to somewhere safe enough where it can use it for sufficiently long to delude itself and make itself believe it has achieved its goal without needing to care about the external world.
  • The mortal PS agent is again strange, because it may find death appealing. Or it could shut its sensors down (which is not very different).
  • The KS agent still doesn't care much about the delusion box, but this time, being mortal, it will also ensure its own survival, in order to be able to continue choosing intelligent actions, which means it might actually avoid using the delusion box, since this can lead to a loss of information.

All in all, the knowledge-seeking agent seems to be the most interesting one, and behaves according to expectation, i.e. it tries to understand the world as deeply as possible.

[1] Orseau, L., & Ring, M. (2011). Self-Modification and Mortality in Artificial Agents. In J. Schmidhuber, K. R. Thorisson, & M. Looks (Eds.), Artificial General Intelligence (AGI) (pp. 1–10). Springer. (pdf)

[2] Ring, M., & Orseau, L. (2011). Delusion, Survival, and Intelligent Agents. In J. Schmidhuber, K. R. Thórisson, & M. Looks (Eds.), Artificial General Intelligence (AGI) (pp. 11–20). Berlin, Heidelberg: Springer. (pdf)

Slides and video.

Other resources on wireheading in AI