
tech
OpenAI maîtrise Montezuma’s Revenge avec une seule démonstration humaine
OpenAI a entraîné un agent à exceller sur Montezuma’s Revenge grâce à une seule démonstration humaine, atteignant un score inédit. Cette avancée s’appuie sur une méthode simple et efficace issue du renforcement par PPO.
6 min
26 avr · 03h46