
tech
PaperBench : un nouveau benchmark pour tester la reproduction des recherches en IA par des agents intelligents
OpenAI dévoile PaperBench, un outil inédit évaluant la capacité des agents IA à reproduire des travaux scientifiques avancés en intelligence artificielle. Cette avancée pose un jalon crucial dans la validation autonome des recherches par des systèmes intelligents.
5 min
Il y a 4h