Face à l’essor des chatbots éducatifs fondés sur les LLM, les enseignants manquent d’outils objectifs pour évaluer leur pertinence pédagogique et leur fiabilité. Nous présentons l’AI Score, un indicateur fondé sur quatre critères : performance initiale, robustesse, auto-correction et manque de fiabilité, appliqué à des QCM validés auprès d’étudiants. Testé sur six plateformes dans plusieurs cours de première année universitaires, il s’accompagne d’un calculateur accessible gratuitement en ligne (aiscore.academy). Cet outil vise à guider le choix des tuteurs IA et à nourrir une réflexion critique sur leur usage en éducation.