He pasado algunas horas probando Grok 3, la nueva versión de la IA de xAI. Quería ver sus capacidades reales y sobre todo cómo se comporta, qué tipo de resultados da, frente a ChatGPT, Claude, Le Chat, DeepSeek... - Destaca en problemas matemáticos. Le hice completar el reto AIME'24, del cual acertó 6 de los 15 problemas, por los 9 aciertos de o3-mini-high de OpenAI. Además, Grok 3 tardó algo menos de cinco minutos, pero o3-mini-high tardó casi seis. Muy llamativo ver sus autoevaluaciones hasta dar con la respuesta correcta (aunque a veces no lo era).
Un pedazo de los pasos que dio Grok 3 para evaluar sus propias conclusiones antes de presentarlas como resultado final. Imagen: Xataka con Grok 3. - En pruebas de razonamiento básico, como determinar el número de letras repetidas en palabras algo complejas (el clásico "Lollapalooza") o comparar decimales (9,11 vs 9,9), Grok 3 responde correctamente tras unos segundos de "pensamiento" visible.
- En una pregunta de mitología griega sobre el bisabuelo materno de Jasón, Grok 3 encontró la respuesta correcta en 18 segundos... mientras que o3-mini-high necesitó 22 segundos para fallar. Bien jugado, Grok.
Grok 3 en cambio dio una respuesta mejor construida, además de correcta. Y tardando menos. Imagen: Xataka con Grok 3. |