La startup china de inteligencia artificial, un modelo de lenguaje de código abierto basado en la arquitectura
Mixture of
Experts (MoE). Este nuevo modelo no solo soporta más de 300 lenguajes de programación sino que además supera a modelos de código cerrado como GPT-4 Turbo,
Claude 3 Opus y
Gemini 1,5 Pro en tareas de codificación y matemáticas.
La empresa china de inteligencia artificial, DeepSeek, conocida por su competidor de ChatGPT entrenado en 2 billones de tokens en inglés y chino, ha anunciado el lanzamiento de DeepSeek Coder V2. Este modelo, basado en la arquitectura MoE y construido sobre DeepSeek-V2, lanzado el mes pasado, destaca en tareas de codificación y matemáticas, y soporta más de 300 lenguajes de programación.
DeepSeek Coder V2 no solo supera a los modelos de código cerrado en tareas específicas sino que además muestra un rendimiento comparable en tareas de razonamiento general y comprensión del lenguaje. La empresa afirma que es la primera vez que un modelo abierto logra tal hazaña, situándose por delante de modelos como Llama 3-70B.
El modelo original DeepSeek Coder, con hasta 33 mil millones de parámetros, ya mostraba capacidades decentes en tareas como la finalización de código a nivel de proyecto y la inflexión, pero solo soportaba 86 lenguajes de programación y una ventana de contexto de 16K.