El modelo de IA sorprendentemente económico de Deepseek desafía a los gigantes de la industria. La startup china afirma haber capacitado a su poderosa red neuronal Deepseek V3 por solo $ 6 millones, utilizando solo 2048 GPU, un marcado contraste con los costos significativamente más altos de los competidores. Sin embargo, esta cifra aparentemente baja solo refleja el uso de GPU previo al entrenamiento y excluye una investigación sustancial, refinamiento, procesamiento de datos e gastos de infraestructura.
Imagen: Ensigame.com
La arquitectura innovadora de Deepseek V3 contribuye a su eficiencia. Las tecnologías clave incluyen predicción múltiple (MTP), que pronostica múltiples palabras simultáneamente; Mezcla de expertos (MOE), empleando 256 redes neuronales para capacitación acelerada; y atención latente de múltiples cabezas (MLA), centrándose en elementos de oración cruciales para mejorar la precisión.
Imagen: Ensigame.com
Sin embargo, una mirada más cercana revela una inversión sustancial. Semianalysis descubrió el uso de Deepseek de aproximadamente 50,000 GPU de Hopper Nvidia, valorado en aproximadamente $ 1.6 mil millones, con costos operativos que alcanzan los $ 944 millones. Esto contradice el reclamo inicial de $ 6 millones.
Imagen: Ensigame.com
El éxito de Deepseek proviene de una combinación de factores: financiación sustancial (más de $ 500 millones invertidas en el desarrollo de IA), avances tecnológicos y un equipo altamente calificado que obtiene salarios sustanciales (algunos superan los $ 1.3 millones anuales). La estructura independiente de la compañía y la propiedad de sus centros de datos contribuyen a su agilidad y eficiencia.
Imagen: Ensigame.com
Si bien la narrativa "económica" de Deepseek está posiblemente inflada, su logro sigue siendo significativo. La compañía demuestra que una entidad de IA independiente y bien financiada puede competir efectivamente con los jugadores establecidos, a pesar de la inversión sustancial requerida. El contraste es marcado al comparar los costos de capacitación: R1 de Deepseek costó $ 5 millones, mientras que ChatGPT4 costó $ 100 millones. A pesar del costo real más alto, el modelo de Deepseek sigue siendo relativamente más barato que sus competidores.