O modelo de IA surpreendentemente barato de Deepseek desafia os gigantes da indústria. A startup chinesa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões, utilizando apenas 2048 GPUs, um forte contraste com os custos significativamente mais altos dos concorrentes. Esse número aparentemente baixo, no entanto, reflete apenas o uso de GPU pré-treinamento e exclui pesquisas substanciais, refinamento, processamento de dados e despesas de infraestrutura.
imagem: ensigame.com
A arquitetura inovadora da DeepSeek V3 contribui para sua eficiência. As principais tecnologias incluem previsão de vários toques (MTP), que prevê várias palavras simultaneamente; Mistura de especialistas (MOE), empregando 256 redes neurais para treinamento acelerado; e atenção latente de várias cabeças (MLA), concentrando-se nos elementos cruciais da frase para melhorar a precisão.
imagem: ensigame.com
No entanto, um olhar mais atento revela um investimento substancial. A análise semiânima descobriu o uso de aproximadamente 50.000 GPUs da NVIDIA Hopper, avaliado em aproximadamente US $ 1,6 bilhão, com custos operacionais atingindo US $ 944 milhões. Isso contradiz a reivindicação inicial de US $ 6 milhões.
imagem: ensigame.com
O sucesso da Deepseek decorre de uma combinação de fatores: financiamento substancial (mais de US $ 500 milhões investidos no desenvolvimento da IA), avanços tecnológicos e uma equipe altamente qualificada que obtém salários substanciais (alguns superiores a US $ 1,3 milhão anualmente). A estrutura independente e a propriedade da Companhia de seus data centers contribuem para sua agilidade e eficiência.
imagem: ensigame.com
Embora a narrativa "orçamentária" de Deepseek seja inflada, sua conquista permanece significativa. A empresa demonstra que uma entidade de IA independente e bem financiada pode efetivamente competir com os players estabelecidos, apesar do investimento substancial exigido. O contraste é acidentado ao comparar os custos de treinamento: o R1 da Deepseek custou US $ 5 milhões, enquanto o ChatGPT4 custou US $ 100 milhões. Apesar do custo real mais alto, o modelo da Deepseek permanece comparativamente mais barato que seus concorrentes.