Удивительно недорогие модели ИИ Deepseek бросают вызов гигантам отрасли. Китайский стартап утверждает, что обучил свою мощную нейронную сеть Deepseek V3 всего за 6 миллионов долларов, используя только 2048 графических процессоров, что резко контрастирует со значительно более высокими затратами конкурентов. Эта, казалось бы, низкая цифра, однако, отражает только предварительное использование графического процессора и исключает существенные исследования, уточнения, обработку данных и расходы на инфраструктуру.
Изображение: Ensigame.com
Инновационная архитектура DeepSeek V3 способствует его эффективности. Ключевые технологии включают многократный прогноз (MTP), который прогнозирует несколько слов одновременно; Смесь экспертов (MOE), используя 256 нейронных сетей для ускоренного обучения; и мультиголовое скрытое внимание (MLA), сосредоточенное на важных элементах предложения для повышения точности.
Изображение: Ensigame.com
Тем не менее, более пристальный взгляд показывает существенные инвестиции. Семианализ обнаружил использование Deepseek примерно в 50 000 графических процессоров Nvidia Hopper, оцениваемых примерно в 1,6 миллиарда долларов, при этом эксплуатационные расходы достигли 944 миллионов долларов. Это противоречит первоначальной претензии в 6 миллионов долларов.
Изображение: Ensigame.com
Успех DeepSeek проистекает из сочетания факторов: существенное финансирование (более 500 миллионов долларов, вложенных в развитие искусственного интеллекта), технологические достижения и высококвалифицированную команду, получающую значительную заработную плату (некоторые превышают 1,3 миллиона долларов в год). Независимая структура компании и право собственности на центры обработки данных способствует его гибкости и эффективности.
Изображение: Ensigame.com
В то время как «Бюджетный» рассказ Deepseek, возможно, завышен, его достижение остается значительным. Компания демонстрирует, что хорошо финансируемый, независимый организация искусственного интеллекта может эффективно конкурировать с известными игроками, несмотря на существенные инвестиции в конечном итоге. Контраст является резким при сравнении затрат на обучение: Deepseek R1 стоит 5 миллионов долларов, а Chatgpt4 стоит 100 миллионов долларов. Несмотря на более высокую фактическую стоимость, модель Deepseek остается сравнительно дешевле, чем ее конкуренты.