दीपसेक की आश्चर्यजनक रूप से सस्ती एआई मॉडल चुनौतियां उद्योग के दिग्गजों को चुनौती देती हैं। चीनी स्टार्टअप ने दावा किया है कि उसने अपने शक्तिशाली दीपसेक वी 3 न्यूरल नेटवर्क को केवल $ 6 मिलियन के लिए प्रशिक्षित किया है, केवल 2048 जीपीयू का उपयोग करते हुए, प्रतियोगियों की काफी अधिक लागतों के विपरीत। यह प्रतीत होता है कि कम आंकड़ा, हालांकि, केवल पूर्व-प्रशिक्षण GPU उपयोग को दर्शाता है और पर्याप्त अनुसंधान, शोधन, डेटा प्रसंस्करण और बुनियादी ढांचे के खर्चों को बाहर करता है।
छवि: ensigame.com
दीपसेक वी 3 की अभिनव वास्तुकला इसकी दक्षता में योगदान देती है। प्रमुख प्रौद्योगिकियों में बहु-टोकन भविष्यवाणी (एमटीपी) शामिल हैं, जो एक साथ कई शब्दों का पूर्वानुमान लगाता है; विशेषज्ञों का मिश्रण (एमओई), त्वरित प्रशिक्षण के लिए 256 तंत्रिका नेटवर्क को नियोजित करना; और मल्टी-हेड लेटेंट ध्यान (एमएलए), बेहतर सटीकता के लिए महत्वपूर्ण वाक्य तत्वों पर ध्यान केंद्रित करना।
छवि: ensigame.com
हालांकि, एक नज़दीकी नज़र से एक पर्याप्त निवेश का पता चलता है। सेमियालिसिस ने दीपसेक के लगभग 50,000 एनवीडिया हॉपर जीपीयू के उपयोग को उजागर किया, जिसकी कीमत लगभग 1.6 बिलियन डॉलर थी, जिसमें परिचालन लागत $ 944 मिलियन तक पहुंच गई। यह शुरुआती $ 6 मिलियन के दावे का खंडन करता है।
छवि: ensigame.com
दीपसेक की सफलता कारकों के संयोजन से उपजी है: पर्याप्त धन (एआई विकास में $ 500 मिलियन से अधिक निवेश), तकनीकी प्रगति, और एक उच्च कुशल टीम जो पर्याप्त वेतन अर्जित करती है (कुछ सालाना $ 1.3 मिलियन से अधिक)। कंपनी की स्वतंत्र संरचना और इसके डेटा केंद्रों की स्वामित्व इसकी चपलता और दक्षता में योगदान देता है।
छवि: ensigame.com
जबकि दीपसेक की "बजट-अनुकूल" कथा यकीनन फुलाया जाता है, इसकी उपलब्धि महत्वपूर्ण है। कंपनी दर्शाती है कि एक अच्छी तरह से वित्त पोषित, स्वतंत्र एआई इकाई प्रभावी रूप से स्थापित खिलाड़ियों के साथ प्रतिस्पर्धा कर सकती है, अंततः पर्याप्त निवेश की आवश्यकता के बावजूद। प्रशिक्षण लागतों की तुलना करते समय इसके विपरीत है: दीपसेक की R1 की लागत $ 5 मिलियन है, जबकि CHATGPT4 की लागत $ 100 मिलियन थी। उच्च वास्तविक लागत के बावजूद, दीपसेक का मॉडल अपने प्रतिद्वंद्वियों की तुलना में तुलनात्मक रूप से सस्ता है।