पीकाबू खेलना सिर्फ बच्चों का खेल नहीं है। यह उन पहले तरीकों में से एक है जिनसे वे सीखते हैं कि कुछ अभी भी वहां है, भले ही वे इसे देख न सकें। जब आप अपना चेहरा छिपाते हैं और अचानक फिर से प्रकट हो जाते हैं-पीकाबू!-सुखद आश्चर्य हंसी और सीखने की ओर ले जाता है।
उस कौशल को विकसित करना याद रखने के बारे में नहीं है। इसके बजाय, अवलोकन के माध्यम से, बच्चे दुनिया कैसे काम करती है इसका एक सरल आंतरिक मॉडल बनाना शुरू करते हैं। लगभग एक साल की उम्र तक, वे बता सकते हैं कि सोफे के पीछे लुढ़कने वाली गेंद गायब नहीं हुई है – यह अभी भी मौजूद है, यहां तक कि दृष्टि से भी दूर है।
आज के एआई सिस्टम – अपनी सभी बातचीत और पैटर्न-मिलान क्षमता के बावजूद – यह काम विश्वसनीय ढंग से नहीं कर सकते हैं। वे वर्णन कर सकते हैं कि उनके सामने क्या है, लेकिन वे इस अवधारणा से जूझते हैं कि क्या छिपा है, या कार्यों के क्रम में आगे क्या होगा।
इस क्षेत्र के कई शीर्ष शोधकर्ताओं का मानना है कि समाधान, तथाकथित विश्व मॉडल में निहित है: एआई सिस्टम को न केवल पाठ या छवियों में पैटर्न को पहचानने के लिए डिज़ाइन किया गया है, बल्कि यह भी अनुकरण करने के लिए कि भौतिक दुनिया कैसे व्यवहार करती है। लाखों घंटों के वीडियो पर प्रशिक्षण देकर, ये मॉडल दुनिया कैसे काम करती है, भौतिकी और सभी चीजों की एक सटीक आंतरिक तस्वीर बना सकते हैं – प्रौद्योगिकियों की एक विस्तृत श्रृंखला के लिए एक महत्वपूर्ण क्षमता, चाहे वह स्व-चालित कार को भविष्यवाणी करने में मदद करना हो कि अगर कोई बच्चा सड़क पर दौड़ता है तो क्या होगा; एक घरेलू रोबोट को कपड़े मोड़ना सीखने में मदद करना; या एक भी चीरा लगाने से पहले सर्जिकल प्रक्रियाओं का अनुकरण करना हो।
सितारा शक्ति
इन “भौतिक एआई” उपयोग के मामलों के लिए सिस्टम बनाने की आवश्यकता ने विश्व मॉडल को एक विशिष्ट अनुसंधान विचार से क्षेत्र के केंद्रीय फोकस की ओर धकेल दिया है। Google ने हाल ही में प्रोजेक्ट जिनी नामक एक शोध पूर्वावलोकन का अनावरण किया, जो सरल संकेतों से इंटरैक्टिव, फोटोरियलिस्टिक वातावरण उत्पन्न कर सकता है – फिर भविष्यवाणी करता है कि वे दुनिया कैसे विकसित होती हैं और उपयोगकर्ता के कार्यों पर प्रतिक्रिया देती हैं।
इस बीच, “एआई गॉडमदर” फी-फी ली और “एआई गॉडफादर” यान लेकुन ने विश्व मॉडल विकसित करने वाले अलग-अलग स्टार्टअप के लिए लगभग 1 बिलियन डॉलर जुटाए हैं। स्टैनफोर्ड के प्रोफेसर ली ने एआई को 3डी स्पेस की समृद्ध समझ देने और वस्तुओं के अस्तित्व और उसके भीतर बातचीत करने के तरीके पर ध्यान केंद्रित करने के लिए 2024 में वर्ल्ड लैब्स की स्थापना की। मेटा के पूर्व मुख्य एआई वैज्ञानिक लेकुन ने बड़े भाषा मॉडल की सीमाओं से परे जाने के मिशन के साथ मार्च में एएमआई लैब्स लॉन्च की।
लेकन ने हाल ही में एक व्याख्यान में कहा, “हमारे पास ऐसे सिस्टम हैं जो भाषा में हेरफेर कर सकते हैं, और वे हमें यह सोचकर मूर्ख बनाते हैं कि वे स्मार्ट हैं क्योंकि वे भाषा में हेरफेर करते हैं।” “लेकिन वास्तव में, जब भौतिक दुनिया की बात आती है तो वे पूरी तरह से असहाय होते हैं।”
गति इस बात में निरंतर बदलाव को दर्शाती है कि शोधकर्ता बुद्धिमत्ता के बारे में कैसे सोच रहे हैं, लेकिन आज के विश्व मॉडल के कई प्रयास डेविड हा और जुरगेन श्मिधुबर के 2018 के पेपर पर आधारित हैं। दशकों से, AI सिस्टम बड़े पैमाने पर डेटा या ब्रूट-फोर्स ट्रायल और त्रुटि पर प्रतिक्रिया करके सीखते हैं। पेपर ने एक अलग दृष्टिकोण प्रस्तावित किया: इससे पहले कि एआई बुद्धिमानी से कार्य कर सके, उसे यह सीखना होगा कि दुनिया अपने पर्यावरण के अनुरूपित संस्करण के माध्यम से कैसे काम करती है।
हा, जिन्होंने तब से जापानी एआई आर एंड डी कंपनी सकाना की सह-स्थापना की है, ने बताया भाग्य ये सिस्टम एआई को वास्तविकता के अपने स्वयं के सिम्युलेटेड संस्करणों के अंदर प्रशिक्षित करने की अनुमति देते हैं – जिसे उन्होंने “भ्रमपूर्ण सपने” के रूप में वर्णित किया है – जहां एक एजेंट वास्तविक दुनिया में अभिनय करने से पहले अभ्यास और योजना बना सकता है।
एनवीडिया की कॉसमॉस लैब के उपाध्यक्ष मिंग-यू लियू ने एक अधिक सिनेमाई सादृश्य साझा किया, जो इंगित करता है गणित का सवालजिसमें मुख्य पात्र एक नकली दुनिया के अंदर कुंग फू सीखता है। लियू ने कहा, विश्व मॉडलों को एक “उत्पादक प्रशिक्षण सुविधा” के रूप में सोचें: “फ़ीडबैक और मार्गदर्शन है ताकि एआई लगातार अपने कौशल को बढ़ा सके।”
चौथा आयाम
ली और लेकुन के सबसे स्पष्ट प्रयासों के अलावा, कई स्टार्टअप भी विश्व मॉडल का निर्माण कर रहे हैं – प्रत्येक अपने स्वयं के दृष्टिकोण के साथ।
Niantic Spatial को लें, जो संवर्धित वास्तविकता और मैपिंग तकनीक से बना एक स्टार्टअप है पोकेमॉन गो. Niantic Spatial बड़े भू-स्थानिक मॉडल का निर्माण कर रहा है जो वास्तविक दुनिया के वातावरण की 3D में व्याख्या कर सकता है। सैन फ्रांसिस्को स्थित कंपनी 30 अरब से अधिक छवियों और 3डी स्कैन का उपयोग करती है, जो बड़े पैमाने पर वर्षों से क्राउडसोर्स किए गए हैं। पोकेमॉन गो प्लेयर गतिविधि और उसका स्कैनिवर्स ऐप।
तेल अवीव स्थित डेकार्ट विश्व मॉडलों को वास्तविक समय में धकेल रहा है, ऐसे सिस्टम बना रहा है जहां वातावरण न केवल अनुकरण किया जाता है बल्कि लगातार उत्पन्न और अद्यतन किया जाता है क्योंकि उपयोगकर्ता उनके साथ बातचीत करते हैं। अपने स्वयं के अनुकूलित सिस्टम का निर्माण करके, यह उपयोगकर्ता के कार्यों को फ्रेम दर फ्रेम मैच करने के लिए पर्याप्त तेजी से वीडियो उत्पन्न कर सकता है।
“वह मुख्य अनलॉक था,” एक शोध वैज्ञानिक और डेकार्ट के संस्थापक सदस्यों में से एक केफिर एबरमैन ने कहा। उन्होंने कहा, चुनौती केवल वीडियो तैयार करना नहीं है – बल्कि इसे इतनी तेजी से तैयार करना है कि तुरंत प्रतिक्रिया दी जा सके। यह पहले से ही वर्चुअल ट्राइ-ऑन जैसे अनुप्रयोगों में तब्दील हो रहा है, जहां कपड़े यथार्थवादी रूप से चलते हैं, साथ ही ऐसे उपकरण जो स्ट्रीमर्स को तुरंत वातावरण बदलने की अनुमति देते हैं।
कुछ विश्व मॉडलों में, समय का तत्व अभिन्न है, जो चौथे आयाम का निर्माण करता है। उदाहरण के लिए, सेल्फ-ड्राइविंग अग्रणी ओलिवर कैमरून और जेफ हॉक द्वारा स्थापित पालो अल्टो-आधारित ओडिसी, विश्व मॉडल बनाने पर केंद्रित है जो भविष्यवाणी कर सकता है कि दुनिया समय के साथ कैसे विकसित होती है – सीधे वीडियो से भौतिकी, मानव व्यवहार और कारण-और-प्रभाव सीखना।
कैमरून ने कहा, “हमने सोचा कि यह सिर्फ जादुई था, यह विचार कि आप भविष्य की भविष्यवाणी कर सकते हैं।” “क्या होगा अगर हम इसे सामान्य अनुप्रयोगों – रोबोटिक्स, गेमिंग, शिक्षा, स्वास्थ्य देखभाल, रक्षा के लिए संभव बना सकें?”
एक †̃ChatGPT पल’
सभी उत्साह के लिए, विश्व मॉडल का निर्माण भारी तकनीकी और आर्थिक बाधाओं के साथ आता है। प्रशिक्षण प्रणालियाँ जो वास्तविक दुनिया का अनुकरण कर सकती हैं, उन्हें आज के भाषा मॉडल की तुलना में कहीं अधिक कंप्यूटिंग शक्ति की आवश्यकता होती है, क्योंकि उन्हें न केवल शब्दों, बल्कि उच्च-रिज़ॉल्यूशन वीडियो को संसाधित करने की आवश्यकता होती है।
उदाहरण के लिए, कैमरून ने कहा है कि वह प्रत्येक उपयोगकर्ता के लिए एनवीडिया के शक्तिशाली H200 AI चिप्स में से एक लेता है जो इसके एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस के माध्यम से इसके ओडिसी 2 मॉडल तक पहुंचता है। प्रत्येक H200 की कीमत $40,000 तक हो सकती है।
डेटा एक और बाधा है. एलएलएम के विपरीत, जो इंटरनेट के विशाल भंडार से निकाले गए डेटा पर प्रशिक्षित होते हैं, विश्व मॉडल वीडियो पर बहुत अधिक निर्भर करते हैं – जो कहीं अधिक जटिल है और बड़े पैमाने पर एकत्र करना, लेबल करना और प्रशिक्षित करना कठिन है।
इनमें से किसी भी चुनौती ने विश्व मॉडल बनाने वालों के उत्साह को कम नहीं किया है। जैसे-जैसे शोधकर्ता उन प्रणालियों की ओर बढ़ रहे हैं जो भौतिक दुनिया को समझ सकती हैं और उसके साथ बातचीत कर सकती हैं, भावना यह है कि एक सफलता निकट हो सकती है।
एनवीडिया के लियू ने कहा, “फिलहाल भौतिक एआई में भारी मात्रा में उत्साह और निवेश है,” उन्होंने कहा कि “चैटजीपीटी क्षण” निकट है। उसकी अपनी पवित्र कब्र? केवल कुछ उदाहरणों से रोबोटों को नए कौशल सिखाना – यहां तक कि वे भी जिन्हें उन्होंने पहले कभी नहीं देखा है – और फिर उन्हें लगातार करना।
उन्होंने कहा, ”मुझे विश्वास है कि लोग धीरे-धीरे सही नुस्खा समझ रहे हैं।”
यह लेख जून/जुलाई 2026 अंक में प्रकाशित हुआ है भाग्यशीर्षक के साथ “एआई की अगली सीमा शब्दों से विश्व मॉडल की ओर बढ़ती है।”






