मानिसको मनभित्रका अव्यक्त विचार पढ्दैछ एआई

हाम्रो मस्तिष्कभित्र उत्पन्न हुने विद्युतीय तरंगहरू लामो समयदेखि बुझ्न निकै जटिल मानिन्थे। तर, कृत्रिम बौद्धिकता -एआईले अब यसलाई परिवर्तन गर्दैछ।

ती महिला सास फेर्दा छाती तलमाथि हुने बाहेक रतिभर हल्लिएकी थिइनन्। उनका आँखा एकाग्र थिए र हात मुठ्ठी परेको थियो। उनको अगाडि रहेको स्क्रिनमा शब्दहरू बन्दै थिए, जुन बिस्तारै जोडिएर पूर्ण वाक्य बन्दै थिए। यी त्यस्ता वाक्य थिए, जुन उनी मुखले बोल्न सक्दिनन्।

१९ वर्षअघि मस्तिष्कघातका कारण पक्षघातको सिकार भएकी ५२ वर्षीया ती महिला स्पष्ट बोल्न सक्दिनन्। तर यहाँ, उनको मनभित्र चलिरहेको कुराकानी उनको आँखा अगाडि स्क्रिनमा देखा पर्दै थियो।

‘टी१६’ नाम दिइएकी ती सहभागीको मस्तिष्कको अघिल्लो भागमा शल्यक्रियामार्फत स-साना इलेक्ट्रोडहरूको एउटा समूह राखिएको थियो। अहिले एआई जडित कम्प्युटरले उनले कुनै शब्द बोल्ने कल्पना गर्दा उनका न्युरोन (स्नायु कोष) ले निकाल्ने संकेतहरूलाई डिकोड गरेर स्क्रिनमा अक्षरको रूपमा अनुवाद गरिरहेको थियो।

अमेरिकाको क्यालिफोर्नियास्थित स्ट्यानफोर्ड विश्वविद्यालयमा भइरहेको यो अध्ययनमा उनी, स्नायुसम्बन्धी रोग एएलएस भएका अन्य तीन बिरामीहरूसँगै सहभागी थिइन्। यसको उद्देश्य मानिसको सोचलाई वास्तविक समय मै अक्षरमा बदल्ने प्रविधिको परीक्षण गर्नु थियो।

यो वैज्ञानिकहरू ‘मन पढ्ने’ प्रविधिको सबैभन्दा नजिक पुगेको क्षण थियो।

अनुसन्धानकर्ताहरूले सन् २०२५ को अगस्टमा आफ्नो यो सफलता सार्वजनिक गरे। त्यसको केही महिनापछि, जापानका शोधकर्ताहरूले मानिसले जे देखिरहेको छ वा मनमा जे कल्पना गरिरहेको छ, त्यसको विस्तृत र सटीक विवरण तयार गर्न सक्ने ‘माइन्ड क्याप्सनिङ’ प्रविधि सार्वजनिक गरे। यसमा मस्तिष्कको गतिविधिलाई अनुवाद गर्न तीन फरक एआई उपकरणहरू र मस्तिष्क स्क्यान विधिको संयोजन गरिएको थियो।

यी दुवै अध्ययनहरू हालैका ती ठूला सफलताहरू हुन् जसले स्नायु वैज्ञानिकहरूलाई मानव मस्तिष्कको भित्री कार्यप्रणाली बुझ्ने नयाँ झ्याल खोलिदिएका छन् र बोल्न नसक्ने मानिसहरूलाई सञ्चार गर्ने अवसर प्रदान गरेका छन्।

भविष्यमा यसले हामीले आफ्नो वरपरको संसार र एकअर्कासँग गर्ने अन्तरक्रियाको तरिकालाई नै पूर्ण रूपमा बदल्न सक्नेछ।

‘आगामी केही वर्षहरूमा, हामी यी प्रविधिहरूलाई व्यावसायिक रूपमा उत्पादन भई व्यापक रूपमा प्रयोग भएको देख्न थाल्नेछौँ,’ अमेरिकाको युनिभर्सिटी अफ क्यालिफोर्निया, डेभिसको न्युरोप्रोस्थेटिक्स प्रयोगशालामा ब्रेन-कम्प्युटर इन्टरफेस विकास गरिरहेकी न्युरोइन्जिनियर मैत्रेयी वैरागकर भन्छिन्। इलोन मस्कको न्युरालिंकलगायत धेरै कम्पनीहरूले यस प्रविधिलाई प्रयोगशालाबाट निकालेर वास्तविक संसारमा ल्याउन व्यावसायिक ‘ब्रेन चिप’ उत्पादन गर्ने प्रयास गरिरहेका छन्। वैरागकर थप्छिन्, ‘यो निकै उत्साहजनक छ।’

मानव मस्तिष्कसँग सीधै सञ्चार गर्न सक्ने उपकरण, जसलाई ब्रेन(कम्प्युटर इन्टरफेस ९बीसीआई० भनिन्छ, बनाउन वैज्ञानिकहरूले निकै लामो समयदेखि काम गरिरहेका छन्।

सन् १९६९ मा, अमेरिकी स्नायु वैज्ञानिक एबरहार्ड फेट्जले बाँदरहरूलाई खानेकुराको प्रलोभन देखाएर उनीहरूको मस्तिष्कको एउटै न्युरोनको गतिविधिबाट मिटरको सुई हल्लाउन सिकाउन सकिन्छ भन्ने प्रमाणित गरेका थिए। सोही समयको अर्को एउटा अनौठो प्रयोगमा, स्पेनी वैज्ञानिक जोसे डेलगाडोले रिसाएर दौडिरहेको साँढेको मस्तिष्कलाई रिमोटबाट नियन्त्रण गर्दै बीचमै रोक्न सफल भएका थिए।

दशकौँदेखि बीसीआई प्रविधिले चालसँग सम्बन्धित मस्तिष्कका संकेतहरू डिकोड गर्दै आएको छ, जसले गर्दा प्रयोगकर्ताहरूले कृत्रिम हातखुट्टा वा स्क्रिनमा कर्सर नियन्त्रण गर्न सक्छन्।

तर मस्तिष्कका संकेतहरूबाट बोली वा अन्य जटिल विचारहरू अनुवाद गर्ने बीसीआईको विकास भने सुस्त गतिमा भइरहेको थियो। ‘सुरुवाती चरणका धेरैजसो कामहरू बाँदर जस्ता जनावरहरूमा गरिएका थिए र स्पष्ट छ कि जनावरहरूमा बोलीको अध्ययन गर्न सकिँदैन,’ वैरागकर भन्छिन्।

यद्यपि, हालैका वर्षहरूमा सञ्चार क्षमता गुमाएका व्यक्तिहरू (जस्तै पक्षघात भएका वा लक्ड-इन सिन्ड्रोम भएका एएलएस बिरामीहरू) को बोली डिकोड गर्ने प्रयासमा यस क्षेत्रले उल्लेखनीय प्रगति गरेको छ।

उदाहरणका लागि, सन् २०२१ मा स्ट्यानफोर्ड विश्वविद्यालयका अनुसन्धानकर्ताहरूले हातखुट्टा नचल्ने एक व्यक्तिलाई हावामा अक्षर लेखेको कल्पना गर्न लगाएर अंग्रेजी वाक्यहरू उत्पादन गर्न सफल भएका थिए। यो विधि प्रयोग गरेर उनले प्रतिमिनेट १८ शब्द लेख्न सकेका थिए।

मानिसको सामान्य बोली प्रतिमिनेट करिब १५० शब्दको हुन्छ, त्यसैले अर्को चरण भनेको बोलीकै कारण उत्पन्न हुने स्नायु गतिविधिबाट शब्दहरू डिकोड गर्नु थियो।

सन् २०२४ मा, वैरागकरको प्रयोगशालाले एएलएस भएका ४५ वर्षीय पुरुषले बोल्न खोजेका कुरालाई सीधै कम्प्युटर स्क्रिनमा अक्षरमा रूपान्तरण गर्ने प्रविधिको परीक्षण गर्‍यो। ९७.५५ शुद्धताका साथ प्रतिमिनेट करिब ३२ शब्दको गति प्राप्त गर्नु, स्पीच बीसीआईले दैनिक सञ्चारमा कसरी मद्दत गर्न सक्छ भन्ने पहिलो प्रमाण भएको वैरागकर बताउँछिन्।

यी विधिहरू मस्तिष्कको सतहमा शल्यक्रिया गरेर राखिने स(साना माइक्रोइलेक्ट्रोडहरूमा निर्भर हुन्छन्। ती इलेक्ट्रोडहरूले मस्तिष्कको जुन भागमा राखिएको छ, त्यहाँको स्नायु गतिविधिको ढाँचा रेकर्ड गर्छन् र कम्प्युटर अल्गोरिदमले ती संकेतहरूलाई अर्थमा परिणत गर्छ।

यहीँनेर आर्टिफिसियल इन्टेलिजेन्सको एउटा प्रकार, मेसिन लर्निङको शक्तिले जादु देखाएको छ। यी अल्गोरिदमहरू विशाल तथ्याङ्कबाट ढाँचाहरू पहिचान गर्न सिपालु हुन्छन्। बोली डिकोड गर्ने मामलामा, मेसिन लर्निङ अल्गोरिदमलाई भाषाका साना एकाइहरूसँग सम्बन्धित मस्तिष्कको गतिविधिको ढाँचा पहिचान गर्न तालिम दिइएको हुन्छ।

वैज्ञानिकहरूले यसलाई अमेजनको एलेक्साजस्ता स्मार्ट असिस्टेन्टमा हुने प्रक्रियासँग तुलना गरेका छन्। तर यसमा एआईले ध्वनिको सट्टा न्युरल -स्नायु संकेतहरूको व्याख्या गर्छ।

भित्री बोली खोल्दै
बोली डिकोड गर्ने यी हालैका प्रयासहरू जतिसुकै प्रभावशाली भए तापनि, केही समस्याहरू अझै बाँकी थिए। सामान्यतया, बिरामीहरूले आफूले भन्न चाहेका शब्दहरू शारीरिक रूपमा उच्चारण गर्न नसके पनि बोल्ने प्रयास गर्नुपर्ने हुन्थ्यो, अनि मात्र बीसीआई प्रविधिले त्यसलाई सही रूपमा अनुवाद गर्न सक्थ्यो।

यसको कारण के हो भने, इलेक्ट्रोडहरू सामान्यतया ‘मोटर कर्टेक्स’ (मांसपेशीको चाल नियन्त्रण गर्ने मस्तिष्कको भाग) मा राखिएको हुन्छ।

तर, बोल्ने प्रयास गर्दा बल पर्छ, जसले गर्दा सञ्चार प्रक्रिया ढिलो र कष्टकर हुन्छ। स्ट्यानफोर्ड विश्वविद्यालयका अनुसन्धानकर्ताहरू आफ्नो पछिल्लो प्रयासमा अझ सजिलो तरिका छ कि छैन भनेर परीक्षण गर्न चाहन्थेस् के उनीहरूले बोल्ने प्रयासका साथसाथै मनमनै सोचेको कुरालाई पनि वास्तविक समयमै टिप्न सक्ने विधि डिजाइन गर्न सक्छन्रु

‘हामीले उनीहरूलाई स्क्रिनमा रहेको निश्चित रङका आकृतिहरूको संख्या गन्न भन्यौँ, किनभने हाम्रो विचारमा यस्तो काम गर्दा मानिसले मनमनै अंक गन्छन्,’ यस लेखको सुरुमा उल्लेख गरिएकी महिला संलग्न अध्ययनका एक लेखक तथा स्ट्यानफोर्ड विश्वविद्यालयको न्युरल प्रोस्थेटिक्स ट्रान्सलेसनल ल्याबका सह(निर्देशक फ्रान्क विलेट भन्छन्, ‘हामीले त्यही पायौँ। हामीले मोटर कर्टेक्स हुँदै गुज्रिरहेका ती संख्याका शब्दहरूको संकेत भेट्टायौं, जसलाई हामीले टिप्न सक्यौँ।’

के यस प्रविधिले भित्री बोली पहिचान गर्न सक्छरु भन्ने प्रश्नको उत्तर प्रारम्भिक रूपमा ‘सक्छ’ भन्ने थियो। मनमनै वाक्य कल्पना गर्ने काममा, अनुसन्धानकर्ताहरूले वास्तविक समयमा ७४५ सम्म शुद्धता प्राप्त गर्न सफल भए। अचानक आउने भित्री बोलीलाई प्रेरित गर्न डिजाइन गरिएका कामहरूमा शुद्धता केही कम भए पनि त्यो अनुमानभन्दा माथि नै थियो।

तर, जब सहभागीहरूलाई तपाईंलाई मनपर्ने चलचित्रको संवाद सम्झनुहोस् जस्ता खुला प्रश्नहरू दिइयो, डिकोड गरिएको भाषा अधिकांश रूपमा अर्थहीन थियो।

‘हालको प्रविधिबाट हामी कसैको पूरै भित्री बोलीलाई शतप्रतिशत शुद्धताका साथ प्राप्त गर्न सक्दैनौँ,’ विलेटले भने, ‘तर हामी यी विभिन्न कार्यहरूमा भित्री बोलीका संकेतहरू स्पष्ट रूपमा टिप्न सफल भयौँ।’

यस अध्ययनले हाम्रो मस्तिष्कमा भित्री बोली कसरी काम गर्छ भन्ने कुरामा थप प्रकाश पारेको छ। यसले भित्री बोलीका स्नायु ढाँचाहरू मोटर कर्टेक्समा हुने बोल्ने प्रयासका ढाँचाहरूसँग निकै मिल्दोजुल्दो हुने, तर त्यसबाट निस्कने संकेतहरू कमजोर हुने पत्ता लगायो।

शब्दभन्दा बाहिर
युनिभर्सिटी अफ क्यालिफोर्निया, डेभिसमा रहेको वैरागकरको प्रयोगशालाले सन् २०२५ मा अर्को ठूलो सफलता हात पार्‍यो। उनीहरूले शब्दहरू मात्र नभई बोल्ने शैली, स्वरको उचाइ (पिच), गति र लयजस्ता गैरशाब्दिक पक्षहरू पनि डिकोड गर्न सकिने देखाए।

मूलतः यसले बिरामीहरूलाई शब्दका साथै आफ्नो भावना र जोड पनि व्यक्त गर्न अनुमति दियो।

‘मानव बोली भनेको स्क्रिनमा देखिने अक्षर मात्र होइन,’ वैरागकर भन्छिन्, ‘हाम्रो अधिकांश सञ्चार हामी कसरी बोल्छौं, कसरी आफूलाई अभिव्यक्त गर्छौं भन्नेमा भर पर्छस हामीले बोल्ने कुराको अर्थ सन्दर्भ अनुसार फरक हुन्छ।’

वैरागकर र उनका सहकर्मीहरूले बोली सम्बन्धी गम्भीर समस्या भएका एएलएस बिरामीले बोल्न खोज्दा उनीहरूको प्रोटोटाइपले त्यसलाई आवाजमा बदल्न सक्छ भनेर प्रदर्शन गरे।

महत्त्वपूर्ण कुरा के छ भने, सहभागीले अर्थ खुलाउन आफ्ना शब्दहरूलाई परिमार्जन गर्न सक्षम थिए। ‘हाम्रा सहभागी वाक्यको अन्त्यमा स्वर बदलेर प्रश्न सोध्न र बोल्दा आफ्नो स्वरको उचाइ परिवर्तन गर्न सक्षम थिए,’ वैरागकरले भनिन्।

यो पूर्ण रूपमा सिद्ध त थिएन, तर परीक्षकहरूले ६०५ शब्दहरू बुझ्न सकिने बताए। उत्कृष्ट प्रविधिको तुलनामा यो अझै पछाडि भए पनि, यसले निकट भविष्यमा के सम्भव छ भन्ने देखाएको छ।

वैरागकर र विलेट दुवै थप प्रगति छिट्टै हुनेमा विश्वस्त छन्। यसलाई सुधार गर्ने एउटा तरिका मस्तिष्कमा राखिने माइक्रोइलेक्ट्रोडहरूको संख्या बढाउनु हुन सक्छ। ‘हाम्रो मस्तिष्कमा अरबौं न्युरोन र खर्बौं कनेक्सन छन्,’ वैरागकर भन्छिन्। उनको पछिल्लो अध्ययनमा, ‘हामीले तीमध्ये २५६ वटा मात्र नमुना लिइरहेका थियौं।’

‘नयाँ उपकरण र अझ राम्रो प्रविधिले धेरै न्युरोनहरूबाट नमुना लिन, अझ विस्तृत जानकारी प्राप्त गर्न र वास्तविक समयमै स्पष्ट बुझिने बोली निकाल्न सक्नेछन्,’ उनी थप्छिन्।

विलेट विशेष गरी भित्री बोलीको थप अन्वेषण गर्न इच्छुक छन्। उनी श्रवण प्रक्रियामा संलग्न मस्तिष्कको भागले भित्री बोलीमा पनि भूमिका खेल्न सक्ने बताउँछन्। मोटर कर्टेक्स बाहिरका क्षेत्रहरूको अध्ययन गर्नु ती व्यक्तिहरूलाई मद्दत गर्न पनि महत्त्वपूर्ण हुन सक्छ जसको मस्तिष्कको यस भागमा चोट लागेको छ। जस्तै मस्तिष्कघातका बिरामीहरू।

देख्नु नै विश्वास गर्नु हो
एकतर्फ शोधकर्ताहरू बिरामीहरूलाई मद्दत गर्ने प्रविधिको व्यावहारिक प्रयोगमा केन्द्रित छन् भने, अर्कोतर्फ मस्तिष्क स्क्यान डिकोड गरेर मस्तिष्कले कसरी काम गर्छ भनेर बुझ्न पनि प्रगति भइरहेको छ।

यसको एउटा क्षेत्र एआईको सहायताले मस्तिष्क स्क्यान विश्लेषण गरेर व्यक्तिले देखेका चित्रहरू पुनस् निर्माण गर्नमा केन्द्रित छ। यसमा सहभागीहरूलाई चित्रहरू देखाइन्छ र ‘फंक्सनल म्याग्नेटिक रेसोनेन्स इमेजिङ’ (एफएमआरआई) मार्फत उनीहरूको मस्तिष्कको गतिविधि रेकर्ड गरिन्छ। त्यसपछि ती स्नायु तथ्याङ्कहरूलाई अल्गोरिदमले डिकोड गर्छ र एआई इमेज जेनेरेटरमा पठाउँछ, जसले सहभागीले देखेका चित्रहरू जस्तै चित्र बनाउने प्रयास गर्छ।

जेनेरेटिभ एआईको लहरले यस क्षेत्रलाई ठूलो गति दिएको छ। स्टेबल डिफ्युजन जस्ता पछिल्ला एआई इमेज जेनेरेटरहरूले उत्पादन हुने चित्रहरूको गुणस्तरमा व्यापक सुधार ल्याएका छन्।

जापानको नागोया इन्स्टिच्युट अफ टेक्नोलोजीका सह(प्राध्यापक यु ताकागीले २०२३ मा यसै विधिमा आधारित एक अध्ययन प्रकाशित गरे।

धेरैजसो अवस्थामा, एआईले मूल चित्रको राम्रो नमुना प्रस्तुत गर्न सकेको थियो । यद्यपि सलादको कचौराको चित्र भने यसले ठम्याउन सकेन।

यो क्षेत्र अब द्रुत गतिमा अघि बढिरहेको छ। गत वर्ष इजरायलका शोधकर्ताहरूले अझै सटीक चित्रहरू पुनः निर्माण गर्न सफलता पाएका थिए।

यस्ता अध्ययनहरूले मस्तिष्कले दृश्य जानकारीलाई कसरी प्रशोधन गर्छ भनेर बुझ्न मद्दत गरेको ताकागी बताउँछन्।

संगीतको धुन
श्रवण अनुभवहरूलाई पुनः निर्माण गर्ने प्रयासहरू पनि भइरहेका छन्। सन् २०२५ मा, ताकागीले एउटा अध्ययन प्रकाशित गरे जसमा सहभागीहरूले संगीत सुनिरहेको बेला लिइएको एफएमआरआई स्क्यानबाट गुगलको अल्गोरिदम प्रयोग गरी सोही अडियो पुनः निर्माण गर्ने प्रयास गरिएको थियो।

ताकागी भन्छन्, दृश्यहरू पुनः निर्माण गर्नुभन्दा यो बढी चुनौतीपूर्ण हुन सक्छ। ‘तस्बिर पुनः निर्माणको तुलनामा यसको गुणस्तर अलि कम छ,’ उनी भन्छन्, ‘तर हामी संगीतको प्रकृति र यसको आधारभूत श्रेणी पुनः निर्माण गर्न भने सफल भयौँ।’

यी विधिहरूले भविष्यमा गर्न सक्ने सम्भावित कामहरूबारे ताकागी उत्साहित छन्। यी प्रविधिहरू प्रयोग गरेर सिजोफ्रेनिया जस्ता मानसिक रोग भएका बिरामीहरूले सुन्ने वा देख्ने भ्रमलाई पुनः निर्माण गरी उनीहरूको अवस्था अझ राम्ररी बुझ्न सकिने उनी बताउँछन्।

यस्ता प्रविधिहरू जनावरहरूले संसारलाई कसरी देख्छन् भनेर बुझ्न वा मानिसले देख्ने सपनाहरू पुनः निर्माण गर्न पनि प्रयोग गर्न सकिन्छ।

‘धेरै मानिसहरूले यसको बारेमा सोधिरहेका हुन्छन्,’ ताकागी हाँस्दै भन्छन्। उनी कुनै दिन सपनाहरूलाई स्क्रिनमा उतार्न चाहन्छन्, तर अहिलेको लागि यो अत्यन्तै जटिल कुरा हो। केही अनुसन्धानहरूले त एकैपटक धेरै व्यक्तिहरूसँग सीधै ‘मस्तिष्कबाट मस्तिष्क’ सञ्चार गर्ने सम्भावना पनि औंल्याएका छन्।

मनोरञ्जनको लागि मस्तिष्कमा दृश्य वा श्रवण अनुभवहरू उत्पन्न गराउन सम्भव होला कि भनेर आश गर्नेहरूलाई ताकागी धैर्य गर्न सल्लाह दिन्छन्।

सैद्धान्तिक रूपमा यो सम्भव भए तापनि, प्राविधिक सीमितताका कारण यो अझै १० देखि २० वर्षसम्म सम्भव नहुने उनी बताउँछन्।

एजेन्सी

 

 

 

रातोपाटीबाट साभार