ആമുഖം

മുൻകൂട്ടി പരിശീലിപ്പിച്ച മോഡലുകളുടെ "അവസാന പോയിന്റ്" Grok3 ആയിരിക്കുമെന്ന് നിങ്ങൾ കരുതുന്നുണ്ടോ?

എലോൺ മസ്‌കും xAI ടീമും ഒരു ലൈവ്‌സ്ട്രീമിൽ Grok-ന്റെ ഏറ്റവും പുതിയ പതിപ്പായ Grok3 ഔദ്യോഗികമായി പുറത്തിറക്കി. ഈ പരിപാടിക്ക് മുമ്പ്, ബന്ധപ്പെട്ട നിരവധി വിവരങ്ങളും, മസ്‌കിന്റെ 24/7 പ്രൊമോഷണൽ ഹൈപ്പും ചേർന്ന് Grok3-നുള്ള ആഗോള പ്രതീക്ഷകളെ അഭൂതപൂർവമായ തലങ്ങളിലേക്ക് ഉയർത്തി. ഒരു ആഴ്ച മുമ്പ്, DeepSeek R1-ൽ അഭിപ്രായപ്പെടുമ്പോൾ, ഒരു ലൈവ്‌സ്ട്രീമിൽ മസ്‌ക് ആത്മവിശ്വാസത്തോടെ പ്രസ്താവിച്ചു, "xAI ഒരു മികച്ച AI മോഡൽ പുറത്തിറക്കാൻ പോകുന്നു." തത്സമയം അവതരിപ്പിച്ച ഡാറ്റയിൽ നിന്ന്, ഗണിതശാസ്ത്രം, ശാസ്ത്രം, പ്രോഗ്രാമിംഗ് എന്നിവയ്ക്കുള്ള മാനദണ്ഡങ്ങളിൽ Grok3 നിലവിലുള്ള എല്ലാ മുഖ്യധാരാ മോഡലുകളെയും മറികടന്നതായി റിപ്പോർട്ടുണ്ട്, SpaceX-ന്റെ ചൊവ്വ ദൗത്യങ്ങളുമായി ബന്ധപ്പെട്ട കമ്പ്യൂട്ടേഷണൽ ജോലികൾക്കായി Grok3 ഉപയോഗിക്കുമെന്ന് മസ്‌ക് അവകാശപ്പെട്ടു, "മൂന്ന് വർഷത്തിനുള്ളിൽ നോബൽ സമ്മാന തലത്തിൽ മുന്നേറ്റങ്ങൾ" പ്രവചിച്ചു. എന്നിരുന്നാലും, ഇവ നിലവിൽ മസ്‌കിന്റെ അവകാശവാദങ്ങൾ മാത്രമാണ്. ലോഞ്ചിനുശേഷം, ഞാൻ Grok3-ന്റെ ഏറ്റവും പുതിയ ബീറ്റാ പതിപ്പ് പരീക്ഷിക്കുകയും വലിയ മോഡലുകൾക്കുള്ള ക്ലാസിക് ട്രിക്ക് ചോദ്യം ഉന്നയിക്കുകയും ചെയ്തു: "ഏതാണ് വലുത്, 9.11 അല്ലെങ്കിൽ 9.9?" ഖേദകരമെന്നു പറയട്ടെ, യോഗ്യതകളോ അടയാളങ്ങളോ ഇല്ലാതെ, ഏറ്റവും മിടുക്കനായ ഗ്രോക്ക്3 എന്നറിയപ്പെടുന്നയാൾക്ക് ഇപ്പോഴും ഈ ചോദ്യത്തിന് ശരിയായി ഉത്തരം നൽകാൻ കഴിഞ്ഞില്ല. ചോദ്യത്തിന്റെ അർത്ഥം കൃത്യമായി തിരിച്ചറിയുന്നതിൽ ഗ്രോക്ക്3 പരാജയപ്പെട്ടു.

ഈ പരീക്ഷണം വളരെ പെട്ടെന്ന് തന്നെ പല സുഹൃത്തുക്കളുടെയും ശ്രദ്ധ പിടിച്ചുപറ്റി, യാദൃശ്ചികമായി, വിദേശത്ത് നടത്തിയ സമാനമായ വിവിധ പരീക്ഷണങ്ങളിൽ ഗ്രോക്ക്3 "പിസയിലെ ചായ്‌വ് ഗോപുരത്തിൽ നിന്ന് ആദ്യം വീഴുന്ന പന്ത് ഏതാണ്?" പോലുള്ള അടിസ്ഥാന ഭൗതികശാസ്ത്ര/ഗണിതശാസ്ത്ര ചോദ്യങ്ങളുമായി ബുദ്ധിമുട്ടുന്നതായി കണ്ടെത്തി. അതിനാൽ, "ലളിതമായ ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാൻ തയ്യാറാകാത്ത ഒരു പ്രതിഭ" എന്ന് ഇതിനെ നർമ്മത്തിൽ മുദ്രകുത്തിയിട്ടുണ്ട്.

Grok3 നല്ലതാണ്, പക്ഷേ അത് R1 നെക്കാളോ o1-Pro നെക്കാളോ മികച്ചതല്ല.

പ്രായോഗികമായി നിരവധി പൊതുവിജ്ഞാന പരിശോധനകളിൽ Grok3 "പരാജയങ്ങൾ" നേരിട്ടു. xAI ലോഞ്ച് ഇവന്റിനിടെ, മസ്ക് പലപ്പോഴും കളിക്കുമെന്ന് അവകാശപ്പെട്ടിരുന്ന പാത്ത് ഓഫ് എക്സൈൽ 2 ഗെയിമിലെ കഥാപാത്ര ക്ലാസുകളും ഇഫക്റ്റുകളും വിശകലനം ചെയ്യാൻ Grok3 ഉപയോഗിച്ച് പ്രദർശിപ്പിച്ചു, എന്നാൽ Grok3 നൽകിയ മിക്ക ഉത്തരങ്ങളും തെറ്റായിരുന്നു. ലൈവ് സ്ട്രീമിനിടെ മസ്ക് ഈ വ്യക്തമായ പ്രശ്നം ശ്രദ്ധിച്ചില്ല.

ഈ തെറ്റ്, ഗെയിമിംഗിൽ "ഒരു പകരക്കാരനെ കണ്ടെത്തിയതിന്" മസ്‌കിനെ പരിഹസിക്കാൻ വിദേശ ഇന്റർനെറ്റ് ഉപയോക്താക്കളെ പ്രേരിപ്പിക്കുക മാത്രമല്ല, പ്രായോഗിക പ്രയോഗങ്ങളിൽ Grok3 യുടെ വിശ്വാസ്യതയെക്കുറിച്ച് കാര്യമായ ആശങ്കകൾ ഉയർത്തുകയും ചെയ്തു. അത്തരമൊരു "പ്രതിഭയ്ക്ക്", അതിന്റെ യഥാർത്ഥ കഴിവുകൾ പരിഗണിക്കാതെ തന്നെ, ചൊവ്വ പര്യവേക്ഷണ ജോലികൾ പോലുള്ള വളരെ സങ്കീർണ്ണമായ പ്രയോഗ സാഹചര്യങ്ങളിൽ അതിന്റെ വിശ്വാസ്യത സംശയത്തിലാണ്.

നിലവിൽ, ആഴ്ചകൾക്ക് മുമ്പ് Grok3-ലേക്ക് ആക്‌സസ് ലഭിച്ച നിരവധി ടെസ്റ്റർമാരും, ഇന്നലെ കുറച്ച് മണിക്കൂറുകൾ മോഡൽ കഴിവുകൾ പരീക്ഷിച്ചവരും, എല്ലാവരും ഒരു പൊതു നിഗമനത്തിലേക്ക് വിരൽ ചൂണ്ടുന്നു: "Grok3 നല്ലതാണ്, പക്ഷേ അത് R1 അല്ലെങ്കിൽ o1-Pro-യെക്കാൾ മികച്ചതല്ല."

"എൻവിഡിയയെ തടസ്സപ്പെടുത്തുന്നു" എന്നതിനെക്കുറിച്ചുള്ള ഒരു നിർണായക വീക്ഷണം

റിലീസിനിടെ ഔദ്യോഗികമായി അവതരിപ്പിച്ച PPT-യിൽ, ചാറ്റ്ബോട്ട് അരീനയിൽ Grok3 "വളരെ മുന്നിലാണെന്ന്" കാണിച്ചു, പക്ഷേ ഇത് സമർത്ഥമായി ഗ്രാഫിക് ടെക്നിക്കുകൾ ഉപയോഗിച്ചു: ലീഡർബോർഡിലെ ലംബ അക്ഷം 1400-1300 സ്കോർ ശ്രേണിയിലെ ഫലങ്ങൾ മാത്രമേ പട്ടികപ്പെടുത്തിയിട്ടുള്ളൂ, ഇത് പരീക്ഷണ ഫലങ്ങളിലെ യഥാർത്ഥ 1% വ്യത്യാസം ഈ അവതരണത്തിൽ അസാധാരണമാംവിധം പ്രാധാന്യമുള്ളതായി കാണിക്കുന്നു.

യഥാർത്ഥ മോഡൽ സ്കോറിംഗ് ഫലങ്ങളിൽ, Grok3, DeepSeek R1, GPT-4.0 എന്നിവയേക്കാൾ വെറും 1-2% മുന്നിലാണ്, പ്രായോഗിക പരീക്ഷണങ്ങളിൽ "ശ്രദ്ധേയമായ വ്യത്യാസമൊന്നും കണ്ടെത്തിയില്ല" എന്ന് കണ്ടെത്തിയ നിരവധി ഉപയോക്താക്കളുടെ അനുഭവങ്ങളുമായി ഇത് പൊരുത്തപ്പെടുന്നു. Grok3 അതിന്റെ പിൻഗാമികളെ 1%-2% മാത്രമേ മറികടക്കുന്നുള്ളൂ.

നിലവിൽ പൊതുജനങ്ങൾക്കായി പരീക്ഷിച്ച എല്ലാ മോഡലുകളേക്കാളും ഉയർന്ന സ്കോർ Grok3 നേടിയിട്ടുണ്ടെങ്കിലും, പലരും ഇത് ഗൗരവമായി എടുക്കുന്നില്ല: എല്ലാത്തിനുമുപരി, Grok2 കാലഘട്ടത്തിൽ xAI "സ്കോർ കൃത്രിമത്വം" നടത്തിയതിന് മുമ്പ് വിമർശിക്കപ്പെട്ടിട്ടുണ്ട്. ലീഡർബോർഡ് ഉത്തര ദൈർഘ്യ ശൈലിയെ പിഴപ്പിച്ചതോടെ, സ്കോറുകൾ വളരെയധികം കുറഞ്ഞു, ഇത് വ്യവസായ മേഖലയിലെ വ്യക്തികളെ പലപ്പോഴും "ഉയർന്ന സ്കോറിംഗ് എന്നാൽ കുറഞ്ഞ കഴിവ്" എന്ന പ്രതിഭാസത്തെ വിമർശിക്കാൻ പ്രേരിപ്പിച്ചു.

ലീഡർബോർഡ് "മാനിപുലേഷൻ" വഴിയോ ചിത്രീകരണങ്ങളിലെ ഡിസൈൻ തന്ത്രങ്ങൾ വഴിയോ ആകട്ടെ, അവ xAI-യും മോഡൽ കഴിവുകളിൽ "പാക്കിനെ നയിക്കുന്നു" എന്ന ആശയത്തോടുള്ള മസ്കിന്റെ അഭിനിവേശവും വെളിപ്പെടുത്തുന്നു. ഈ മാർജിനുകൾക്ക് മസ്‌ക് വലിയ വില നൽകി: ലോഞ്ച് വേളയിൽ, 200,000 H100 GPU-കൾ ഉപയോഗിച്ചതായും (ലൈവ് സ്ട്രീമിൽ "100,000-ത്തിലധികം" എന്ന് അവകാശപ്പെട്ടു) മൊത്തം 200 ദശലക്ഷം മണിക്കൂർ പരിശീലന സമയം നേടിയതായും അദ്ദേഹം വീമ്പിളക്കി. ഇത് GPU വ്യവസായത്തിന് മറ്റൊരു പ്രധാന അനുഗ്രഹമാണെന്ന് ചിലർ വിശ്വസിക്കാനും ഈ മേഖലയിൽ DeepSeek ചെലുത്തുന്ന സ്വാധീനം "മണ്ടത്തരമായി" കണക്കാക്കാനും കാരണമായി. ശ്രദ്ധേയമായി, മോഡൽ പരിശീലനത്തിന്റെ ഭാവി കമ്പ്യൂട്ടേഷണൽ പവറായിരിക്കുമെന്ന് ചിലർ വിശ്വസിക്കുന്നു.

എന്നിരുന്നാലും, DeepSeek V3 നിർമ്മിക്കുന്നതിനായി രണ്ട് മാസത്തിനിടെ 2000 H800 GPU-കളുടെ ഉപഭോഗം താരതമ്യം ചെയ്ത ചില നെറ്റിസൺമാർ, Grok3-യുടെ യഥാർത്ഥ പരിശീലന വൈദ്യുതി ഉപഭോഗം V3-യുടെ 263 മടങ്ങ് ആണെന്ന് കണക്കാക്കി. 1402 പോയിന്റുകൾ നേടിയ DeepSeek V3-യും Grok3-യും തമ്മിലുള്ള വ്യത്യാസം 100 പോയിന്റിൽ താഴെയാണ്. ഈ ഡാറ്റ പുറത്തിറങ്ങിയതിനെത്തുടർന്ന്, Grok3-യുടെ "ലോകത്തിലെ ഏറ്റവും ശക്തമായത്" എന്ന പദവിക്ക് പിന്നിൽ വ്യക്തമായ ഒരു മാർജിനൽ യൂട്ടിലിറ്റി ഇഫക്റ്റ് ഉണ്ടെന്ന് പലരും പെട്ടെന്ന് മനസ്സിലാക്കി - ശക്തമായ പ്രകടനം സൃഷ്ടിക്കുന്ന വലിയ മോഡലുകളുടെ യുക്തി കുറഞ്ഞുവരുന്ന വരുമാനം കാണിക്കാൻ തുടങ്ങിയിരിക്കുന്നു.

"ഉയർന്ന സ്കോറിംഗ് ഉണ്ടായിരുന്നിട്ടും കുറഞ്ഞ കഴിവ്" ഉണ്ടായിരുന്നിട്ടും, ഉപയോഗത്തെ പിന്തുണയ്ക്കുന്നതിനായി X (ട്വിറ്റർ) പ്ലാറ്റ്‌ഫോമിൽ നിന്ന് ഉയർന്ന നിലവാരമുള്ള ഫസ്റ്റ്-പാർട്ടി ഡാറ്റയുടെ വലിയ അളവിൽ Grok2 ന് ഉണ്ടായിരുന്നു. എന്നിരുന്നാലും, Grok3 ന്റെ പരിശീലനത്തിൽ, xAI സ്വാഭാവികമായും OpenAI നിലവിൽ നേരിടുന്ന "സീലിംഗ്" നേരിട്ടു - പ്രീമിയം പരിശീലന ഡാറ്റയുടെ അഭാവം മോഡലിന്റെ കഴിവുകളുടെ നാമമാത്രമായ ഉപയോഗക്ഷമതയെ വേഗത്തിൽ തുറന്നുകാട്ടുന്നു.

ഗ്രോക്ക്3, മസ്‌ക് എന്നിവയുടെ ഡെവലപ്പർമാരാണ് ഈ വസ്തുതകൾ ആഴത്തിൽ മനസ്സിലാക്കുകയും തിരിച്ചറിയുകയും ചെയ്യുന്ന ആദ്യ വ്യക്തികൾ. അതുകൊണ്ടാണ് ഉപയോക്താക്കൾ ഇപ്പോൾ അനുഭവിക്കുന്ന പതിപ്പ് "ഇപ്പോഴും ബീറ്റ മാത്രമാണ്" എന്നും "പൂർണ്ണ പതിപ്പ് വരും മാസങ്ങളിൽ പുറത്തിറങ്ങും" എന്നും മസ്‌ക് സോഷ്യൽ മീഡിയയിൽ നിരന്തരം പരാമർശിക്കുന്നത്. ഗ്രോക്ക്3യുടെ ഉൽപ്പന്ന മാനേജരുടെ റോൾ മസ്‌ക് ഏറ്റെടുത്തു, ഉപയോക്താക്കൾ നേരിടുന്ന വിവിധ പ്രശ്‌നങ്ങളെക്കുറിച്ച് അഭിപ്രായങ്ങൾ നൽകണമെന്ന് അഭിപ്രായ വിഭാഗത്തിൽ നിർദ്ദേശിക്കുന്നു. ലോകത്തിലെ ഏറ്റവും കൂടുതൽ പിന്തുടരുന്ന ഉൽപ്പന്ന മാനേജർ അദ്ദേഹമായിരിക്കാം.

എന്നിരുന്നാലും, ഒരു ദിവസത്തിനുള്ളിൽ, ശക്തമായ വലിയ മോഡലുകളെ പരിശീലിപ്പിക്കുന്നതിന് "വമ്പൻ കമ്പ്യൂട്ടേഷണൽ പേശികളെ" ആശ്രയിക്കാൻ ആഗ്രഹിക്കുന്നവർക്ക് Grok3 യുടെ പ്രകടനം സംശയമില്ല, ആശങ്കാജനകമാണ്: പൊതുവായി ലഭ്യമായ മൈക്രോസോഫ്റ്റ് വിവരങ്ങളുടെ അടിസ്ഥാനത്തിൽ, OpenAI യുടെ GPT-4 ന് 1.8 ട്രില്യൺ പാരാമീറ്ററുകളുടെ പാരാമീറ്റർ വലുപ്പമുണ്ട്, ഇത് GPT-3 ന്റെ പത്തിരട്ടിയിലധികം വരും. GPT-4.5 ന്റെ പാരാമീറ്റർ വലുപ്പം ഇതിലും വലുതായിരിക്കാമെന്ന് കിംവദന്തികൾ സൂചിപ്പിക്കുന്നു.

മോഡൽ പാരാമീറ്റർ വലുപ്പങ്ങൾ കുതിച്ചുയരുന്നതിനനുസരിച്ച്, പരിശീലന ചെലവുകളും കുതിച്ചുയരുകയാണ്. Grok3 യുടെ സാന്നിധ്യത്തോടെ, പാരാമീറ്റർ വലുപ്പത്തിലൂടെ മികച്ച മോഡൽ പ്രകടനം നേടുന്നതിനായി "പണം കത്തിക്കുന്നത്" തുടരാൻ ആഗ്രഹിക്കുന്ന GPT-4.5 പോലുള്ള മത്സരാർത്ഥികൾ ഇപ്പോൾ വ്യക്തമായി കാണുന്ന പരിധി പരിഗണിക്കുകയും അത് എങ്ങനെ മറികടക്കാമെന്ന് ചിന്തിക്കുകയും വേണം. ഈ നിമിഷം, OpenAI-യിലെ മുൻ ചീഫ് സയന്റിസ്റ്റായ ഇല്യ സട്‌സ്‌കെവർ കഴിഞ്ഞ ഡിസംബറിൽ മുമ്പ് പ്രസ്താവിച്ചിരുന്നു, "നമുക്ക് പരിചിതമായ പ്രീ-ട്രെയിനിംഗ് അവസാനിക്കും", ഇത് ചർച്ചകളിൽ വീണ്ടും ഉയർന്നുവന്നിട്ടുണ്ട്, വലിയ മോഡലുകളെ പരിശീലിപ്പിക്കുന്നതിനുള്ള യഥാർത്ഥ പാത കണ്ടെത്താനുള്ള ശ്രമങ്ങളെ പ്രേരിപ്പിച്ചു.

ഇല്യയുടെ കാഴ്ചപ്പാട് വ്യവസായത്തിൽ ഒരു അലാറം മുഴക്കിയിരിക്കുന്നു. ആക്സസ് ചെയ്യാവുന്ന പുതിയ ഡാറ്റയുടെ ആസന്നമായ ക്ഷീണം അദ്ദേഹം കൃത്യമായി മുൻകൂട്ടി കണ്ടു, ഇത് ഡാറ്റാ ഏറ്റെടുക്കലിലൂടെ പ്രകടനം മെച്ചപ്പെടുത്താൻ കഴിയാത്ത ഒരു സാഹചര്യത്തിലേക്ക് നയിക്കുന്നു, ഫോസിൽ ഇന്ധനങ്ങളുടെ ക്ഷീണത്തോട് അതിനെ ഉപമിച്ചു. "എണ്ണയെപ്പോലെ, ഇന്റർനെറ്റിലെ മനുഷ്യൻ സൃഷ്ടിക്കുന്ന ഉള്ളടക്കം ഒരു പരിമിതമായ വിഭവമാണ്" എന്ന് അദ്ദേഹം സൂചിപ്പിച്ചു. സട്‌സ്‌കെവറിന്റെ പ്രവചനങ്ങളിൽ, അടുത്ത തലമുറ മോഡലുകൾക്ക്, പ്രീ-ട്രെയിനിംഗിന് ശേഷം, "മനുഷ്യ തലച്ചോറിന് സമാനമായ" "യഥാർത്ഥ സ്വയംഭരണവും" യുക്തിസഹമായ കഴിവുകളും ഉണ്ടായിരിക്കും.

ഇന്നത്തെ പ്രീ-ട്രെയിൻഡ് മോഡലുകളിൽ നിന്ന് വ്യത്യസ്തമായി, പ്രധാനമായും ഉള്ളടക്ക പൊരുത്തപ്പെടുത്തലിനെ (മുമ്പ് പഠിച്ച മോഡൽ ഉള്ളടക്കത്തെ അടിസ്ഥാനമാക്കി) ആശ്രയിക്കുന്നവയിൽ നിന്ന് വ്യത്യസ്തമായി, ഭാവിയിലെ AI സിസ്റ്റങ്ങൾക്ക് മനുഷ്യ മസ്തിഷ്കത്തിന്റെ "ചിന്ത" പോലെയുള്ള രീതിയിൽ പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിനുള്ള രീതിശാസ്ത്രങ്ങൾ പഠിക്കാനും സ്ഥാപിക്കാനും കഴിയും. അടിസ്ഥാന പ്രൊഫഷണൽ സാഹിത്യം മാത്രം ഉപയോഗിച്ച് ഒരു മനുഷ്യന് ഒരു വിഷയത്തിൽ അടിസ്ഥാനപരമായ പ്രാവീണ്യം നേടാൻ കഴിയും, അതേസമയം ഒരു AI വലിയ മോഡലിന് ഏറ്റവും അടിസ്ഥാനപരമായ എൻട്രി-ലെവൽ ഫലപ്രാപ്തി കൈവരിക്കാൻ ദശലക്ഷക്കണക്കിന് ഡാറ്റ പോയിന്റുകൾ ആവശ്യമാണ്. പദപ്രയോഗം ചെറുതായി മാറ്റിയാലും, ഈ അടിസ്ഥാന ചോദ്യങ്ങൾ ശരിയായി മനസ്സിലാക്കാൻ കഴിഞ്ഞേക്കില്ല, ഇത് മോഡൽ ബുദ്ധിയിൽ യഥാർത്ഥത്തിൽ മെച്ചപ്പെട്ടിട്ടില്ലെന്ന് വ്യക്തമാക്കുന്നു: ലേഖനത്തിന്റെ തുടക്കത്തിൽ പരാമർശിച്ച അടിസ്ഥാനപരവും എന്നാൽ പരിഹരിക്കാനാവാത്തതുമായ ചോദ്യങ്ങൾ ഈ പ്രതിഭാസത്തിന്റെ വ്യക്തമായ ഉദാഹരണമാണ്.

തീരുമാനം

എന്നിരുന്നാലും, ക്രൂരമായ ശക്തിക്കപ്പുറം, "മുൻകൂട്ടി പരിശീലനം നേടിയ മോഡലുകൾ അവയുടെ അവസാനത്തിലേക്ക് അടുക്കുന്നു" എന്ന് വ്യവസായത്തിന് വെളിപ്പെടുത്തുന്നതിൽ Grok3 വിജയിച്ചാൽ, അത് ഈ മേഖലയ്ക്ക് കാര്യമായ പ്രത്യാഘാതങ്ങൾ ഉണ്ടാക്കും.

ഒരുപക്ഷേ Grok3 നെ ചുറ്റിപ്പറ്റിയുള്ള കോലാഹലം ക്രമേണ ശമിച്ചുകഴിഞ്ഞാൽ, "ഒരു പ്രത്യേക ഡാറ്റാസെറ്റിൽ വെറും $50-ന് ഉയർന്ന പ്രകടന മോഡലുകൾ ട്യൂൺ ചെയ്യുക" എന്ന Fei-Fei Li യുടെ ഉദാഹരണം പോലെയുള്ള കൂടുതൽ കേസുകൾക്ക് നമ്മൾ സാക്ഷ്യം വഹിക്കും, ഒടുവിൽ AGI-യിലേക്കുള്ള യഥാർത്ഥ പാത കണ്ടെത്തും.