Në vitin 1950, Alan Turing propozoi një mënyrë elegante të thjeshtë por thellësisht sfiduese për të përcaktuar nëse makinat mund të thuhet se “mendojnë”. E njohur si Testi Turing, kjo masë e inteligjencës së makinerive vendos njerëzit dhe makinat në konkurrencën bisedore, duke sfiduar gjyqtarët njerëzorë për të bërë dallimin midis inteligjencës artificiale dhe origjinale përmes ndërveprimeve të bazuara në tekst.
Megjithë përpjekjet e shumta, asnjë sistem artificial nuk e kishte kaluar kurrë bindshëm këtë provë. Deri më tani.
Cameron Jones dhe Benjamin Bergen nga Universiteti i Kalifornisë, San Diego, janë mbledhur për herë të parë prova empirike që GPT-4.5 i Openai, një model i sofistikuar i gjuhës së madhe (LLM), ka kaluar me sukses testin Turing. Jo vetëm që GPT-4.5 kaloi, por në kushte specifike, ajo tejkaloi homologët njerëzorë në bindjen e pjesëmarrësve të njerëzimit të tij.
Puna ka implikime domethënëse për shoqërinë, etikën dhe të kuptuarit e njerëzimit për vetë inteligjencën.
Makinë V Human
Testi Turing gropton një hetues kundër dy partnerëve bisedorë – një njeri dhe një makinë – duke u angazhuar të dy njëkohësisht përmes tekstit. Detyra e marrjes në pyetje është e thjeshtë: të vendosësh se cili partner bisedor është njerëzor. Por, megjithë përparimet e shpejta në gjuhësinë llogaritëse dhe mësimin e makinerive, sistemet e AI vazhdimisht kanë dështuar në këtë sfidë në dukje të drejtpërdrejtë.
Për të marrë provën, Jones dhe Bergen rekrutuan 284 pjesëmarrës me prejardhje të ndryshme, duke përfshirë studentë universitare dhe punëtorë me burim të turmës nga Prolific, një kompani e teknologjisë që punëson njerëzit për të marrë pjesë në eksperimente të lidhura me AI.
Studiuesit shënuan disa modele bashkëkohore të AI kundër njerëzve-përfshirë GPT-4O, LLAMA-3.1-405B, dhe GPT-4.5. Shtë interesante, GPT-4.5 u shfaq si fitues por vetëm kur u udhëzua të përvetësojë një “person të ngjashëm njerëzor”. Në ato biseda, GPT-4.5 u gjykua të jetë 73% njerëzore e kohës: dukshëm më shpesh sesa marrësit në pyetje zgjodhën pjesëmarrësin e vërtetë të njeriut, thonë Jones dhe Bergen, duke theksuar një zhvendosje të jashtëzakonshme në aftësinë e AI për të imituar bisedën njerëzore.
Studiuesit gjithashtu përdorën një chatbot më të vjetër të bazuar në rregull të quajtur Eliza për të gjeneruar tekst dhe kjo u identifikua lehtësisht si një makinë nga gjyqtarët. Në mënyrë të ngjashme, GPT-4O, një model i gjeneratës së mëparshme, gjithashtu nënvlerësoi ndjeshëm, i zgjedhur si njerëzor në vetëm 21% të rasteve. “Rezultatet përbëjnë provat e para empirike që çdo sistem artificial kalon një test standard tre-palësh,” thonë Jones dhe Bergen.
Jones dhe Bergen i atribuojnë një pjesë të suksesit të GPT4.5 në hartimin e kujdesshëm të kërkesave të dizajnuara për të udhëhequr modelin në miratimin e një personi që njerëzit e shohin relativisht dhe bindshëm autentik – konkretisht, një personalitet i një të riu introverte që rrjedhin rrjedhin në slang dhe kulturë në internet. Aftësia e GPT4.5 për ta bërë këtë, thonë studiuesit, demonstron komandë të nuancuar mbi modelet gjuhësore dhe hollësitë interaktive më parë menduan në mënyrë unike njerëzore.
“Isshtë me siguri lehtësia me të cilën mund të nxitet LLM -të që të përshtaten sjelljen e tyre me skenarë të ndryshëm që i bëjnë ata kaq fleksibël: dhe me sa duket aq të aftë për të kaluar si njerëzorë,” thonë Jones dhe Bergen. Kjo përshtatshmëri, në vend se të jetë një dobësi, është pikërisht ajo që nënvizon inteligjencën e tyre në zhvillim.
Sigurisht, puna gjithashtu shtron pyetjen e butë nëse testi i Turing po mat fare inteligjencën ose thjesht mat aftësinë për të kaluar testin. Sido që të jetë, suksesi i GPT-4.5 sfidon mençurinë konvencionale që inteligjenca e mirëfilltë duhet të përfshijë vetëdijen e vetëdijshme ose kuptimin e thellë. Mund edhe të nxisë një rivlerësim të kritereve të përdorura për të përcaktuar aftësitë njohëse dhe intelektin.
Evoluimi i inteligjencës
Ky është një rezultat mbresëlënës me implikime të rëndësishme etike, ekonomike dhe sociale. “Modelet me këtë aftësi për të mashtruar dhe maskuar me forcë pasi njerëzit mund të përdoren për inxhinieri sociale ose për të përhapur dezinformata,” thonë studiuesit, duke paralajmëruar keqpërdorimin e mundshëm të “njerëzve të falsifikuar” në politikë, marketing dhe siguri në internet.
Por ekziston edhe një përmbysje e qartë, megjithëse me paralajmërime të rëndësishme. Agjentët më të mirë bisedues mund të përmirësojnë ndjeshëm ndërveprimet njerëzore-kompjuterike, të përmirësojnë shërbimet e automatizuara, ndihmën virtuale, shoqërimin dhe mjetet arsimore. Arritja e një ekuilibri midis shërbimeve dhe rrezikut ka të ngjarë të kërkojë rregullim të konsideruar me kujdes.
Puna gjithashtu mund t'i detyrojë njerëzit të ndryshojnë mënyrën se si bashkëveprojnë me njëri -tjetrin. Jones dhe Bergen imagjinojnë një theks më të madh kulturor në bashkëveprimin autentik njerëzor, të nxitur nga kudogjendësia e homologëve të aftë të AI.
Kjo mjegullim i dallimit midis makinave dhe njerëzve me siguri do të kishte magjepsur madje edhe duke u lodhur vetë.
Ref: Modelet e mëdha të gjuhës kalojnë testin e Turing: arxiv.org/abs/2503.23674

