Shumë njerëz e kuptojnë konceptin e paragjykimit në një nivel intuitiv. Në shoqëri dhe në sistemet e inteligjencës artificiale, paragjykimet racore dhe gjinore janë të dokumentuara mirë.
Nëse shoqëria mund të largonte disi paragjykimet, a do të largoheshin të gjitha problemet? Laureati i ndjerë i Nobelit Daniel Kahnemani cili ishte një figurë kyçe në fushën e ekonomisë së sjelljes, argumentoi në të tijën libri i fundit se paragjykimi është vetëm njëra anë e medaljes. Gabimet në gjykime mund t'i atribuohen dy burimeve: paragjykimit dhe zhurmës.
Paragjykimi dhe zhurma luajnë të dyja role të rëndësishme në fusha të tilla si ligji, bar dhe parashikimi financiarku gjykimet njerëzore janë qendrore. Në punën tonë si shkencëtarë kompjuterash dhe informacioni, kolegët e mi dhe I kanë gjetur edhe atë zhurmë luan një rol në AI.
Zhurma statistikore
Zhurma në këtë kontekst nënkupton ndryshim në mënyrën se si njerëzit bëjnë gjykime për të njëjtin problem ose situatë. Problemi i zhurmës është më i përhapur nga sa duket fillimisht. A punë farësqë daton që nga Depresioni i Madh, ka zbuluar se gjyqtarë të ndryshëm kanë dhënë dënime të ndryshme për raste të ngjashme.
Në mënyrë shqetësuese, dënimi në rastet gjyqësore mund të varet nga gjëra të tilla si temperatura dhe nëse fitoi ekipi lokal i futbollit. Faktorë të tillë, të paktën pjesërisht, kontribuojnë në perceptimin se sistemi i drejtësisë nuk është vetëm i njëanshëm, por ndonjëherë edhe arbitrar.
Shembuj të tjerë: Rregulluesit e sigurimeve mund të japin vlerësime të ndryshme për pretendime të ngjashme, duke reflektuar zhurmë në gjykimet e tyre. Zhurma ka të ngjarë të jetë e pranishme në të gjitha llojet e konkurseve, duke filluar nga degustimi i verërave te konkurset lokale të bukurisë e deri te pranimet në kolegj.
Ekonomisti i sjelljes Daniel Kahneman shpjegon konceptin e zhurmës në gjykimin njerëzor.
Zhurma në të dhëna
Në sipërfaqe, nuk duket e mundshme që zhurma mund të ndikojë në performancën e sistemeve të AI. Në fund të fundit, makinat nuk ndikohen nga moti apo ekipet e futbollit, kështu që pse do të bënin gjykime që ndryshojnë në varësi të rrethanave? Nga ana tjetër, studiuesit e dinë këtë paragjykimi ndikon në AIsepse është pasqyruar në të dhëna mbi të cilën është trajnuar UA.
Për serinë e re të modeleve të AI si ChatGPT, standardi i artë është performanca njerëzore në problemet e përgjithshme të inteligjencës si p.sh. sens të përbashkët. ChatGPT dhe kolegët e tij janë matet kundrejt etiketimit të njeriut grupe të dhënash me sens të përbashkët.
E thënë thjesht, studiuesit dhe zhvilluesit mund t'i bëjnë makinës një pyetje të arsyeshme dhe ta krahasojnë atë me përgjigjet njerëzore: “Nëse vendos një gur të rëndë në një tavolinë letre, a do të shembet ai? Po ose Jo.” Nëse ka marrëveshje të lartë midis të dyve – në rastin më të mirë, marrëveshje e përsosur – makina po i afrohet sensit të përbashkët të nivelit njerëzor, sipas testit.
Pra, ku do të hynte zhurma? Pyetja e zakonshme e mësipërme duket e thjeshtë dhe shumica e njerëzve ka të ngjarë të bien dakord për përgjigjen e saj, por ka shumë pyetje ku ka më shumë mosmarrëveshje ose pasiguri: “A është fjalia e mëposhtme e besueshme apo e pabesueshme? Qeni im luan volejboll.” Me fjalë të tjera, ka potencial për zhurmë. Nuk është për t'u habitur që pyetjet interesante të logjikës së zakonshme do të kishin pak zhurmë.
Por çështja është se shumica e testeve të AI nuk e marrin parasysh këtë zhurmë në eksperimente. Në mënyrë intuitive, pyetjet që gjenerojnë përgjigje njerëzore që priren të pajtohen me njëra-tjetrën duhet të peshohen më shumë sesa nëse përgjigjet ndryshojnë – me fjalë të tjera, ku ka zhurmë. Studiuesit ende nuk e dinë nëse ose si t'i peshojnë përgjigjet e AI në atë situatë, por hapi i parë është të pranosh se problemi ekziston.
Ndjekja e Doise në makinë
Mënjanë teorinë, ende mbetet pyetja nëse të gjitha sa më sipër janë hipotetike apo nëse në testet reale të sensit të shëndoshë ka zhurmë. Mënyra më e mirë për të vërtetuar ose hedhur poshtë praninë e zhurmës është të bëni një test ekzistues, të hiqni përgjigjet dhe të detyroni shumë njerëz që t'i etiketojnë në mënyrë të pavarur, domethënë të jepni përgjigje. Duke matur mosmarrëveshjet midis njerëzve, studiuesit mund të dinë se sa zhurmë ka në test.
Detajet pas matjes së kësaj mosmarrëveshjeje janë komplekse, duke përfshirë statistika dhe matematikë të rëndësishme. Përveç kësaj, kush do të thotë se si duhet të përkufizohet sensi i përbashkët? Si e dini se gjyqtarët njerëzorë janë mjaft të motivuar për të menduar për pyetjen? Këto çështje qëndrojnë në kryqëzimin e dizajnit të mirë eksperimental dhe statistikave. Qëndrueshmëria është çelësi: Një rezultat, test ose grup etiketuesish njerëzor nuk ka gjasa të bindë askënd. Si çështje pragmatike, puna njerëzore është e shtrenjtë. Ndoshta për këtë arsye, nuk ka pasur ndonjë studim të zhurmës së mundshme në testet e AI.
Për të adresuar këtë boshllëk, unë dhe kolegët e mi hartuam një studim të tillë dhe publikoi gjetjet tona në Nature Scientific Reports, duke treguar se edhe në fushën e sensit të përbashkët, zhurma është e pashmangshme. Për shkak se mjedisi në të cilin nxirren gjykimet mund të ketë rëndësi, ne bëmë dy lloje studimesh. Një lloj studimi përfshinte punëtorë me pagesë nga Turk Mekanik Amazonndërsa studimi tjetër përfshinte një ushtrim etiketimi në shkallë më të vogël në dy laboratorë në Universitetin e Kalifornisë Jugore dhe Institutin Politeknik Rensselaer.
Ju mund ta mendoni të parën si një mjedis më realist në internet, duke pasqyruar se sa teste të AI janë etiketuar në të vërtetë përpara se të lëshohen për trajnim dhe vlerësim. Kjo e fundit është më shumë ekstreme, duke garantuar cilësi të lartë, por në shkallë shumë më të vogla. Pyetja që ne u përpoqëm t'i përgjigjemi ishte se sa e pashmangshme është zhurma dhe a është vetëm një çështje e kontrollit të cilësisë?
Rezultatet ishin kthjelluese. Në të dyja mjediset, edhe për pyetjet e logjikshme që mund të pritej të shkaktonin marrëveshje të lartë – madje universale –, ne gjetëm një shkallë jo të parëndësishme zhurme. Zhurma ishte mjaft e lartë saqë ne supozuam se midis 4% dhe 10% e performancës së një sistemi mund t'i atribuohet zhurmës.
Për të theksuar se çfarë do të thotë kjo, supozoni se unë ndërtova një sistem AI që arriti 85% në një test, dhe ju ndërtuat një sistem AI që arriti 91%. Sistemi juaj do të duket të jetë shumë më i mirë se i imi. Por nëse ka zhurmë në etiketat njerëzore që janë përdorur për të shënuar përgjigjet, atëherë nuk jemi më të sigurt se përmirësimi prej 6% do të thotë shumë. Për gjithçka që dimë, mund të mos ketë përmirësim të vërtetë.
Në tabelat e liderëve të AI, ku krahasohen modelet e mëdha të gjuhës si ai që fuqizon ChatGPT, dallimet e performancës midis sistemeve rivale janë shumë më të ngushta, zakonisht më pak se 1%. Siç tregojmë në letër, statistikat e zakonshme nuk vijnë në ndihmë për të shkëputur efektet e zhurmës nga ato të përmirësimeve të vërteta të performancës.
Auditimet e zhurmës
Cila është rruga përpara? Duke iu rikthyer librit të Kahneman, ai propozoi konceptin e një “auditimi të zhurmës” për përcaktimin sasior dhe përfundimisht zbutjen e zhurmës sa më shumë që të jetë e mundur. Së paku, studiuesit e AI duhet të vlerësojnë se çfarë ndikimi mund të ketë zhurma.
Auditimi i sistemeve të AI për paragjykim është disi i zakonshëm, kështu që ne besojmë se koncepti i një auditimi të zhurmës duhet të ndjekë natyrshëm. Shpresojmë që ky studim, si dhe të tjerë si ai, të çojë në miratimin e tyre.
Mayank Kejriwal është një Asistent Profesor Kërkimor i Inxhinierisë Industriale dhe Sistemeve në Universitetin e Kalifornisë Jugore. Ky artikull është ribotuar nga Biseda nën një Licenca Creative Commons. Lexoni artikull origjinal.