Inxhinieri e pavarur e softuerit është një fushë fitimprurëse dhe dinamike ku zhvilluesit e aftë trajtojnë sfida të ndryshme, nga rregullimet e gabimeve deri tek zhvillimi i tipareve të plota. Vitet e fundit, këta punëtorë kanë qenë ndër të parët që përfshijnë sistemet e AI në rrjedhën e tyre të punës për të ndihmuar në shkrimin e kodit.
Kjo shtron një pyetje interesante: A mundet që një sistem AI të bëjë të njëjtën punë në vetvete? Me fjalë të tjera, a keni inxhinierë softuerësh në mënyrë efektive të zhvillohen nga punët e tyre?
Tani ne marrim një përgjigje të llojeve falë punës së Samuel Miserendino, Michele Wang, dhe kolegëve në Openai Research, të cilët kanë zhvilluar një mjet krahasimi që përcakton nëse modelet më të mëdha të gjuhëve të mëdha (LLM) mund të plotësojnë një grup të detyrave reale të zhvillimit të softuerit që janë zgjidhur nga njerëzit. Këta zhvillues njerëzorë fituan vetë 1 milion dollarë në proces, duke ngritur pyetjen e qartë nëse sistemet e AI mund të fitonin koren e tyre vetëm.
Përgjigja do të jetë me rehati të kufizuar për zhvilluesit e njeriut. “Puna e pavarur e botës reale në standardin tonë mbetet sfidues për modelet e gjuhës kufitare,” thonë Miserendino, Wang dhe bashkë. Sidoqoftë, ata llogaritin se modelet më të mira mund të fitojnë me sukses një pjesë të konsiderueshme të 1 milion dollarëve.
Kod i kuq
Inxhinieria e softuerit përfshin shumë më tepër sesa thjesht të shkruani kod. Inxhinierët duhet të interpretojnë kërkesat e klientit, të lundrojnë bazat e kodeve komplekse dhe të marrin vendime arkitekturore të nivelit të lartë në lidhje me qasjen e saktë. Punët e pavarura të botës reale kërkojnë zhvillim të plotë, debugging dhe aftësi menaxheriale.
Vlerësimi i performancës së modeleve të gjuhëve të mëdha në këto detyra është i ndërlikuar sepse shumica e standardeve përfshijnë probleme standarde të kodimit, të cilat përfaqësojnë vetëm një pjesë të vogël të sfidës së freelancer.
Miserendino, Wang dhe Co u përpoqën ta ndryshojnë këtë duke krijuar një bazë të dhënash të detyrave të vërteta të inxhinierisë së softuerit të zgjidhura më parë nga freelancer të njeriut. Ata e quajnë standardin e tyre SWE-Lancer dhe shpresojnë se do të bëhet një standard kundër të cilit të testoni performancën e kodimit në botë reale të modeleve të përparuara të gjuhëve të mëdha.
Ekipi buroi detyrat e pavarura nga Expensify, një kompani publike që zotëron një sistem të menaxhimit të shpenzimeve të përdorura nga 12 milion klientë. Ky softuer kërkon mirëmbajtje dhe zhvillim të vazhdueshëm, për të cilin kompania mbështetet te punëtorët e pavarur. Expensify i bën këto detyra kodimi publike dhe i poston ato në faqen e internetit të pavarur.
Ekipi i Openai zgjodhi 1488 nga këto detyra. Rreth gjysma e tyre kishin për qëllim programuesit individualë dhe përfshiheshin detyra si zhvillimi i arnave të kodimit për të zgjidhur çështjet e botës reale. Gjysma tjetër e detyrave ishte për menaxherët dhe përfshinte zgjedhjen e zgjidhjes më të mirë nga propozimet konkurruese të paraqitura nga freelancer njerëzorë.
Të gjitha detyrat kishin përfunduar nga freelancer njerëzorë, të cilëve u paguanin shuma që varionin nga 250 deri në 32,000 dollarë. Vlera totale e të gjitha detyrave ishte 1 milion dollarë.
Për të vendosur modelet aktuale të AI-së më të artit përmes hapave të tyre, ekipi i vuri secilën detyrë Sonet Claude 3.5 të Antropikut, dhe modeleve GPT-4O dhe O1 të Openai. Sistemeve të AI iu dha teksti që përshkruan çështjen ndërsa u shfaq në platformën Upwork së bashku me një fotografi të kodit para se të bëhej rregullimi, së bashku me objektivin në rregullimin e çështjes.
Për detyrat e menaxhimit, modeleve iu dhanë zgjidhje të ndryshme të propozuara për një problem, një fotografi e kodit të fiksohej dhe qëllimi për të zgjedhur zgjidhjen më të përshtatshme.
Rezultatet janë ndriçuese. “Sonnet 3.5 performon më së miri, i ndjekur nga O1 dhe më pas GPT-4O,” thonë Miserendino, Wang dhe bashkë. Por ata ishin larg nga të përsosura. “Të gjitha modelet fitojnë shumë më poshtë se 1 milion dollarë të plotë të pagimit të mundshëm në të dhënat e plota të SWE-Lancer,” thonë studiuesit.
Sidoqoftë, ka një kthim të shëndetshëm për disa probleme. “Në të dhënat e plota të Lancer-Lancer, Claude 3.5 Sonnet fiton mbi 400,000 dollarë nga 1.000.000 $ të mundshme.”
Kjo duket si një e ardhur e arsyeshme për një zhvillues të pavarur që përdor AI për (Del Automate) të ndihmojë në punën e tyre. Por ka qartë kufizime. Sistemet AI kryen më mirë në detyrat e menaxherit sesa detyrat individuale të kodimit, të cilat shpesh prodhonin rregullime sipërfaqësore sesa adresimin e problemeve të rrënjës. Kjo sugjeron që AI është më e mirë në vlerësimin e zgjidhjeve sesa zbatimi i tyre.
Në përgjithësi, sistemet AI ishin në gjendje të merrnin më pak se 50 përqind të detyrave të disponueshme, gjë që e çon ekipin në një përfundim të çuditshëm. “Puna e pavarur e botës reale në standardin tonë mbetet sfidues për modelet e gjuhës kufitare,” thonë studiuesit.
Prodhim parash
Ekipi thotë se paaftësia e LLMS për të tejkaluar freelancers njerëzore buron nga disa çështje themelore. Për shembull, modeleve të AI u mungon një kuptim i thellë i kodit – përkundrazi, ato janë thjesht gjeneratorë modelesh. Inxhinierët njerëzorë gjithashtu rafinojnë në mënyrë të përsëritur zgjidhjet e tyre, duke ekzekutuar teste dhe duke debuguar sjellje të papritura, një qasje që LLMS luftojnë për të kopjuar.
Por ndërsa LLM-të nuk janë të gatshme të zëvendësojnë inxhinierët njerëzorë, standardi i SWE-Lancer zbulon një potencial emocionues. Sugjeron që asistentët e AI ka të ngjarë të ndihmojnë në automatizimin e detyrave rutinore të kodimit, në mënyrë që zhvilluesit e njeriut të mund të përqendrohen në zgjidhjen e problemeve të nivelit më të lartë.
Një gjë në të cilën studiuesit nuk përqendrohen në detaje është koha e marrë për të përfunduar detyrat nga njerëzit kundrejt makinave. Mund të jetë që sistemet e AI aktualisht nuk janë shumë më të mira në disa detyra, por që ato janë dukshëm më të shpejta. Kjo do të shfaqet në mënyrë të pashmangshme në planifikimin e biznesit.
Por ata tregojnë se disa detyra janë të pjekura për automatizim dhe ndoshta tashmë janë duke u bërë në këtë mënyrë duke eniciuar të pavarur dhe biznese. Kjo proporcion ka të ngjarë të rritet pasi modelet bëhen më të afta.
Dhe duke gjykuar nga përmirësimet e modeleve të AI kanë arritur në standardet e tjera për probleme të përparuara të matematikës dhe të ngjashme, kjo përmirësim ka të ngjarë të përshpejtohet shpejt.
Shtë e qartë, koha për ndryshime përçarëse është tani.
Ref: SWE-Lancer: A mund të fitojë LLM-të Frontier LLMS nga inxhinieria e programeve të pavarura në botë reale? : arxiv.org/abs/2502.12115