Kur imazhet me cilësi të lartë të prodhuara nga AI gjeneruese filluan të shfaqen për herë të parë në 2022, ato kishin një faktor të pamohueshëm wow. Procesi krijues përfshinte pak më shumë sesa futjen e një përshkrimi teksti dhe pritjen që sistemi i AI të prodhojë një imazh përkatës.
Në atë kohë, një pyetje e qartë ishte se kur video e krijuar nga AI do të arrinte. Në të vërtetë, grupe të ndryshme që atëherë kanë zbuluar sisteme AI që gjenerojnë automatikisht video, por gjithmonë me kufizime të rëndësishme për gjatësinë e tyre, llojin e lëvizjes realiste që mund të prodhonin dhe cilësinë e tyre të përgjithshme.
Një mënyrë për të zgjidhur këto probleme është me forcë brutale. Por kjo fuqi llogaritëse rrit ndjeshëm kostot. Kështu që kërkimi ka vazhduar për të gjetur qasje më efikase dhe më të afta.
Dritë Fantastike
Tani Google thotë se ka zhvilluar pikërisht një teknikë të tillë që përmirëson në mënyrë dramatike efikasitetin e sintezës së videos. Omer Bar-Tal dhe kolegët në Google thonë se sistemi i tyre i ri, i quajtur Lumiere, prodhon video që portretizojnë lëvizje realiste, të larmishme dhe koherente.
“Ne demonstrojmë rezultate moderne të gjenerimit të videove dhe tregojmë se si ta përshtatim lehtësisht Lumiere me një sërë detyrash të krijimit të përmbajtjes video, duke përfshirë pikturimin e videos, gjenerimin e imazhit në video ose gjenerimin e videove të stilizuara që përputhen me një stil të caktuar imazh”, thonë ata.
Një qasje e zakonshme për sintezën e videove të AI është që fillimisht të gjenerohen disa korniza kyçe në një sekuencë video dhe më pas të përdoren këto imazhe për të gjeneruar kornizat që mungojnë në mes.
Zbërthimi i detyrës në këtë mënyrë ka avantazhin e thjeshtimit të kërkesave llogaritëse, por ka edhe të meta. Në veçanti, këto sisteme kanë vështirësi në paraqitjen e lëvizjes së shpejtë që ndodh midis kornizave kryesore.
Bar-Tal dhe bashkë kanë dalë me një qasje të ndryshme që sintetizon të gjithë videon në të njëjtën kohë. Ata e bëjnë këtë duke trajnuar një sistem AI për të trajtuar dimensionet e kohës dhe hapësirës në të njëjtën mënyrë. Kjo qasje në hapësirë-kohë lejon që AI të gjenerojë të gjithë daljen e videos në të njëjtën kohë.
Kjo është në kontrast të plotë me përpjekjet e mëparshme të cilat janë trajnuar vetëm për ndryshimet hapësinore duke ruajtur një zgjidhje fikse kohore. Përfaqësimi i hapësirës-kohës i Google është dukshëm më kompakt dhe për këtë arsye më efikas nga ana llogaritëse. “Çuditërisht, kjo zgjedhje e dizajnit është anashkaluar nga modelet e mëparshme tekst-në-video,” thonë Bar-Tal dhe bashkë.
Një pjesë kryesore e këtij procesi është një teknikë e mirënjohur AI e quajtur difuzion që përdoret gjerësisht për të prodhuar imazhe të vetme. Sistemi AI fillon me një kornizë të përbërë tërësisht nga zhurma, të cilën e modifikon në mënyrë progresive për t’iu përshtatur një shpërndarjeje të të dhënave që ka mësuar, qoftë kjo e lidhur me një mace, një qen apo një astronaut që ngasin një biçikletë në Mars.
Lumiere punon në të njëjtën mënyrë. Por në vend që të prodhojë një imazh të vetëm që përputhet me një shpërndarje specifike të të dhënave, ai krijon një sekuencë deri në 80 imazhe ose, më saktë, një paraqitje të këtyre imazheve në hapësirë-kohë.
Ai më pas modifikon këtë paraqitje për t’iu përshtatur një shpërndarjeje të të dhënave që sistemi ka mësuar nga trajnimi i tij në miliona orë filmime video. Më pas shpaketon përfaqësimin e hapësirë-kohës në një video të zakonshme.
Rezultati është një sekuencë video prej pesë sekondash, një gjatësi që Google thotë se është më e gjatë se kohëzgjatja mesatare e shkrepjes në shumicën e mediave.
Rezultatet janë mbresëlënëse. Duke pasur parasysh një përshkrim teksti si “Një panda që luan një ukulele në shtëpi” ose “Fluturon nëpër një tempull në rrënoja, epikë, mjegull”, Lumiere prodhon një sekuencë video me cilësi të lartë që tregon, mirë, vetëm këto gjëra.
Mund të fillojë gjithashtu me një imazh dhe ta animojë atë sipas kërkesës. Bar-Tal dhe bashkë përdorin pikturën e famshme Vermeer Vajza me një vath perle dhe bëje Lumiere-n ta animojë për t’i treguar vajzës duke bërë sy dhe duke buzëqeshur.
Jepini Lumiere një imazh referimi, si ai i Van Gogh Natën e ndritshëm dhe do të prodhojë një video në të njëjtin stil. Jepini asaj një video të, për shembull, një vajze që vrapon dhe mund ta modifikojë për ta bërë vajzën të duket sikur është bërë me lule ose blloqe druri të grumbulluara. Bar-Tal dhe bashkë postojnë shembuj të shumtë të Aftësitë e Lumiere në internet.
Kjo është një punë mbresëlënëse dhe ngre pyetjen e qartë se sa shpejt kjo do të jetë e disponueshme për konsumatorët e zakonshëm dhe me çfarë kostoje. Google nuk jep përgjigje për momentin.
Shqetësim i thellë
Por ekipi lë të kuptohet për problemet e mundshme që do të duhet të adresohen në kohën e duhur. Nuk është e vështirë të imagjinohet sesi aktorët keqdashës mund të përdorin një teknologji të tillë për të krijuar falsifikime të thella në një shkallë epike dhe Bar-Tal dhe bashkë janë qartësisht të shqetësuar.
“Ekziston rreziku i keqpërdorimit për krijimin e përmbajtjeve të rreme ose të dëmshme me teknologjinë tonë, dhe ne besojmë se është thelbësore të zhvillohen dhe aplikohen mjete për zbulimin e paragjykimeve dhe rasteve të përdorimit me qëllim të keq për të siguruar një përdorim të sigurt dhe të drejtë,” thonë ata.
Ata nuk janë aq të qartë se kush është ose duhet të jetë duke zhvilluar një teknologji të tillë. Kjo lloj përpjekje ka të ngjarë të ketë nevojë për një lloj incidenti të botës reale për ta detyruar këtë çështje.
Por pa këto lloj kontrollesh, efektet tashmë po përhapen. Zgjedhjet e këtij viti në SHBA, MB dhe demokracia më e madhe në botë në Indi, po bëhen tashmë një terren testimi për mënyrën se si këto teknologji mund të shfrytëzohen.
Roli që Lumiere dhe sisteme të tjera të ngjashme do të luajnë, ende nuk është përcaktuar.
Ref: Lumiere: Një model i difuzionit në hapësirë-kohë për gjenerimin e videove: arxiv.org/abs/2401.12945