Viruset janë një forcë misterioze dhe e kuptuar keq në ekosistemet mikrobike. Studiuesit e dinë se mund të infektojnë, vrasin dhe manipulojnë qelizat njerëzore dhe bakteriale pothuajse çdo mjedis, nga oqeanet në zorrët tuaja. Por shkencëtarët nuk kanë ende një pamje të plotë se si viruset ndikojnë në mjediset e tyre përreth në një pjesë të madhe për shkak të diversitetit të tyre të jashtëzakonshëm dhe aftësia për të evoluar me shpejtësi.
Komunitetet e mikrobeve janë të vështira për t'u studiuar në një mjedis laboratorik. Shumë mikrobe janë sfiduese për t'u kultivuar, dhe mjedisi i tyre natyror ka shumë veçori të tjera duke ndikuar në suksesin ose dështimin e tyre sesa shkencëtarët mund të përsërisin në një laborator.
Kështu që biologë të sistemeve si unë shpesh rendit të gjithë ADN-në e pranishme në një mostër – për shembull, një mostër fekale nga një pacient – ndani nga sekuencat e ADN-së viralepastaj shënoni seksionet të gjenomit viral që kodon për proteinat. Këto shënime mbi vendndodhjen, strukturën dhe veçoritë e tjera të gjeneve i ndihmojnë studiuesit të kuptojnë funksionet që viruset mund të kryejnë në mjedis dhe ndihmojnë në identifikimin e llojeve të ndryshme të viruseve. Studiuesit shënojnë viruset duke përputhur sekuencat virale në një kampion me sekuencat e shënuara më parë të disponueshme në bazat e të dhënave publike të sekuencat gjenetike virale.
Megjithatë, shkencëtarët po identifikojnë sekuencat virale në ADN-në e mbledhur nga mjedisi në a norma që tejkalon shumë aftësia jonë për të shënuar ato gjene. Kjo do të thotë që studiuesit po publikojnë gjetje rreth viruseve në ekosistemet mikrobiale duke përdorur fraksione të papranueshme të vogla të të dhënave të disponueshme.
Për të përmirësuar aftësinë e studiuesve për të studiuar viruset në mbarë globin, ekipi im dhe unë kemi zhvilloi një qasje të re për të shënuar sekuencat virale duke përdorur inteligjencën artificiale. Nëpërmjet modeleve të gjuhës proteinike të ngjashme me modelet e mëdha të gjuhës si ChatGPT, por specifike për proteinat, ne ishim në gjendje të klasifikonim sekuencat virale të papara më parë. Kjo hap derën për studiuesit që jo vetëm të mësojnë më shumë rreth viruseve, por edhe të adresojnë pyetje biologjike që janë të vështira për t'u përgjigjur me teknikat aktuale.
Shënimi i viruseve me AI
Modele të mëdha gjuhësore përdorni marrëdhëniet midis fjalëve në grupe të mëdha të dhënash teksti për të dhënë përgjigje të mundshme për pyetjet për të cilat nuk u “mësohet” në mënyrë eksplicite përgjigje. Kur pyet një chatbot “Cili është kryeqyteti i Francës?” për shembull, modeli nuk po e kërkon përgjigjen në një tabelë të kryeqyteteve. Përkundrazi, ai po përdor trajnimin e tij mbi grupe të mëdha të dhënash dokumentesh dhe informacioni për të nxjerrë përgjigjen: “Kryeqyteti i Francës është Parisi”.
Në mënyrë të ngjashme, Modelet e gjuhës proteinike janë algoritme të AI që janë trajnuar për të njohur marrëdhëniet midis miliarda sekuencave të proteinave nga mjediset në mbarë botën. Nëpërmjet këtij trajnimi, ata mund të jenë në gjendje të nxjerrin diçka në lidhje me thelbin e proteinave virale dhe funksionet e tyre.
Pyesim veten nëse modelet e gjuhës së proteinave mund t'i përgjigjen kësaj pyetjeje: “Duke pasur parasysh të gjitha sekuencat gjenetike virale të shënuara, cili është funksioni i kësaj sekuence të re?”
Në tonë dëshmi e konceptit, ne trajnuam rrjetet nervore mbi sekuencat e proteinave virale të shënuara më parë në modelet e gjuhëve të proteinave të para-trajnuara dhe më pas i përdorëm ato për të parashikuar shënimin e sekuencave të reja të proteinave virale. Qasja jonë na lejon të hetojmë atë që modeli “po sheh” në një sekuencë të veçantë virale që çon në një shënim të veçantë. Kjo ndihmon në identifikimin e proteinave kandidate me interes ose bazuar në funksionet e tyre specifike ose mënyrën se si është rregulluar gjenomi i tyre, duke zbutur hapësirën e kërkimit të grupeve të gjera të të dhënave.
Prochlorococcus është një nga llojet e shumta të baktereve detare me proteina që studiuesit nuk i kanë parë më parë. Anne Thompson/Chisholm Lab, MIT nëpërmjet Flickr
Duke identifikuar funksionet e gjeneve virale të lidhura më larg, modelet e gjuhës së proteinave mund të plotësojnë metodat aktuale për të ofruar njohuri të reja në mikrobiologji. Për shembull, ekipi im dhe unë ishim në gjendje të përdornim modelin tonë për të zbuluar një integraza e panjohur më parë– një lloj proteine që mund të lëvizë informacionin gjenetik brenda dhe jashtë qelizave – në pikocianobakteret detare të bollshme globalisht Prochlorococcus dhe Synechococcus. Veçanërisht, kjo integrazë mund të jetë në gjendje të lëvizë gjenet brenda dhe jashtë këtyre popullatave të baktereve në oqeane dhe t'u mundësojë këtyre mikrobeve të përshtaten më mirë me mjediset në ndryshim.
Modeli ynë gjuhësor identifikoi gjithashtu një proteina e re kapsidale virale që është e përhapur në oqeanet globale. Ne prodhuam fotografinë e parë se si janë rregulluar gjenet e tij, duke treguar se mund të përmbajë grupe të ndryshme gjenesh që besojmë se tregojnë se ky virus kryen funksione të ndryshme në mjedisin e tij.
Këto gjetje paraprake përfaqësojnë vetëm dy nga mijëra shënime që ka ofruar qasja jonë.
Duke analizuar të panjohurën
Shumica e qindra e me mijera sapo zbuluar viruset mbeten të paklasifikuara. Shumë sekuenca gjenetike virale përputhen me familjet e proteinave pa ndonjë funksion të njohur ose nuk janë parë kurrë më parë. Puna jonë tregon se modele të ngjashme të gjuhës së proteinave mund të ndihmojnë në studimin e kërcënimit dhe premtimit të shumë viruseve të pakarakterizuara të planetit tonë.
Ndërsa studimi ynë u fokusua në viruset në oqeanet globale, përmirësimi i shënimeve të proteinave virale është kritik për të kuptuar më mirë rolin që luajnë viruset në shëndetin dhe sëmundjet në trupin e njeriut. Ne dhe studiues të tjerë kemi hipotezuar se aktiviteti viral në mikrobiomën e zorrëve të njeriut mund të ndryshohet kur je i sëmurë. Kjo do të thotë se viruset mund të ndihmojnë në identifikimin e stresit në komunitetet mikrobike.
Megjithatë, qasja jonë është gjithashtu e kufizuar sepse kërkon shënime me cilësi të lartë. Studiuesit po zhvillojnë modele më të reja të gjuhës së proteinave që përfshijnë “detyra” të tjera si pjesë e trajnimit të tyre, veçanërisht duke parashikuar strukturat e proteinave për të zbuluar proteina të ngjashme, për t'i bërë ato më të fuqishme.
Vënia në dispozicion e të gjitha mjeteve të AI nëpërmjet Parimet FAIR të të dhënave– të dhënat që janë të gjeshme, të aksesueshme, të ndërveprueshme dhe të ripërdorshme – mund të ndihmojnë studiuesit në përgjithësi të kuptojnë potencialin e këtyre mënyrave të reja të shënimit të sekuencave të proteinave që çojnë në zbulime që përfitojnë shëndetin e njeriut.
Libusha Kelly është profesor i asociuar i sistemeve dhe biologjisë kompjuterike, mikrobiologjisë dhe imunologjisë në Kolegjin e Mjekësisë Albert Einstein. Ky artikull është ribotuar nga Biseda nën një Licenca Creative Commons. Lexoni artikull origjinal.