Vírusové mutácie, ktoré umožňujú infekciám ako HIV či chrípka uniknúť ľudskému imunitnému systému, respektíve jeho rozpoznaniu neutralizáciou protilátok, zabránili vývoju univerzálnej vakcíny proti uvedeným ochoreniam. Najnovšie sú tieto obavy z vírusového úniku spojené najmä s vakcináciou a liečbou koronavírusu.

Pod pojmom „únik vírusu“ rozumieme schopnosť vírusov mutovať a vyhnúť sa ľudskému imunitnému systému a spôsobiť infekciu. Pretože sa po svete začali objavovať nové mutácie vírusu SARS-CoV-2, vedci sa usilovne snažia zistiť, ktoré nové kmene môžu byť schopné obísť aj tie najnovšie vakcíny. Teraz by im pri pátraní mohla pomôcť umelá inteligencia, ktorá vie predpovedať, aké mutácie predstavujú pre našu imunitu najväčšiu hrozbu. O téme informoval portál IEEESpectrum.

Freepik

Na predpovedanie, ktoré mutácie môžu viesť k úniku vírusu, použili vedci z MIT techniku ​​strojového učenia na spracovanie prirodzeného jazyka (NLP – Natural language processing) s dvomi zložkami – gramatikou a sémantikou, píšu vedci vo svojej štúdii publikovanej v prestížnom žurnále Science.

Čo má jazyk a vírusové ochorenia spoločné?

Autori štúdie sa na rozdiel od konvenčných metód využívaných pri skúmaní vírusových únikov, ktoré vyžadujú množstvo času na skúmanie čo i len jedného vírusového kmeňa, zamerali na trénovanie algoritmu schopného naučiť sa modelovať tento únik iba na základe vírusovej sekvencie. Tento prístup podľa vedcov nie je veľmi rozdielny od učenia sa vlastností prirodzeného jazyka, pretože množstvo jazykov používa sekvencie slov na zakódovanie zložitých významov, na základe určitých pravidiel (napr. gramatiky).

Inými slovami, Brian Hie a jeho tím usúdili, že každá vírusová sekvencia má akúsi gramatiku, súbor pravidiel, ktoré musí dodržiavať, aby sa mohla stať konkrétnym vírusom. V prípade, že mutácie porušia túto gramatiku, vírus sa dostane do akejsi slepej uličky svojho vývoja, čo z virologického hľadiska znamená, že mu chýba „fitness“, upozorňuje web Wired.

(pozn. redakcie: V štúdii sa uvádza najmä pojem viral fitness, v iných publikáciách je tento pojem spájaný, alebo označovaný ako „replication capacity“, a definuje schopnosť vírusu replikovať sa a nahradiť predchádzajúce kmene/mutácie)

CDC/Dr. Fred Murphy

Z pohľadu imunitného systému majú vírusové sekvencie, podobne ako jazyk, svoju sémantiku. Existujú teda určité vírusové sekvencie, ktoré si imunitný systém dokáže svojim spôsobom interpretovať a zastaviť ich pomocou protilátok a iných obranných mechanizmov, ale i také, ktoré jednoducho nedokáže. Takže vírusový únik z tohto pohľadu možno považovať za zmenu významu (sémantiky) pri zachovaní „gramatickej sekvencie“.

Ako píše portál Technologyreview známej univerzity MIT, gramatiku, alebo teda genetickú a evolučnú zdatnosť (fitness) vírusu možno interpretovať v zmysle gramatickej správnosti. Úspešný infekčný vírus je gramaticky správny, neúspešný nie je.

NEPREHLIADNI
Kotleba opäť šíri „svoju pravdu“ na Facebooku. Očkovanie proti Covid-19 je len „experiment“ a ľudia sú „pokusné vzorky“, pravda je úplne inde

Podobne možno mutácie vírusu interpretovať z hľadiska sémantiky. Mutácie, vďaka ktorým sa vírus javí inak, napríklad zmeny v jeho povrchových proteínoch, ktoré ho robia neviditeľnými pre určité protilátky, zmenili jeho význam (sémantiku).

Ako je možné vytrénovať model spracovanie prirodzeného jazyka na určenie vírusových mutácií?

Na modelovanie uvedených vlastností vedci využili architektúru LSTM (Long Short-Term Memory), čo je architektúra umelej rekurentnej neurónovej siete (RNN) používaná v oblasti hlbokého učenia (špeciálny druh strojového učenia založeného na neurónových sieťach).

Podľa dostupných informácií ide o staršiu sieť, ktorá na rozdiel od novších typov využívaných pri spracovaní prirodzeného jazyka (NLP), ako napríklad GPT-3 (Generative Pre-Training Transformer 3 – autoregresný jazykový model, ktorý využíva hlboké učenie na tvorbu textu podobného človeku) môže byť trénovaná na signifikantne menšej vzorke dát, pričom si stále zachováva svoju hodnovernosť.

Namiesto miliónov sekvencií, teda zainteresovaní odborníci trénovali svoj model „iba“ na niekoľkých tisícoch genetických sekvencií odobratých z troch rôznych vírusov. Konkrétne bolo odobratých 45 000 unikátnych sekvencií pre kmeň chrípky, 60 000 pre kmeň HIV a 4000 pre kmeň SARS-CoV-2. Modely NLP (treba si uvedomiť, že sú určené na analýzu a generovanie textov) fungujú tak, že kódujú slová v matematickom priestore tým spôsobom, že slová s podobným významom sú bližšie pri sebe ako slová s odlišným významom. Toto sa nazýva vkladanie (embedding). V prípade genetických sekvencií toto vkladanie umožnilo zoradiť vírusy podľa podobností ich mutácií.

Hneď ako bol model vytrénovaný ho vedci okamžite využili na predikciu sekvencií hemaglutinínu chrípky (HA) vírusového typu A, obalového glykoproteín HIV-1 a spike glykoproteínu SARS-CoV-2, u ktorých sa predpokladá, že generujú únikové mutácie.

V prípade chrípky model odhalil, že sekvencie s najmenšou pravdepodobnosťou mutácie a produkcie vírusového úniku sa nachádzajú v stopke (funkčná súčasť proteínu) proteínu HA, čo je v súlade s inými štúdiami, ktoré ukazujú, že protilátky zamerané na stopku HA sú takmer univerzálnou ochranou pred akýmkoľvek kmeňom chrípky, upozorňuje MIT na svojom webe.

O HIV autori štúdie zistili, že hypervariabilná oblasť proteínu V1-V2 má veľa možných únikových mutácií, čo je v súlade s predchádzajúcimi poznatkami a tiež našli sekvencie, ktoré majú nižšiu pravdepodobnosť úniku.

Analýza modelu pre koronavírus ukázala, že časť spike glykoproteínu nazývaná podjednotka S2 má najmenšiu pravdepodobnosť generovania únikových mutácií. Otázkou však aj naďalej zostáva ako rýchlo mutuje vírus SARS-CoV-2 (podľa prvotných dôkazov pomalšie ako HIV alebo chrípka).

Keďže nové mutácie koronavírusu (britská, juhoafrická…) sa objavili až po výskume, nemohli byť do štúdie zaradené. Vedci však nezaháľali a model neskôr otestovali aj na týchto mutáciách (výsledky ani práca zatiaľ nie sú recenzované).

Analýza nových mutácií odhalila, že britská i juhoafrická mutácia dosiahli pomerne vysoké skóre z hľadiska pravdepodobnosti úniku a tiež označila vírusové sekvencie, ktoré by sa mali z tohto hľadiska ďalej skúmať.

Vedci však upozorňujú, že predpovedať kedy sa toto pomerne vysoké skóre prejaví v skutočnom úniku z ľudského imunitného systému je nad možnosti ich modelu. Z dlhodobého hľadiska hlavný autor štúdie dúfa, že model dokáže v budúcnosti predpovedať mutácie vírusov, ktoré sa zatiaľ nevyskytli.

Uvedené informácie okrem iného naznačujú, že používanie modelov NLP môže výrazne urýchliť zaužívané a pomalé konvenčné výskumné metódy, a takmer okamžite môže predpovedať mutácie, ktoré majú potenciál sa v budúcnosti vyvinúť.

Všetko je to však iba začiatok. Autori štúdie sa domnievajú, že ich model možno využiť v budúcnosti pre vakcíny proti rakovine, ktoré stimulujú ľudský imunitný systém k ničeniu nádorov. Tvrdia tiež, že by sa model mohol použiť aj pri výrobu liekov a pod.

Pošli nám TIP na článok



Teraz čítajú

Články, ktoré hýbu svetom