Kdy krev mluví a kdy mlčí
Co jsme zjistili
Lidé po celém světě ukládají data z genetických analýz do veřejné databáze NCBI GEO. Tisíce studií, desetitisíce pacientů. Vzali jsme ty, které se týkaly nemocí ovlivňujících krev nebo imunitní systém.
A ptali jsme se: dá se poznat nemoc jen podle toho, jak se v krvi "rozhovoří" geny? Konkrétně — má každá nemoc svůj vlastní frekvenční otisk, podobně jako má každé hudební nástroj vlastní zvuk?
Ukázalo se že ano. Některé nemoci ano. Jiné ne — a to je stejně důležité vědět.
Které nemoci krev ukáže
Roztroušená skleróza má v krvi zcela jasný otisk. Cukrovka 2. typu taky. Některé typy rakoviny — ano. Alzheimerova choroba — je to složitější, ale jsou tam znaky.
Když říkáme "otisk v krvi", myslíme tím ne jednu látku, ale způsob jakým tisíce genů mluví dohromady. Je to jako sledovat mluvu davu místo jednoho člověka. Nemocný dav zní jinak než zdravý.
Kdy krev mlčí
Jsou nemoci, které se v krvi "neozývají" — alespoň ne tak silně, aby je šlo poznat. Některé typy rakoviny žaludku potřebují biopsii přímo z tkáně. Jejich otisk je zde místní, ne systémový.
To je cenná informace. Víme kde hledat a kde ne. Kde stačí píchnout do žíly, kde potřeba víc.
Proč to je důležité
Pokud se časem ukáže, že metoda je robustní — a bude potřeba ještě hodně ověřování — znamenalo by to, že můžeme detekovat některé nemoci roky před tím, než se projeví. Z obyčejného odběru krve.
Tohle není zázrak. Je to trpělivá práce s daty, která už existují. Objevili jsme nejen způsob, jak detekovat rakovinu, ale i další nemoci z krve — jenže "objev" v tomhle případě znamená hlavně "naučili jsme se pořádně poslouchat to, co už je k dispozici".
Vaše geny zní jako orchestr
V každé buňce probíhá obrovský orchestr — tisíce genů se zapínají a vypínají, různě hlasitě, a tvoří složitou skladbu. Zdravé tělo má svůj rytmus a harmonie. Když onemocníte, skladba se rozladí: některé sekce hrají moc nahlas, jiné mlčí.
Doteď to lékaři rozpoznávali pomalu — vybrali jednoho hráče (jeden gen, jeden marker) a poslouchali ho izolovaně. Náš nápad byl jiný: poslouchejme celý orchestr najednou a měřme jeho celkovou hudebnost.
Frekvenční otisk místo seznamu
Vezmeme všechny geny dohromady, seřadíme je podle nějakého kritéria a podíváme se na jejich expresní úrovně jako na hudební signál. Pak na něj pustíme stejnou matematiku, jakou používá tuner v rádiu — Fourierovu transformaci. Výsledkem je 'otisk' — graf, který má svůj tvar.
Zdravé krve mají určitý charakteristický tvar. Nemoci ho deformují. A deformace pro různé nemoci vypadá různě — některé spektra rozladí v basách, jiné ve výškách, jiné celkově zploští.
Validace na otevřených datech
Použili jsme veřejnou databázi NCBI GEO — repozitář, kam výzkumné skupiny celého světa dávají své transkriptomické datasety. Celkem stovky pacientů, různé nemoci, různé tkáně.
Procedura: pro každý dataset spočítáme frekvenční otisk, vyřešíme klasifikační prah, a podíváme se kolik pacientů model správně rozpoznal jako 'nemocný' a 'zdravý'.
Kde funguje
Roztroušená skleróza (krev): 79 % přesnost, p < 0.001. Hodně dobrý výsledek.
Diabetes 2. typu z pankreatických ostrůvků (vyvážený dataset): 92 % přesnost. Ostrůvky jsou orgán, který diabetes přímo postihuje, takže to dává smysl.
Rakovina (pan-cancer screen, krev): 78 % accuracy, sensitivita 83 %.
To jsou skutečné výsledky na otevřených datech, kde si může každý replikovat.
Kde mlčí
Alzheimer a Parkinson z krve: žádný spolehlivý signál. Tyto nemoci sídlí v mozku, jejich biochemická signatura je v proteinech, ne v expresi genů periferní krve.
Diabetes 2. typu z krve: signál je slabý, často nerozpoznatelný. Diabetes ovlivňuje pankreas a játra, ne primárně krevní buňky.
To je důležité přiznat. Test není všelék. Když říkáme 'detekce nemocí z krve', myslíme tím kategorii nemocí, ne všechno. Věda, která zamlčuje své limity, není věda.
Nevyvážené datasety jsou past
Klíčový metodologický nález: pokud máte dataset s 90 nemocnými a 10 zdravými, model může dosáhnout 90 % accuracy tak, že označí všechno jako 'nemocné'. Sensitivita bude 0 — nepoznáte ani jednoho zdravého. Ale accuracy zní krásně.
Proto vyžadujeme balance v testovacích datasetech a hlásíme sensitivitu zvlášť. Bez toho jsou výsledky bezcenné.
Cíl a dosah
Cílem není nahradit lékaře. Cílem je dát jim levný, rychlý, opakovatelný test, který říká 'tady to neharmonizuje, prozkoumejte podrobněji'. Vstup: kapka krve. Výstup: jedno číslo a profil.
Kód je veřejný. Data jsou veřejná. Každý si to může ověřit. Žádný patent, žádný prodej. Když to bude fungovat, lidem to pomůže. Když ne, věda půjde dál. Tak to má být.