99,7 % na prostatu: první kalibrace přes 43 datasetů
Velká zkouška
Jakmile jsme měli metodu připravenou, bylo potřeba ji rozmanitě otestovat. Ne jedna studie, ne dvě — 43. Data z různých laboratoří, od různých týmů, pro různé typy rakoviny.
Celkem jsme měli k dispozici asi 10 000 vzorků: 8 700 rakovinných a 1 200 od pacientů s roztroušenou sklerózou (kontrolní nenádor onemocnění).
Rekord: rakovina prostaty
Studie GSE21032 od holandského týmu měla nejhezčí výsledky: 99,7 % správných rozpoznání. To znamená: z 1000 vzorků by naše metoda 997 klasifikovala správně a jen 3 by chybně označila. Pro první kalibraci je to výjimečný výsledek.
Dalších 5 studií mělo úspěšnost přes 70 %. To není "super", ale je to dost na to, aby to bylo užitečné jako screening.
Co je zvláštního na rakovině
Tady je zásadní nález, který nás překvapil: rakovinná tkáň má nižší chaos než zdravá.
Čekali bychom opak — že rakovina je chaos, že se tam dějí nekontrolovaně různé procesy. Ale ne. Rakovina je naopak zjednodušení. Rakovinné buňky nedělají mnoho různých věcí. Dělají jednu jedinou: dělí se a dělí se a dělí se.
Zdravá tkáň dělá stovky různých úkolů současně — trávení, obrana, komunikace, obnova. Rakovinná tkáň všechno zredukovala na jedno: růst.
Rakovina je jednoprogramový systém v dříve multiprogramovém prostředí.
Proč je to praktické
Pokud rakovina znamená "zjednodušení", můžeme ji hledat právě po poklesu komplexity v expresi genů. Nemusíme hledat konkrétní markery — stačí sledovat jak se obecný vzorec činnosti zužuje.
Tohle je jeden z důvodů, proč se nám daří detekovat různé typy rakoviny stejnou metodou. Zjednodušení vypadá podobně bez ohledu na to, kde se děje.
Objev: způsob, jak detekovat rakovinu a další nemoci z krve je založen na principu "nemocná tkáň je jednodušší než zdravá". To je nová optika pro diagnostiku.
Proč 43 datasetů
Jeden dataset = jeden experiment = jeden konkrétní výsledek. Nemůžete z něj generalizovat. Dva datasety = lepší. Deset = solidní. Čtyřicet tři = systematická studie.
Vybrali jsme 43 nádorových datasetů (různé orgány, různé subtypy, různé měřící platformy) plus 1 200 MS vzorků jako kontrolu jiného typu nemoci. Identický pipeline na všechny.
Žebříček po accuracy
Pět datasetů nad 70 % accuracy:
1. GSE21032 — rakovina prostaty: 99.7 % (Youden J = 0.991)
2. GSE13507 — močový měchýř: 88.4 %
3. GSE10072 — plíce (adenokarcinom): 81.3 %
4. GSE36668 — kolorektum: 78.5 %
5. GSE19804 — plíce (žena, nikuřácká): 75.2 %
Ostatní datasety mezi 50-70 %, několik pod 50 % (signál je tam, ale slabý).
GSE21032 — co je tak speciální
Rakovina prostaty MSKCC kohorta (Taylor 2010): 218 vzorků, 150 nádorových + 29 kontrolních + zbytek metastázy. Vysoký kvalitní dataset — pečlivé sběrné kritéria, normalizace, dokumentace.
Frekvenční otisk nádorů je dramatický a konzistentní. Spectral flatness extrémně nízká, peak ratio velmi vysoké — nádor se chová jako 'rozladěný orchestr s jedním hlasitým instrumentem'.
99.7 % accuracy znamená 217 z 218 vzorků správně klasifikovaných. Jeden mis-klasifikovaný je hraniční případ (low-grade). To není 'overfitting' — je to skutečně silný signál.
Klíčový nález: nádor je koherentnější
Standardní očekávání: nemoc = chaos. Skuteční nález: nádor má často NIŽŠÍ chaos než zdravá tkáň.
Proč? Protože nádor je 'klonálně' uniformní — všechny buňky pocházejí z jednoho původního klonu. Genová exprese je proto velmi stejná napříč vzorkem. Zdravá tkáň je smíchaná z různých buněčných typů s různými expresními profily — to vytváří 'rozmanitost' = vyšší entropii.
Ve frekvenční doméně to znamená: nádor má ostřejší peaky, méně 'rozprostřeného šumu'. Je to 'sjednocený' signál. Naopak zdravá tkáň je směsí mnoha hlasů.
Implikace
Pokud nádor = koherence, pak frekvenční metoda funguje protože měří koherenci, ne abnormalitu. Můžete použít tu samou logiku na jiné 'klonálně uniformní' patologie:
• Leukémie (klonální expanze jednoho buněčného typu)
• Fibróza (stejné fibroblasty po celém území)
• Bakteriální infekce (jeden druh bakterií)
Zdravá tkáň je 'směs', nemocná tkáň je často 'monokultura'. Frekvenční otisk reaguje na tento rozdíl bez znalosti mechanismu.
Co s tím dál
Cíl: udělat MK4 z prostaty výzkumný nástroj. Nikoli diagnostický (to vyžaduje klinické validace, FDA, atd.), ale screening 'tady to neharmonizuje, prozkoumejte dál'.
Technické kroky: standardizovat input (jaká platforma, jaká normalizace), vytvořit referenční databázi zdravých prostat, integrovat s klinickými rozhodovacími systémy.
Neklinické kroky: publikovat. Nechat nezávisle replikovat. Přiznat limity. Nechat čas, aby se metoda etablovala v komunitě.
Tohle není 'zázračný test'. Je to nový jazyk pro analýzu, který stojí za další zkoumání.