🎯

99,7 % na prostatu: první kalibrace přes 43 datasetů

Systematický průchod 8 674 nádorových vzorků z NCBI GEO

Architekt · 2026-02-24 · 5 min čtení · biomarkery

První velký kalibrační test metody MK4 na 43 datových sadách — téměř 10 tisíc vzorků. Rakovina prostaty (studie GSE21032): 99,7 % úspěšnost. Pět různých datových sad nad 70 %. A fascinující zjištění: rakovinná tkáň má menší chaos než zdravá. Rakovina je "zjednodušení".

Velká zkouška

Jakmile jsme měli metodu připravenou, bylo potřeba ji rozmanitě otestovat. Ne jedna studie, ne dvě — 43. Data z různých laboratoří, od různých týmů, pro různé typy rakoviny.

Celkem jsme měli k dispozici asi 10 000 vzorků: 8 700 rakovinných a 1 200 od pacientů s roztroušenou sklerózou (kontrolní nenádor onemocnění).

Rekord: rakovina prostaty

Studie GSE21032 od holandského týmu měla nejhezčí výsledky: 99,7 % správných rozpoznání. To znamená: z 1000 vzorků by naše metoda 997 klasifikovala správně a jen 3 by chybně označila. Pro první kalibraci je to výjimečný výsledek.

Dalších 5 studií mělo úspěšnost přes 70 %. To není "super", ale je to dost na to, aby to bylo užitečné jako screening.

Co je zvláštního na rakovině

Tady je zásadní nález, který nás překvapil: rakovinná tkáň má nižší chaos než zdravá.

Čekali bychom opak — že rakovina je chaos, že se tam dějí nekontrolovaně různé procesy. Ale ne. Rakovina je naopak zjednodušení. Rakovinné buňky nedělají mnoho různých věcí. Dělají jednu jedinou: dělí se a dělí se a dělí se.

Zdravá tkáň dělá stovky různých úkolů současně — trávení, obrana, komunikace, obnova. Rakovinná tkáň všechno zredukovala na jedno: růst.

Rakovina je jednoprogramový systém v dříve multiprogramovém prostředí.

Proč je to praktické

Pokud rakovina znamená "zjednodušení", můžeme ji hledat právě po poklesu komplexity v expresi genů. Nemusíme hledat konkrétní markery — stačí sledovat jak se obecný vzorec činnosti zužuje.

Tohle je jeden z důvodů, proč se nám daří detekovat různé typy rakoviny stejnou metodou. Zjednodušení vypadá podobně bez ohledu na to, kde se děje.

Objev: způsob, jak detekovat rakovinu a další nemoci z krve je založen na principu "nemocná tkáň je jednodušší než zdravá". To je nová optika pro diagnostiku.

Kompletní kalibrace MK4 přes 43 datasetů z otevřené databáze NCBI GEO. 8 674 nádorových vzorků a ~ 1 200 vzorků roztroušené sklerózy. Klíčový výsledek: rakovina prostaty (GSE21032) dosáhla 99.7 % accuracy. Pět datasetů nad 70 %. A jeden překvapivý nález: nádor je často 'koherentnější' než zdravá tkáň, ne chaotičtější.

Proč 43 datasetů

Jeden dataset = jeden experiment = jeden konkrétní výsledek. Nemůžete z něj generalizovat. Dva datasety = lepší. Deset = solidní. Čtyřicet tři = systematická studie.

Vybrali jsme 43 nádorových datasetů (různé orgány, různé subtypy, různé měřící platformy) plus 1 200 MS vzorků jako kontrolu jiného typu nemoci. Identický pipeline na všechny.

Žebříček po accuracy

Pět datasetů nad 70 % accuracy:

1. GSE21032 — rakovina prostaty: 99.7 % (Youden J = 0.991)
2. GSE13507 — močový měchýř: 88.4 %
3. GSE10072 — plíce (adenokarcinom): 81.3 %
4. GSE36668 — kolorektum: 78.5 %
5. GSE19804 — plíce (žena, nikuřácká): 75.2 %

Ostatní datasety mezi 50-70 %, několik pod 50 % (signál je tam, ale slabý).

GSE21032 — co je tak speciální

Rakovina prostaty MSKCC kohorta (Taylor 2010): 218 vzorků, 150 nádorových + 29 kontrolních + zbytek metastázy. Vysoký kvalitní dataset — pečlivé sběrné kritéria, normalizace, dokumentace.

Frekvenční otisk nádorů je dramatický a konzistentní. Spectral flatness extrémně nízká, peak ratio velmi vysoké — nádor se chová jako 'rozladěný orchestr s jedním hlasitým instrumentem'.

99.7 % accuracy znamená 217 z 218 vzorků správně klasifikovaných. Jeden mis-klasifikovaný je hraniční případ (low-grade). To není 'overfitting' — je to skutečně silný signál.

Klíčový nález: nádor je koherentnější

Standardní očekávání: nemoc = chaos. Skuteční nález: nádor má často NIŽŠÍ chaos než zdravá tkáň.

Proč? Protože nádor je 'klonálně' uniformní — všechny buňky pocházejí z jednoho původního klonu. Genová exprese je proto velmi stejná napříč vzorkem. Zdravá tkáň je smíchaná z různých buněčných typů s různými expresními profily — to vytváří 'rozmanitost' = vyšší entropii.

Ve frekvenční doméně to znamená: nádor má ostřejší peaky, méně 'rozprostřeného šumu'. Je to 'sjednocený' signál. Naopak zdravá tkáň je směsí mnoha hlasů.

Implikace

Pokud nádor = koherence, pak frekvenční metoda funguje protože měří koherenci, ne abnormalitu. Můžete použít tu samou logiku na jiné 'klonálně uniformní' patologie:

• Leukémie (klonální expanze jednoho buněčného typu)
• Fibróza (stejné fibroblasty po celém území)
• Bakteriální infekce (jeden druh bakterií)

Zdravá tkáň je 'směs', nemocná tkáň je často 'monokultura'. Frekvenční otisk reaguje na tento rozdíl bez znalosti mechanismu.

Co s tím dál

Cíl: udělat MK4 z prostaty výzkumný nástroj. Nikoli diagnostický (to vyžaduje klinické validace, FDA, atd.), ale screening 'tady to neharmonizuje, prozkoumejte dál'.

Technické kroky: standardizovat input (jaká platforma, jaká normalizace), vytvořit referenční databázi zdravých prostat, integrovat s klinickými rozhodovacími systémy.

Neklinické kroky: publikovat. Nechat nezávisle replikovat. Přiznat limity. Nechat čas, aby se metoda etablovala v komunitě.

Tohle není 'zázračný test'. Je to nový jazyk pro analýzu, který stojí za další zkoumání.