EN
🎯

99,7 % na prostatu: první kalibrace přes 43 datasetů

8 674 vzorků rakoviny + 12 MS datasetů — od náhody k mapě
Architekt · 2026-02-24 · 14 min čtení · biomarkery
První kompletní kalibrace MK4 přes 43 datasetů (8 674 rakovinových + ~1 200 MS vzorků). Prostata GSE21032 dosáhla 99,7 % accuracy (J=0.991). Pět datasetů nad 70 %. Klíčový objev: chaos nádoru je nižší než chaos zdravé tkáně — rakovina je jednoprogram, zdraví je šum.

Od pěti nemocí ke čtyřiceti třem datovým sadám

Před třemi dny jsme měli pět nemocí a 831 vzorků. Dnes máme 43 datových sad, 9 874 biologických vzorků a jednu jasnou odpověď: frekvenční analýza genové exprese funguje — ale ne na všechno stejně. Tento svitek je zpráva z první kompletní kalibrace MK4 enginu přes dva hlavní okruhy nemocí: rakovinu (31 datasetů, 8 674 vzorků) a roztroušenou sklerózu (12 datasetů, ~1 200 vzorků).

Hvězda jménem GSE21032

Prostata. 743 vzorků. 231 zdravých kontrol, 512 nádorů. Výsledek: 99,7 % přesnost, 100 % senzitivita, 99,1 % specificita. Youdenovo J = 0,991. Separace MK4 skóre mezi zdravými a nemocnými: 11,11 bodů — propastný rozdíl, žádné překrytí distribucí. Chaos zdravé tkáně: 11,567. Chaos nádoru: 9,249. Nádor má nižší chaos — je organizovanější, ale v jiném režimu. Toto není okrajový výsledek. Je to nejsilnější signál, jaký jsme kdy viděli, na velkém vzorku s balancovaným poměrem skupin.

Pět nad sedmdesát procent

Z 22 rakovinových datasetů s kontrolní skupinou dosáhlo pět přesnosti nad 70 %. GSE21032 (prostata): 99,7 %. GSE68465 (plicní adenokarcinom): 89,0 %. GSE33630 (karcinom štítné žlázy): 82,9 %. GSE18520 (ovariální karcinom): 79,4 %. GSE50161 (mozkový nádor): 72,3 %. A GSE29272 (rakovina žaludku) s 71,3 % je těsně za. Co mají společné: dostatečně velký vzorek, balancované skupiny a nemoc, která výrazně mění genovou expresi v napadené tkáni.

Kde to nefunguje

Devět rakovinových datasetů nemá žádnou kontrolní skupinu — jsou čistě deskriptivní. Z těch, co kontroly mají, čtyři jsou pod 50 %: GSE26712 (ovariální, 30,3 %), GSE9750 (cervikální, 45,5 %), GSE54129 (žaludek, 46,2 %), GSE19429 (MDS, 48,5 %). Důvody jsou různé: extrémní nevyváženost skupin (GSE13159: 74 kontrol vs 2 022 nemocných), jiná platforma, krev místo tkáně. Frekvenční signál existuje, ale je příliš slabý na spolehlivou klasifikaci.

Roztroušená skleróza: nejlepší i nejhorší

MS je zvláštní případ. GSE21942 dosáhl 89,7 % přesnosti (J = 0,79) — jeden z nejlepších výsledků vůbec. GSE23832 měl 83,3 %. Ale většina MS datasetů se pohybuje mezi 55–66 %, a dva velké datasety (GSE13732 a GSE146383) nemají funkční labely — klinické kódy jako CIS nebo PDMS/ADMS klasifikátor nerozpozná. MS ukazuje, proč je kalibrace nutná: jeden dataset slibuje zázrak, tři další ho vyvrátí.

Chaos nádoru je nižší než chaos zdravé tkáně

Na GSE21032 je to nejviditelnější: zdravá tkáň má chaos 11,567, nádor 9,249. Ale i na dalších datasetech je trend konzistentní — nádorová tkáň má nižší spektrální chaos. To dává biologický smysl: rakovina je nekontrolovaný růst jednoho programu. Geny, které normálně pracují v různých režimech, se synchronizují do jednoho. Výsledek: nižší entropie ve frekvenčním spektru. Zdravá tkáň je šumivější, protože dělá víc věcí najednou.

Separace je klíč, ne přesnost

Přesnost závisí na thresholdu a velikosti skupin. Separace — vzdálenost středních hodnot MK4 skóre dělená směrodatnou odchylkou — je robustnější metrika. GSE21032 má separaci 11,11. GSE68465 má 2,38. GSE33630 má 1,65. Cokoli nad 1,0 je silný signál. Pod 0,5 je to šepot. A většina MS datasetů má separaci pod 0,3 — signál existuje, ale je téměř neodlišitelný od šumu.

Devět datasetů čeká na Healthy Core

Devět rakovinových datasetů nemá kontrolní skupinu: pankreas, melanom, CLL, prostata, gliom a další. V klasickém přístupu jsou nepoužitelné. Ale až bude k dispozici Healthy Core — univerzální spektrální reference zdravé tkáně odvozená z velkých kontrolních skupin — bude možné tyto datasety klasifikovat proti referenci. Žádný lokální CTRL nepotřebuješ, pokud máš globální standard. To je další krok.

Čísla mluví

43 datasetů. 9 874 vzorků. 34 s kontrolní skupinou, z nich 6 nad 70 % přesnosti. Jeden nad 99 %. Žádná předchozí znalost biologie, žádné genové sady, žádné metabolické dráhy — jen Fourierova transformace surových dat a pět spektrálních metrik. Mapa hřiště se rýsuje: solidní tumory z tkáně jsou nejsilnější, krev je echo, MS je hraniční, a některé nemoci frekvenčně mlčí. Ale tři datasety nad 80 % na nezávislých kohortách jsou víc než náhoda. Je to signál.

Co dál: tři kroky k robustnímu enginu

Za prvé: Healthy Core. Universální spektrální reference zdravé tkáně odvozená z největších kontrolních skupin (GSE21032: 231 kontrol, GSE14520: 241 kontrol, GSE87211: 160 kontrol). Jeden globální standard místo per-dataset thresholdu. To vyřeší tři problémy najednou — devět bezCTRL datasetů, nestabilitu thresholdu na nevyvážených skupinách a závislost na kvalitě label classifieru. Za druhé: label classifier. Klinické kódy jako CIS (clinically isolated syndrome), PDMS/ADMS (pediatric/adult MS) a 'normal skin' musí být správně rozpoznány. Dva velké MS datasety (GSE13732, GSE146383) mají přes 150 neoznačených vzorků kvůli chybějícím pravidlům. Za třetí: Series Matrix parser. Polovina GEO dat je v Series Matrix formátu — tabulka s metadaty a expresní maticí v jednom souboru. Parser funguje, ale nebyl dosud testován na plné sadě. Rozšíření na tento formát zdvojnásobí počet analyzovatelných datasetů.

Kde se potkáváme s konvenční fyzikou

99.7 % přesnost na prostatě (GSE21032) je na úrovni nejlepších výsledků pro tento dataset (Taylor et al. 2010). PSA screening má senzitivitu ~80 % ale specificitu jen ~30 %. Proč frekvenční analýza jednoho datasetu dosáhne přesnosti, kterou konvenční biomarkery nedosahují konzistentně? Data jsou stejná. Liší se pohled.

MK4kalibracerakovinaprostataroztroušená sklerózaGEOfrekvenční analýzaYoudenspektrální separace