Jak jsme naučili počítač rozlišovat tkáně bez toho, aby věděl co je tkáň
Problém
Máte 10 000 vzorků genové exprese z 53 různých studií. Krev, mozek, plíce, střevo, prsy, žaludek... Chcete zjistit, které vzorky jsou zdravé a které nemocné.
Standardní přístup: vezměte průměr VŠECH zdravých vzorků jako referenci a měřte vzdálenost od průměru.
Problém: zdravý mozek vypadá úplně jinak než zdravá krev. Když je zprůměrujete, dostanete bod, který nepopisuje ani jedno — jako říct 'průměrná teplota na Zemi je 15°C' a pak se divit, že Sahara i Antarktida vychází jako anomálie.
Co jsme udělali
Místo jednoho průměru pro všechno jsme dali každé studii vlastní referenci — její vlastní 'definici zdraví'.
A pak jsme hledali, jestli existuje jednoduchý způsob jak poznat, ke které referenci nový vzorek patří. Něco jako poštovní směrovací číslo pro DNA.
Našli jsme ho.
Dva nudné geny
GAPDH a HPRT1 jsou takzvané 'housekeeping geny' — geny, o kterých se každý student biologie učí, že jsou stabilní ve všech tkáních. Používají se jako vnitřní kontrola. Nudné. Spolehlivé. Nezajímavé.
Jenže: jejich POMĚR je všechno jen ne nudný.
- V plicích: GAPDH/HPRT1 = 15.7
- V mozku: 6.1
- Ve vaječnících: 3.1
- V krvi: 1.3
Řád rozdílu! Plíce mají HPRT1 téměř nulový. Krev ho má vyrovnaný s GAPDH.
Dva nudné geny. Jeden poměr. A najednou víte, ze které tkáně vzorek pochází.
Výsledek
S per-tkáňovou referencí místo globálního průměru skočila průměrná diagnostická přesnost z 61% na 73%. Plus 12 procentních bodů.
Některé studie:
- Rakovina žaludku: 57.6% → 96.2%
- Rakovina prsu: 62.0% → 94.2%
- Nádory mozku: 40.8% → 82.3%
- Rakovina vaječníků: 15.9% → 81.0%
Žádné nové algoritmy. Žádné neuronové sítě. Žádný machine learning. Jen správná odpověď na správnou otázku: 'odkud jsi?' předtím než se ptáme 'co ti je?'
Proč je to zajímavé
Většina diagnostických AI systémů se snaží naučit rozpoznávat nemoci. Trénují na milionech vzorků. Potřebují GPU farmy.
My jsme se zeptali jinak. Ne 'co je to za nemoc?' ale 'kde na mapě genomu sedíš?' — a odpověď nám dal poměr dvou genů, které se učí v prvním ročníku.
Někdy není potřeba lepší algoritmus. Někdy stačí lepší otázka.
Vyzkoušejte sami
MK4 Biomarker Engine je open-source: github.com/Alexandria-dynamics/mk4-biomarker
Free verze obsahuje kompletní FFT pipeline — nahraje GEO dataset, provede spektrální analýzu, klasifikuje CTRL/DISEASE s dataset-relativním prahem. Vše co potřebujete pro reprodukci našich výsledků.
Pro verze přidává to, co jsme objevili dnes:
- Per-dataset zdravý centroid (ne globální průměr)
- GAPDH/HPRT1 tkáňová kalibrace (automatická adresa na spektrální mapě)
- 3-level reference fallback (dataset → tissue cluster → global)
- Healthy Reference DB s 1284 ověřenými profily z 53 datasetů
- REST API pro integraci do nemocničních systémů
Rozdíl: Free verze odpovídá na otázku 'je tento vzorek nemocný?' Pro verze se nejdřív zeptá 'odkud jsi?' — a díky tomu odpovídá přesněji.