EN
📜

Jak jsme naučili počítač rozlišovat tkáně bez toho, aby věděl co je tkáň

Alexandria Dynamics · 2026-03-21 · min čtení ·
Náš biomarkerový engine MK4 analyzuje genovou expresi pomocí FFT — ptá se na tvar spektra, ne na jednotlivé geny. Dnes jsme objevili, že poměr dvou 'nudných' housekeeping genů (GAPDH/HPRT1) dokáže rozlišit tkáně s přesností na řád. A accuracy diagnostiky skočila o 12%.

Problém

Máte 10 000 vzorků genové exprese z 53 různých studií. Krev, mozek, plíce, střevo, prsy, žaludek... Chcete zjistit, které vzorky jsou zdravé a které nemocné.

Standardní přístup: vezměte průměr VŠECH zdravých vzorků jako referenci a měřte vzdálenost od průměru.

Problém: zdravý mozek vypadá úplně jinak než zdravá krev. Když je zprůměrujete, dostanete bod, který nepopisuje ani jedno — jako říct 'průměrná teplota na Zemi je 15°C' a pak se divit, že Sahara i Antarktida vychází jako anomálie.

Co jsme udělali

Místo jednoho průměru pro všechno jsme dali každé studii vlastní referenci — její vlastní 'definici zdraví'.

A pak jsme hledali, jestli existuje jednoduchý způsob jak poznat, ke které referenci nový vzorek patří. Něco jako poštovní směrovací číslo pro DNA.

Našli jsme ho.

Dva nudné geny

GAPDH a HPRT1 jsou takzvané 'housekeeping geny' — geny, o kterých se každý student biologie učí, že jsou stabilní ve všech tkáních. Používají se jako vnitřní kontrola. Nudné. Spolehlivé. Nezajímavé.

Jenže: jejich POMĚR je všechno jen ne nudný.

Řád rozdílu! Plíce mají HPRT1 téměř nulový. Krev ho má vyrovnaný s GAPDH.

Dva nudné geny. Jeden poměr. A najednou víte, ze které tkáně vzorek pochází.

Výsledek

S per-tkáňovou referencí místo globálního průměru skočila průměrná diagnostická přesnost z 61% na 73%. Plus 12 procentních bodů.

Některé studie:
- Rakovina žaludku: 57.6% → 96.2%
- Rakovina prsu: 62.0% → 94.2%
- Nádory mozku: 40.8% → 82.3%
- Rakovina vaječníků: 15.9% → 81.0%

Žádné nové algoritmy. Žádné neuronové sítě. Žádný machine learning. Jen správná odpověď na správnou otázku: 'odkud jsi?' předtím než se ptáme 'co ti je?'

Proč je to zajímavé

Většina diagnostických AI systémů se snaží naučit rozpoznávat nemoci. Trénují na milionech vzorků. Potřebují GPU farmy.

My jsme se zeptali jinak. Ne 'co je to za nemoc?' ale 'kde na mapě genomu sedíš?' — a odpověď nám dal poměr dvou genů, které se učí v prvním ročníku.

Někdy není potřeba lepší algoritmus. Někdy stačí lepší otázka.

Vyzkoušejte sami

MK4 Biomarker Engine je open-source: github.com/Alexandria-dynamics/mk4-biomarker

Free verze obsahuje kompletní FFT pipeline — nahraje GEO dataset, provede spektrální analýzu, klasifikuje CTRL/DISEASE s dataset-relativním prahem. Vše co potřebujete pro reprodukci našich výsledků.

Pro verze přidává to, co jsme objevili dnes:
- Per-dataset zdravý centroid (ne globální průměr)
- GAPDH/HPRT1 tkáňová kalibrace (automatická adresa na spektrální mapě)
- 3-level reference fallback (dataset → tissue cluster → global)
- Healthy Reference DB s 1284 ověřenými profily z 53 datasetů
- REST API pro integraci do nemocničních systémů

Rozdíl: Free verze odpovídá na otázku 'je tento vzorek nemocný?' Pro verze se nejdřív zeptá 'odkud jsi?' — a díky tomu odpovídá přesněji.