EN
🧬

Kdy krev mluví a kdy mlčí

RNA signatury nemocí: co frekvenční analýza najde, co ne — a proč
Architekt · 2026-02-15 · 15 min čtení · biomarkery
Na veřejných transkriptomických datech (NCBI GEO) jsme ukázali, že určité nemoci mají konzistentní RNA signaturu zachytitelnou i z periferní krve (roztroušená skleróza), zatímco jiné vyžadují vzorek z postiženého orgánu (diabetes 2. typu — pankreatické ostrůvky). Neurodegenerativní onemocnění na úrovni proteinů (Alzheimer, Parkinson) tato metoda nedokáže spolehlivě identifikovat. Klíčové metodologické zjištění: nevyvážené datasety maskují absenci signálu i při vysoké accuracy.

O co jde

MK4 Biomarker je metoda identifikace nemocných signatur v RNA expresních datech. Není to diagnostický nástroj — je to frekvenční analýza, která měří, jak moc se transkripční profil vzorku liší od zdravého referenčního stavu.

Princip: genová exprese se rozloží Fourierovou transformací na frekvenční komponenty. Z výkonového spektra se spočítá Shannonova entropie — míra 'chaosu' transkripčního profilu. Nemoci, které mění transkripční aktivitu (rakovina, autoimunitní onemocnění), produkují měřitelně odlišné chaos skóre oproti kontrolám.

Metoda pracuje výhradně na úrovni RNA. To je zároveň její síla i její explicitní hranice.

Zdrojový kód je veřejný: github.com/Alexandria-dynamics/mk4-biomarker

Pilotní výsledky na veřejných GEO datasetech

Všechna data pocházejí z NCBI Gene Expression Omnibus — veřejně dostupné, citovatelné, opakovatelné. Žádná proprietární data.

Testováno bylo osm konfigurací napříč šesti onemocněními: roztroušená skleróza (RS) z krve, pan-cancer z krve, diabetes 2. typu (T2D) z pankreatických ostrůvků ve třech různých datasetech, diabetes 1. typu z krve, Parkinson ze substantia nigra a Alzheimer z mozku.

Poznámka k rakovině: dataset je silně nevyvážený (500:42). Accuracy 78 % a sensitivity 83 % jsou statisticky signifikantní (p<0.001), ale vyžadují nezávislou validaci na vyváženém datasetu.

Souhrnné výsledky MK4 Biomarker na veřejných datasetech
NemocGEO IDTkáňn (D/C)BalanceAccuracySensitivityp-valueVerdikt
RSGSE21942krev14/1548 %79 %79 %<0.001✓ signál
Rakovina(pan-cancer)krev500/428 %78 %83 %<0.001✓ signál*
T2D (balanced)GSE25724ostrůvky6/746 %92 %100 %0.005✓ signál
T2D (imbal. 1)GSE38642ostrůvky10/5316 %84 %0–10 %ns⚠ label≠tkáň?
T2D (imbal. 2)GSE76894ostrůvky19/8418 %82 %0 %ns⚠ label≠tkáň?
T1Dkrev64 %⚠ slabý
ParkinsonGSE49036subst. nigra15/865 %61 %nsns✗ selhání
Alzheimermozekbal.54 %nsns✗ selhání

Princip krevního okna

Klíčové zjištění není 'umíme diagnostikovat nemoci' — to by bylo předčasné tvrzení. Klíčové zjištění je, že existuje princip, který určuje, kdy je RNA signatura zachytitelná z krve a kdy ne.

Říkáme tomu 'krevní okno' (blood window):

Krev nese signál, pokud je sama postižená (leukémie), je nositelem imunitní dysregulace (RS — imunitní buňky v krvi *jsou* nemocný orgán), nebo obsahuje produkty systémového zánětu či nádorové RNA (cfRNA u rakoviny).

Krev nenese signál, pokud je patologie lokalizována v orgánu, který do krve neexportuje dostatečnou transkripční stopu (pankreatické β-buňky u T2D — proto 92 % z ostrůvků, ale slabší z krve).

Krev je irelevantní, pokud patologie probíhá na úrovni proteinů, ne RNA. Alzheimer (agregace β-amyloidu a tau) a Parkinson (agregace α-synukleinu) mění buněčnou funkci na post-translační úrovni. RNA transkripce může být normální nebo sekundárně změněná — ale frekvenční chaos signatura je příliš slabá na spolehlivou identifikaci.

Toto je nejdůležitější negativní výsledek celé studie. A právě proto ho uvádíme prominentně.

Krev nese RNA signál jen pokud je sama postižená, nese imunitní dysregulaci, nebo obsahuje systémové produkty nemoci. Protein-level patologie (AD, PD) jsou mimo dosah.

RS z krve: signál existuje

14 pacientů s roztroušenou sklerózou, 15 kontrol. Periferní krev. Dataset je téměř dokonale vyvážený (48 %).

Výsledek: accuracy 79 %, sensitivity 79 %, p<0.001.

Distribuce chaos skóre ukazuje jasné oddělení — kontroly se shlukují kolem nižších hodnot, RS pacienti kolem vyšších. Překryv existuje, ale střední hodnoty se liší statisticky významně.

Co to znamená: imunitní signatura RS je v krvi přítomná a frekvenční analýza ji zachytí. Krev zde funguje jako okno do nemoci, protože imunitní buňky v krvi *jsou* součástí patologického procesu.

T2D z ostrůvků: orgán mluví jasně — a vyváženost rozhoduje

Vyvážený dataset GSE25724: 6 diabetiků, 7 kontrol. Pankreatické ostrůvky (Langerhansovy ostrůvky) — přímo napadená tkáň. Dokonalý balance (46 %).

Výsledek: accuracy 92 %, sensitivity 100 %, p=0.005.

Toto je nejsilnější výsledek v celé studii. Každý diabetický vzorek byl správně identifikován. Chaos skóre u T2D ostrůvků je měřitelně vyšší než u kontrol — β-buňky vykazují transkripční dysregulaci, kterou frekvenční analýza zachytí.

Ale pozor: n=13 je malý vzorek. Síla výsledku je v efektu (100 % sensitivity), ne ve statistickém výkonu. Vyžaduje replikaci na větším datasetu.

Nevyvážený dataset GSE76894: 19 diabetiků, 84 kontrol. Stejná tkáň — pankreatické ostrůvky. Balance je 18 %.

Výsledek: accuracy 82 %, sensitivity 0 %.

Přečtěte si to znovu. Accuracy 82 % a sensitivity nula procent.

Pozor — to neznamená automaticky 'metoda selhala'. Spolupůsobí dva faktory a jejich rozlišení je klíčové:

Statistický: Nevyváženost 82:18 umožňuje klasifikátoru dosáhnout 82 % accuracy pouhým defaultováním na 'zdravý'. Toto je reálný artefakt, který je v biomarkerové literatuře epidemický — accuracy bez sensitivity je bezcenná metrika u screeningu.

Biologický — a ten je důležitější: Těch 84 kontrol jsou lidé se zdravými ostrůvky. MK4 je klasifikuje jako zdravé. To je správné. Ale těch 19 'diabetiků' má klinickou diagnózu z krve — glykémie, HbA1c. To jsou markery periferní inzulinové rezistence, ne stavu ostrůvků. MK4 měří transkripční stav β-buněk přímo. A říká: tyto ostrůvky nevykazují chaos signaturu.

Co když má MK4 pravdu?

Diabetes 2. typu je diagnóza z krve. Ale β-buňky v ostrůvcích nemusí být poškozené — primární problém může být periferní rezistence (svaly, játra, tuková tkáň). A pokud pacient změní životní styl — dieta, pohyb, redukce hmotnosti — nemoc v ostrůvcích nemusí nikdy propuknout. Klinický label říká 'diabetik', ale tkáň říká 'zatím v pořádku'.

A tady je zásadní kontrast: rakovina je ireverzibilní. Onkogenní mutace se nezruší změnou životního stylu. Nádorová buňka zůstane nádorovou buňkou. Proto má MK4 u rakoviny 83 % sensitivity i na nevyváženém datasetu — chaos signatura je stabilní a trvalá. U T2D je signatura nestabilní, protože samotná nemoc je nestabilní — může ustoupit, může se nerozvinout, může být jinde než v ostrůvcích. MK4 to neselže — MK4 to vidí přesně.

V malém, přísně vybraném datasetu GSE25724 (n=13) mohli být všichni diabetici s pokročilou dysfunkcí ostrůvků — proto 100 % sensitivity. Ve velkém, neselektovaném GSE76894 je populace heterogenní: někteří mají poškozené ostrůvky, jiní ne.

Porovnání těchto datasetů proto neříká jen 'balance je důležitější než velikost'. Říká něco potenciálně hlubšího: klinická diagnóza a skutečný stav tkáně nejsou totéž — a frekvenční analýza to dokáže rozlišit. MK4 nedetekuje label. Detekuje stav orgánu. A to může být přesnější pohled na nemoc než samotná diagnóza z krve.

Toto je hypotéza, ne prokázaný fakt. K ověření by bylo potřeba korelovat chaos skóre jednotlivých vzorků s klinickými parametry (HbA1c, trvání nemoci, BMI, medikace). Ale je to hypotéza, která stojí za testování.

Accuracy 82 % a sensitivity 0 % — nevyvážený dataset maskuje absenci signálu. Klinická diagnóza z krve nemusí odpovídat stavu ostrůvků. Rakovina je ireverzibilní (stabilní signatura), T2D je nestabilní — MK4 to vidí přesně.

Parkinson a klesající chaos

Parkinsonova choroba (GSE49036, substantia nigra, vyvážený dataset) dala accuracy 61 % — prakticky náhoda. Ale v datech je skrytý zajímavý vzor.

Chaos skóre se mění s progresí nemoci (Braak staging): Kontroly (Braak 0): ~7.85. Rané stadium (Braak 1–2): ~7.89 (mírný nárůst). Střední stadium (Braak 3–4): ~7.87. Pokročilé stadium (Braak 5–6): ~7.80 (pokles pod kontroly).

Interpretace: v rané fázi se buňky snaží kompenzovat — stresová odpověď zvyšuje transkripční aktivitu. V pokročilé fázi neurony umírají. Mrtvé neurony netranskribují.

To je biologicky konzistentní — ale pro identifikaci signatury nepoužitelné. Chaos klesá i roste, takže neexistuje jednoznačný práh. A hlavně: patologie je na úrovni α-synukleinu (protein), ne RNA.

Toto je přesně typ negativního výsledku, který definuje hranice metody.

Co to je a co to není

Je to: Metoda identifikace RNA signatur na základě frekvenční analýzy genové exprese. Pilotní výsledky na veřejných datasetech naznačují, že u RNA-level onemocnění (rakovina, RS, T2D) existuje měřitelná transkripční signatura. Výzkumný a edukační nástroj s veřejným zdrojovým kódem.

Není to: Diagnostický nástroj. Klinicky validovaný test. Náhrada za lékaře, zobrazovací metody nebo laboratorní biochemii. Univerzální detektor všech nemocí — explicitně selhává u protein-level patologií.

Co to říká o datech: Accuracy bez sensitivity je nebezpečná metrika. Klinický label (diagnóza z krve) nemusí odpovídat stavu tkáně — MK4 potenciálně vidí orgán přesněji než diagnóza, která měří symptom. Vzorek z postiženého orgánu > vzorek z krve (s výjimkou nemocí, kde krev *je* postižený orgán). Protein-level onemocnění jsou mimo dosah frekvenční analýzy RNA.

Co nechceme tvrdit

Netvrdíme 'včasná diagnostika o X let dopředu' — k tomu by bylo potřeba longitudinální studie se vzorky odebranými *před* klinickou manifestací nemoci. Takové datasety zatím nemáme. Ale u T2D jsme narazili na něco zajímavého: klinický label (diagnóza z krve) neodpovídá stavu ostrůvků — což naznačuje, že MK4 měří něco jiného než konvenční diagnostika, a potenciálně něco přesnějšího. To vyžaduje ověření.

Netvrdíme 'screening za pár korun' — RNA extrakce a sekvenování/microarray nejsou levné. Potenciál existuje ve směru cell-free RNA (cfRNA) z kapky krve, ale to je budoucnost, ne přítomnost.

Netvrdíme 'lepší než současná medicína' — současná medicína používá MRI, biopsii, laboratorní markery, klinické vyšetření a desítky let klinických studií. My máme pilotní výsledky na 8 veřejných datasetech.

Tvrdíme pouze: na veřejných datech existuje měřitelný frekvenční rozdíl v RNA expresi mezi zdravými a nemocnými vzorky u vybraných onemocnění, a víme, kdy tento rozdíl existuje a kdy ne.

Otevřené otázky

Validace na nezávislých datasetech — zejména rakovina na vyváženém souboru. Ověření hypotézy 'label ≠ tkáň' u T2D: korelace chaos skóre jednotlivých vzorků s HbA1c, trváním nemoci, BMI a medikací. Pokud MK4 skutečně rozlišuje stav ostrůvků nezávisle na klinické diagnóze, má to klinický dopad — identifikace pacientů, u nichž ostrůvky ještě fungují a změna životního stylu může zabránit progresi.

Rozšíření na další onemocnění: autoimunitní (lupus, Crohn?), infekční, metabolické. Cell-free RNA (cfRNA) jako neinvazivní alternativa k biopsii — pokud se cfRNA stane standardně dostupnou, princip krevního okna se může rozšířit. Kombinace s jinými modalitami — je frekvenční chaos komplementární k diferenciální expresi (DEG), nebo redundantní?

Kde to najít

Zdrojový kód: github.com/Alexandria-dynamics/mk4-biomarker

Datasety: NCBI GEO (GSE21942, GSE25724, GSE38642, GSE76894, GSE49036) — veřejně dostupné, stažitelné, opakovatelné.

Status: v1.0 — výzkumný nástroj, edukační použití.

Testováno na: RS, rakovina, T2D (ostrůvky), T1D, PD, AD.

Nepracuje spolehlivě pro: neurodegenerativní onemocnění na úrovni proteinů (AD, PD). Vyžaduje opatrnost u nevyvážených datasetů, kde klinický label nemusí odpovídat skutečnému stavu tkáně.

Kde se potkáváme s konvenční fyzikou

Konvenční bioinformatika používá diferenciální expresi (DESeq2, limma) k identifikaci nemocných genů. Některé nemoci mají konzistentní podpis v periferní krvi, jiné ne. Proč zrovna tyto a ne jiné? Standardní přístup to přijímá jako fakt. Frekvenční pohled na expresní profil ukazuje, že odpověď může být ve struktuře signálu, ne v jednotlivých genech.

Update 2026-03-24: Aktuální accuracy MK4: 73% (per-dataset centroid, 53 datasetů). Viz L2-024.

Aktualizace

Aktualizace 2026-03-24: Per-dataset centroid + GAPDH/HPRT1 tkáňová adresa (spread 117.7%). Accuracy: 61% → 73% (+12%). Healthy ref: 1284 vzorků, 34 per-dataset profilů. Ionizace vyloučena (p=0.46). Viz L2-024, L1-056.

Závěr

Na veřejných transkriptomických datech existuje měřitelný frekvenční rozdíl v RNA expresi mezi zdravými a nemocnými vzorky u vybraných onemocnění. RS z krve: 79 % accuracy, p<0.001. T2D z ostrůvků (vyvážený): 92 %, sensitivity 100 %. Ale: accuracy bez sensitivity je bezcenná — nevyvážené datasety maskují selhání. Protein-level onemocnění (AD, PD) jsou mimo dosah. Nejcennější výsledek studie není to, co funguje — je to to, co nefunguje, a proč.

Reference

  1. NCBI Gene Expression Omnibus (GEO). https://www.ncbi.nlm.nih.gov/geo/
  2. GSE21942 — Multiple Sclerosis peripheral blood transcriptomics.
  3. GSE25724 — Type 2 Diabetes pancreatic islets (balanced).
  4. GSE38642 — Pancreatic islets, imbalanced T2D cohort.
  5. GSE76894 — Pancreatic islets, large imbalanced T2D cohort.
  6. GSE49036 — Parkinson's disease, substantia nigra, Braak staging.
  7. Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27, 379–423.
  8. Alexandria Dynamics — MK4 Biomarker v1.0. github.com/Alexandria-dynamics/mk4-biomarker
RNA signaturytranskriptomikaGEO datasetyfrekvenční analýzabiomarkeryroztroušená sklerózadiabetesneurodegeneracemetodologické artefakty