Číslicové zpracování genomických signálů

Náš tým vyvíjí nové metody pro číslicové zpracování velkoobjemových genomických dat se zaměřením na de novo sestavování genomů, genotypizaci nových bakteriálních kmenů či metataxonomické a metagenomické studie. Na rozdíl od zpracování DNA v běžném textovém zápisu umožňují naše metody systémový přístup a výpočetně efektivnější analýzu často periodických a redundantních genomických dat.

Co děláme

Jsme mladý tým akademických asistentů a doktorandů, který má za sebou řadu úspěchů na poli vývoje nových metod pro zpracování genomických signálů. Naše projekty byly nejen publikovány v renomovaných vědeckých časopisech, ale nacházejí také úspěšné uplatnění v komerčních systémech pro analýzu genomických dat. Portfolio našich projektů tvoří např.:

Metody pro mnohonásobné zarovnání genomických signálů

Jedním z prvních úspěchů byl vývoj nové metody pro zarovnávání nestejně dlouhých genomických signálů na stejnou délku. Vytvořený algoritmus je alternativou k mnohonásobnému zarovnání biologických sekvencí ve znakovém zápisu. Hlavní výhodou však je, že na rozdíl od znakové varianty je ta signálová použitelná na mnohem větší objem dat. Metoda a její dílčí části byly publikované ve dvou impaktovaných časopisech (BMC Bioinformatics, Journal of Theoretical Biology) a na mezinárodní konferenci WCSB Tampere Finland 2013. Úspěšnost této metodiky dokládá i její následná aplikace vývojářským týmem pracujícím na rozvíjející se technologii real-time sekvenátorů Oxford Nanopore. Tyto sekvenátory produkují přímo signálové reprezentace DNA, díky tomu může signálové zarovnání být aplikováno bez zbytečně ztrátové konverze na znakovou reprezentaci.

Obrázek 1: Základní princip algoritmu pro mnohonásobné zarovníní biologických sekvencí v sígnálové formě.

Algoritmus a zavedení pravidel pro decimaci genomických signálů

Dalším úspěchem týmu, je zavedení pravidel pro decimaci genomických signálů. Vzhledem k tomu, že genetická informace je často redundantní, zjistili jsme že je možná provést v signálové podobě značnou redukci dat, aniž by to ovlivnilo konkrétní typy následných analýz jako jsou fylogenomická analýza, delineace a genotypizace.

Tabulka 1: Souhrnné výsledky algoritmu pro decimaci genomických signálů.
DNA sekvence ACTA1 mtDNA Viry Plasmidy Bakterie
Stupeň rozkladu 1 5 5 8 12
Průměrná délka [bp] 2 859 16 335 28 962 383 646 3 830 130
Průměrná délka po decimaci [-] 715 256 453 750 935
Procentuální chyba PRD [%] ? ? ? ? ?

Metody pro zpracování a analýzu elektroforetických dat

Kromě zpracování biologických sekvencí se náš tým věnuje i aplikaci metod číslicového zpracování na jiné formy signálových reprezentací genetické informace. Příkladem mohou být 1D signály získané digitalizací obrazu gelové elektroforézy DNA molekul. Zabýváme se zpracováním obrazu gelu, odstraněním obrazových zkreslení, konverzí do signálové podoby a metodami komparativní analýzy elektroforetických vzorků. Kromě klasické gelové elektroforézy, se zaměřujeme i na dnes modernější formu automatické čipové elektroforézy a jejím využitím pro genotypizaci bakterií.

Obrázek 2: Výsledek algoritmu pro zpracování obrazu z gelové elektroforézy; A – originální snímek; B – obraz po úpravě.
 

Sledujte nás

Na sociálních sítích pravidelně informujeme o našich vzdělávacích aktivitách. Nezapomínáme ani na žhavé novinky z oboru či zajímavé pracovní pozice v biomedicíně.

Podpora talentů

Podporujeme nadané studenty a začínající vědce. Zapojit se můžete i vy. Ať už finančním darem či podporou vzdělávacích aktivit v oblasti přírodních věd a biomedicínského inženýrství.