Molekulárne databázy - popis metódy

Metódy a projekty využívajúce molekulárno-biologické technológie, ako sú sekvenačné projekty, zamerané na genómy organizmov, výsledky genomiky a proteomiky, produkujú obrovské množstvo sekvencií DNA, RNA i proteínov. Spracovanie tak obrovského množstva dát nie je v súčasnosti možné bez použitia výkonnej výpočtovej techniky a zodpovedajúceho softvéru. Vývoj nových metód archivácie a manažmentu rozsiahlych dátových súborov, vývoj algoritmov, matematických modelov a štatistických metód pre vyhľadávanie potrebných údajov v databázach, ako aj zdokonaľovanie nástrojov modelovania, vizualizácie a grafiky pre komplexnú analýzu a interpretáciu existujúcich údajov je hlavnou úlohou bioinformatiky. Tento vedný odbor predstavuje spojenie molekulárnej biológie s informačnými technológiami a stal sa dôležitou súčasťou biologického a biomedicínskeho výskumu. V súčasnosti je prostredníctvom internetu dostupných množstvo databáz, zaoberajúcich sa bioinformáciami. Ich prehľad je každý rok aktualizovaný v časopise Nucleic Acids Research. K najdôležitejším databázam patria databázy bibliografických údajov, databázy nukleotidových sekvencií a databázy proteínových sekvencií.

Databáza bibliografických informácií
Rýchly a flexibilný prístup k bibliografickým údajom je dôležitou podmienkou pre efektívnu vedecko-výskumnú činnosť. Základným zdrojom informácií v oblasti biologických vied a biomedicíny sa stala bibliografická databáza MEDLINE, ktorá je súčasťou webového vyhľadávacieho systému PubMed, prevádzkovaného Národným centrom biotechnologických informácií (NCBI) pri Národnom ústave zdravia (NIH) v USA. Systém PubMed umožňuje voľný prístup k abstraktom publikovaných článkov vo viac ako 5000 vedeckých časopisoch, príp. prístup k úplným článkom prostredníctvom funkcie LinkOut (iba v prípade, ak vydavateľ poskytuje úplné verzie článkov prostredníctvom webu, alebo používateľ má predplatený daný časopis). Ďalej umožňuje prístup k citáciám alebo rýchle vyhľadanie súvisiacich článkov cez príkaz Related Articles.    

Databázy nukleotidových sekvencií
Poznanie sekvencie nukleotidov je dôležité pre štúdium vlastností, štruktúry, funkcie a vzájomných vzťahov génov a ich funkčných komponentov. Preto boli realizované veľmi náročné a nákladné medzinárodné projekty, zamerané na získanie kompletnej sekvencie DNA genómu človeka a ďalších vyšších eukaryotických organizmov. Tieto sekvenačné údaje tvoria spolu s vírusovými, bakteriálnymi a kvasinkovými sekvenciami, ako aj sekvenciami nukleových kyselín z iných organizmov, hlavný obsah troch najvýznamnejších databáz nukleotidových sekvencií – GenBank, EMBL a DDBJ. GenBank – je databáza pod správou NCBI v USA. V apríli 2002 bola od GenBank oddelená databáza, ktorá spracováva výstupy rozsiahlych sekvenačných projektov, tzv. WGS (Whole Genome Shotguns). Do databázy sú záznamy vkladané automaticky v prípade veľkých sekvenačných projektov alebo individuálnet. Všetky záznamy sekvencií v GenBank sú spolu s rozsiahlou bibliografickou anotáciou verejne prístupné a je možné ich vyhľadávať cez link Nucleotide. EMBL je najstaršia nukleotidová databáza, vytvorená už v r. 1980 a spravovaná Európskym inštitútom pre bioinformatiku (European Bioinformatics Institute, EBI) so sídlom vo Veľkej Británií. DDBJ (DNA Data Bank of Japan) je najväčšia databáza sekvencií nukleotidov na ázijskom kontinente. Bola založená v r. 1984 a pôvodne zhromažďovala sekvenčné údaje z japonských pracovísk. V súčasnosti všetky databázy úzko spolupracujú a vymieňajú si získané sekvencie. 

Databázy proteínových sekvencií
Kľúčové organizácie, ktoré spravovali databázy proteínových sekvencií, vytvorili v r. 2002 konzorcium UniProt (Universal Protein Resource) a spoločnú databázu rovnakého názvu. Členmi konzorcia sú EBI, Švajčiarsky inštitút bioinformatiky (SIB) a Národná nadácia biomedicínskeho výskumu v USA (NBRF). SIB zriadila server s komplexným vyhľadávacím systémom ExPASy (Expert Protein Analysis System) pre množstvo proteínových databáz a spolu s EBI spravujú databázu Swiss-Prot. Automatický anotačný systém pre proteíny získané prekladom nukleotidových sekvencií v EMBL databáze (ak už nie sú v Swiss-Prot) predstavuje databáza TrEMBL pod správou EBI. Databáza UniProt je tvorená tromi dátovými vrstvami: UniProt Archive (UniParc) je úplná kolekcia verejne dostupných proteínových sekvencií bez redundancií. UniProt Knowledgebase (UniProtKB) predstavuje centrálnu databázu proteínových sekvencií s presnou a jednotnou sekvenčnou aj funkčnou anotáciou. Vyhľadávanie je možné hneď z úvodnej stránky UniProt. UniProt Reference Clusters (UniRef) poskytuje sady klastrov sekvencií z UniProt KB, vrátane alternatívnych zostrihov a izoforiem a vybraných UniParc záznamov. Záznamy proteínových sekvencií sú veľmi podobné EMBL záznamom, vrátane dvojpísmenkových identifikátorov polí.