Molekulárne databázy - popis metódy
Metódy a projekty využívajúce molekulárno-biologické technológie, ako sú sekvenačné projekty, zamerané na genómy organizmov, výsledky genomiky a proteomiky, produkujú obrovské množstvo sekvencií DNA, RNA i proteínov. Spracovanie tak obrovského množstva dát nie je v súčasnosti možné bez použitia výkonnej výpočtovej techniky a zodpovedajúceho softvéru. Vývoj nových metód archivácie a manažmentu rozsiahlych dátových súborov, vývoj algoritmov, matematických modelov a štatistických metód pre vyhľadávanie potrebných údajov v databázach, ako aj zdokonaľovanie nástrojov modelovania, vizualizácie a grafiky pre komplexnú analýzu a interpretáciu existujúcich údajov je hlavnou úlohou bioinformatiky. Tento vedný odbor predstavuje spojenie molekulárnej biológie s informačnými technológiami a stal sa dôležitou súčasťou biologického a biomedicínskeho výskumu. V súčasnosti je prostredníctvom internetu dostupných množstvo databáz, zaoberajúcich sa bioinformáciami. Ich prehľad je každý rok aktualizovaný v časopise Nucleic Acids Research. K najdôležitejším databázam patria databázy bibliografických údajov, databázy nukleotidových sekvencií a databázy proteínových sekvencií.
Databáza
bibliografických informácií
Rýchly a flexibilný
prístup k bibliografickým údajom je dôležitou podmienkou pre efektívnu
vedecko-výskumnú činnosť. Základným
zdrojom informácií v oblasti biologických
vied a biomedicíny sa stala bibliografická
databáza MEDLINE, ktorá je súčasťou
webového vyhľadávacieho systému PubMed, prevádzkovaného
Národným centrom biotechnologických informácií (NCBI)
pri Národnom
ústave zdravia (NIH) v USA. Systém PubMed umožňuje voľný prístup k
abstraktom publikovaných článkov vo viac ako 5000 vedeckých časopisoch,
príp. prístup k úplným článkom prostredníctvom funkcie LinkOut (iba v
prípade, ak vydavateľ poskytuje úplné verzie článkov prostredníctvom
webu, alebo používateľ má predplatený daný časopis). Ďalej umožňuje
prístup k citáciám alebo rýchle vyhľadanie súvisiacich článkov cez
príkaz Related Articles.
Databázy
nukleotidových sekvencií
Poznanie sekvencie nukleotidov je dôležité pre štúdium vlastností,
štruktúry, funkcie a vzájomných vzťahov génov a ich funkčných
komponentov. Preto boli realizované veľmi náročné a nákladné
medzinárodné projekty, zamerané na získanie kompletnej sekvencie DNA
genómu človeka a ďalších vyšších eukaryotických organizmov. Tieto
sekvenačné údaje tvoria spolu s vírusovými, bakteriálnymi a
kvasinkovými sekvenciami, ako aj sekvenciami nukleových kyselín z iných
organizmov, hlavný obsah troch najvýznamnejších databáz nukleotidových
sekvencií – GenBank, EMBL a DDBJ. GenBank – je databáza pod správou
NCBI v USA. V apríli 2002 bola od
GenBank oddelená databáza, ktorá spracováva výstupy rozsiahlych
sekvenačných projektov, tzv. WGS (Whole Genome Shotguns). Do databázy
sú záznamy vkladané automaticky v prípade
veľkých sekvenačných projektov alebo individuálnet. Všetky záznamy
sekvencií v GenBank sú spolu s
rozsiahlou bibliografickou anotáciou verejne prístupné a je možné ich
vyhľadávať cez link Nucleotide. EMBL je
najstaršia nukleotidová databáza, vytvorená už v r. 1980 a spravovaná
Európskym inštitútom pre bioinformatiku (European
Bioinformatics Institute, EBI) so sídlom vo
Veľkej Británií. DDBJ (DNA
Data Bank of Japan) je najväčšia databáza sekvencií
nukleotidov na ázijskom kontinente. Bola založená v r. 1984 a pôvodne
zhromažďovala sekvenčné údaje z japonských pracovísk. V súčasnosti
všetky databázy úzko spolupracujú a vymieňajú si získané
sekvencie.
Databázy
proteínových sekvencií
Kľúčové organizácie, ktoré spravovali databázy proteínových sekvencií,
vytvorili v r. 2002 konzorcium UniProt (Universal Protein
Resource) a
spoločnú databázu rovnakého názvu. Členmi konzorcia sú EBI, Švajčiarsky
inštitút bioinformatiky (SIB) a Národná nadácia biomedicínskeho výskumu
v USA (NBRF). SIB zriadila server s komplexným vyhľadávacím systémom
ExPASy (Expert Protein Analysis System) pre množstvo proteínových
databáz a spolu s EBI spravujú databázu Swiss-Prot. Automatický
anotačný systém pre proteíny získané prekladom nukleotidových sekvencií
v EMBL databáze (ak už nie sú v Swiss-Prot) predstavuje databáza TrEMBL
pod správou EBI. Databáza UniProt je tvorená tromi dátovými vrstvami:
UniProt Archive (UniParc) je úplná kolekcia verejne dostupných
proteínových sekvencií bez redundancií.
UniProt Knowledgebase (UniProtKB) predstavuje centrálnu
databázu
proteínových sekvencií s presnou a jednotnou sekvenčnou aj funkčnou
anotáciou.
Vyhľadávanie je možné hneď z úvodnej stránky UniProt. UniProt Reference
Clusters (UniRef) poskytuje sady klastrov sekvencií
z UniProt KB, vrátane alternatívnych zostrihov a izoforiem a vybraných
UniParc záznamov.
Záznamy proteínových sekvencií sú veľmi podobné EMBL záznamom, vrátane
dvojpísmenkových identifikátorov polí.