Molekulárne databázy - manuály

Vyhľadanie dostupných údajov o neznámom géne alebo proteíne

Anotácia: Množstvo údajov v databázach si vyžaduje efektívne nástroje, pomocou ktorých je možné rýchle vyhľadanie potrebných údajov. Textové vyhľadávanie na základe kľúčových slov a pojmov v NCBI je možné hneď na úvodnej stránke  rámci linku All Databases. Možné je zadávať viac kľúčových slov s použitím logických operátorov „AND“, „OR“ alebo „NOT“ a obmedziť rozsah prehľadávaných záznamov príkazom Limits. V EBI je tiež možné vyhľadávať cez textové pole na úvodnej stránke, alebo si možno zvoliť konkrétnu databázu v časti Services.

Na vyhľadávanie môžeme použiť databázu NCBI

Pomôcky: počítač s prístupom na internet 

Postup:
1. otvoríme stránku NCBI na internete
2. v okienku „Search“ vyberieme požadovanú databázu, napr. gén („Gene“), Proteín („Protein“), genóm („Genome“) alebo nukleotidové sekvencie génov („Nucleotide“), prípadne využijeme link All Databases
3. v okienku zadáme kľúčové slovo(á) v anglickom jazyku bez oddeľovania čiarkami
4. po kliknutí na „Search“ sa objavia hľadané informácie
5. informácie vyhodnotíme, príp. uložíme v počítači

Hľadanie homológie neznámej sekvencie s databázovými údajmi

Anotácia: Iný typ vyhľadávacích systémov sa používa na hľadanie podobných sekvencií v databázach nukleotidových alebo proteínových sekvencií. Sekvencie môžu byť porovnávané na základe lokálneho alebo celkového zoradenia (sequence alignment) v závislosti od účelu porovnávacej analýzy. Tieto analýzy sú potrebné napr. pri overení, či získaná nová sekvencia sa už v databázach vyskytuje a akému génu zodpovedá alebo pri zoraďovaní čiastkových sekvencií do dlhších kontigov na základe prekrývajúcich sa sekvencií. Na tieto účely sa najčastejšie používa nástroj BLAST s veľmi rýchlym algoritmom pre lokálne zoradenie sekvencií. Pri lokálnom zoradení je prioritné hľadanie oblastí s vysokou podobnosťou sekvencií a je vhodné pre porovnávanie dlhých sekvencií, ktoré majú iba určité oblasti podobné a iné oblasti odlišné. Vhodné je tiež pre porovnávanie sekvencií s veľmi rozdielnou dĺžkou. V prípade globálneho zoradenia, ktoré je vhodnejšie pre porovnávanie sekvencií s vysokým stupňom podobnosti a s podobnou dĺžkou je prioritné také zoradenie, aby sa po celej dĺžke porovnávaných sekvencií dosiahol maximálny počet rovnakých znakov. Na posúdenie významnosti zhody nájdených úsekov sa používa numerická hodnota skóre zoradenia S (bit score), ktorá popisuje celkovú kvalitu zoradenia na základe porovnania pravdepodobnosti výskytu najdených podobných úsekov s pravdepodobnosťou, že sa také úseky s podobnými sekvenciami vyskytnú náhodne. Vyššie číslo S zodpovedá vyššej podobnosti. Ekvivalentom S je hodnota E-value (expectation value), ktorá vyjadruje štatistickú významnosť zoradenia. Platí, že čím je hodnota E-value nižšia, tým je významnosť zoradenia vyššia. Nástroj BLAST je k dispozícií v niekoľkých modifikáciách s rôzne nastavenými parametrami, napr. blastn pre hľadanie podobných sekvencií v nukleotidových databázach, blastp pre hľadanie homológnych proteínov, megablast pre presnú identifikáciu neznámej sekvencie na dlhých úsekoch, psi-blast pre hľadanie veľmi vzdialených príbuzných sekvencií alebo bl2seq pre porovnávanie dvoch sekvencií.
Pre porovnávanie troch a viac sekvencií (tzv. mnohonásobné porovnávanie) sa najčastejšie používa nástroj Multiple Sequence Alignment (MSA) na portáli EBI (nahradil v minulosti populárny nástroj CLUSTALW). Mnohonásobné porovnávanie predstavuje významný nástroj na identifikáciu konzervovaných sekvencií nukleotidov alebo aminokyselín, ktoré predstavujú štrukturálne alebo funkčné domény proteínových rodín.

Na vyhľadávanie môžeme tiež použiť databázu NCBI

Pomôcky: počítač s prístupom na internet 

Postup:
1. otvoríme stránku NCBI na internete
2. klikneme na odkaz BLAST (v pravom stĺpci), BLAST (Basic Local Alignment Search Tool) umožňuje hľadanie homológií medzi sekvenciami nukleových kyselín alebo proteínov
3. na základe zadanej sekvencie (nukleová kyselina alebo proteín) vyberieme odkaz z ponúkaných možností; pre porovnanie neznámej sekvencie nukleovej kyseliny môžeme kliknúť na „nucleotide blast“, pre proteíny „protein blast“
2. do okienka „Enter Query Sequence“ zadáme neznámu sekvenciu, upravíme podmienky pre hľadanie a formát výstupu (nie je nutné) a klikneme na „BLAST“
3. počas niekoľkých sekúnd sa objavia hľadané informácie
4. informácie vyhodnotíme, príp. uložíme v počítači