Molekulárne databázy - manuály
Vyhľadanie dostupných údajov o neznámom géne alebo proteíne
Anotácia:
Množstvo údajov v databázach si vyžaduje efektívne nástroje, pomocou
ktorých je možné rýchle vyhľadanie potrebných údajov. Textové
vyhľadávanie na základe kľúčových slov a pojmov v NCBI
je možné hneď na úvodnej stránke rámci linku All Databases.
Možné je zadávať viac kľúčových slov s
použitím logických operátorov „AND“, „OR“ alebo „NOT“ a obmedziť rozsah
prehľadávaných záznamov príkazom Limits. V EBI je tiež možné vyhľadávať
cez textové pole na úvodnej stránke, alebo si možno zvoliť konkrétnu
databázu v časti Services.
Na vyhľadávanie môžeme použiť databázu NCBI.
Pomôcky: počítač s prístupom na internet
Postup:
1. otvoríme stránku NCBI na internete
2. v okienku „Search“ vyberieme požadovanú databázu, napr. gén
(„Gene“), Proteín („Protein“), genóm („Genome“) alebo nukleotidové
sekvencie génov („Nucleotide“), prípadne využijeme link All Databases
3. v okienku zadáme kľúčové slovo(á) v anglickom jazyku bez oddeľovania
čiarkami
4. po kliknutí na „Search“ sa objavia hľadané informácie
5. informácie vyhodnotíme, príp. uložíme v počítači
Hľadanie homológie neznámej sekvencie s databázovými údajmi
Anotácia: Iný typ vyhľadávacích systémov sa používa na
hľadanie podobných
sekvencií v databázach nukleotidových alebo proteínových sekvencií.
Sekvencie môžu byť porovnávané na základe lokálneho alebo celkového
zoradenia (sequence alignment) v závislosti od účelu porovnávacej
analýzy. Tieto analýzy sú potrebné napr. pri overení, či získaná nová
sekvencia sa už v databázach vyskytuje a akému génu zodpovedá alebo pri
zoraďovaní čiastkových sekvencií do dlhších kontigov na základe
prekrývajúcich sa sekvencií. Na tieto účely sa najčastejšie používa
nástroj BLAST s veľmi rýchlym
algoritmom pre lokálne zoradenie sekvencií. Pri lokálnom zoradení je
prioritné hľadanie oblastí s vysokou podobnosťou sekvencií a je vhodné
pre porovnávanie dlhých sekvencií, ktoré majú iba určité oblasti
podobné a iné oblasti odlišné. Vhodné je tiež pre porovnávanie
sekvencií s veľmi rozdielnou dĺžkou. V prípade globálneho zoradenia,
ktoré je vhodnejšie pre porovnávanie sekvencií s vysokým stupňom
podobnosti a s podobnou dĺžkou je prioritné také zoradenie, aby sa po
celej dĺžke porovnávaných sekvencií dosiahol maximálny počet rovnakých
znakov. Na posúdenie významnosti zhody nájdených úsekov sa používa
numerická hodnota skóre zoradenia S (bit score), ktorá popisuje celkovú
kvalitu zoradenia na základe porovnania pravdepodobnosti výskytu
najdených podobných úsekov s pravdepodobnosťou, že sa také úseky s
podobnými sekvenciami vyskytnú náhodne. Vyššie číslo S zodpovedá vyššej
podobnosti. Ekvivalentom S je hodnota E-value (expectation value),
ktorá vyjadruje štatistickú významnosť zoradenia. Platí, že čím je
hodnota E-value nižšia, tým je významnosť zoradenia vyššia. Nástroj
BLAST je k dispozícií v niekoľkých modifikáciách s rôzne nastavenými
parametrami, napr. blastn pre hľadanie podobných sekvencií v
nukleotidových databázach, blastp pre hľadanie homológnych proteínov,
megablast pre presnú identifikáciu neznámej sekvencie na dlhých
úsekoch, psi-blast pre hľadanie veľmi vzdialených príbuzných sekvencií
alebo bl2seq pre porovnávanie dvoch sekvencií.
Pre porovnávanie troch a viac sekvencií (tzv. mnohonásobné
porovnávanie) sa najčastejšie používa nástroj Multiple
Sequence
Alignment (MSA) na portáli EBI (nahradil v minulosti
populárny
nástroj CLUSTALW). Mnohonásobné porovnávanie
predstavuje významný nástroj na identifikáciu konzervovaných sekvencií
nukleotidov alebo aminokyselín, ktoré predstavujú štrukturálne alebo
funkčné domény proteínových rodín.
Na vyhľadávanie môžeme tiež použiť databázu NCBI.
Pomôcky: počítač s prístupom na internet
Postup:
1. otvoríme stránku NCBI na internete
2. klikneme na odkaz BLAST (v pravom stĺpci), BLAST (Basic Local
Alignment Search Tool) umožňuje hľadanie homológií medzi sekvenciami
nukleových kyselín alebo proteínov
3. na základe zadanej sekvencie (nukleová kyselina alebo proteín)
vyberieme odkaz z ponúkaných možností; pre porovnanie neznámej
sekvencie nukleovej kyseliny môžeme kliknúť na „nucleotide blast“, pre
proteíny „protein blast“
2. do okienka „Enter Query Sequence“ zadáme neznámu sekvenciu, upravíme
podmienky pre
hľadanie a formát výstupu (nie je nutné) a klikneme na „BLAST“
3. počas niekoľkých sekúnd sa objavia hľadané informácie
4. informácie vyhodnotíme, príp. uložíme v počítači