Temat 9: Programy zewnętrzne (BLAST+)
Wstecz; Ostatnia modyfikacja: 29.04.2015
- Do dużych obliczeń rekomendowany jest lokalny BLAST (BLAST+)
- Input:
- Query sequence (Q)
- BLAST database of sequences (DB)
- Minimal score S
- Output: list of sequences from DB, such that their alignment scores with Q
are higher than S.
- Kolejne kroki algorytmu BLAST
- usunięcie regionów o niskiej złożoności
- utworzenie list słów długości 3 na podstawie Q
- dla każdego słowa z powyższej listy, tworzymy listę słów podobnych (high-scoring)
- przeszukanie bazy danych znajdując idealne dopasowania dla słów z powyższej listy
- rozszerzenie idealnych dopasowań do HSP
- odfiltrowanie HSP o niskim scorze
- ocena statystycznej istotności znalezionych HSP (e-value)
- łączenie HSP w dłuższe uliniowienia
- policzenie lokalnych uliniowień algorytmem Smith-Watermana
- Manual
do BLAST+
- Ćwiczenie 1: pobierz lokalny BLAST na Linuxa;
- Ćwiczenie 2: pobierz ze strony
http://www.ncbi.nlm.nih.gov/ sekwencje
białkowe dla kilku (przynajmniej trzech) wybranych bakterii
- Ćwiczenie 3: dla każdej z wybranych bakterii stwórz bazy danych
sekwencji programem makeblastdb. Przykład uruchomienia w Pythonie:
cmd = "makeblastdb -in genomes/mtu.fasta -dbtype prot -out dbs/mtu -logfile mtu.log"
os.system(cmd)
Ćwiczenie 4: wyszukaj wybraną sekwencję białkową w tych bazach danych
używając programu blastp lub psiblast.
cmd = "blastp -evalue 1e-10 -db dbs/mtu -query query.fasta -out mtu.out -outfmt 6"
os.system(cmd)