Temat 9: Programy zewnętrzne (BLAST+)

Wstecz; Ostatnia modyfikacja: 29.04.2015
  • Do dużych obliczeń rekomendowany jest lokalny BLAST (BLAST+)
  • Input:
    1. Query sequence (Q)
    2. BLAST database of sequences (DB)
    3. Minimal score S
  • Output: list of sequences from DB, such that their alignment scores with Q are higher than S.
  • Kolejne kroki algorytmu BLAST
    1. usunięcie regionów o niskiej złożoności
    2. utworzenie list słów długości 3 na podstawie Q
    3. dla każdego słowa z powyższej listy, tworzymy listę słów podobnych (high-scoring)
    4. przeszukanie bazy danych znajdując idealne dopasowania dla słów z powyższej listy
    5. rozszerzenie idealnych dopasowań do HSP
    6. odfiltrowanie HSP o niskim scorze
    7. ocena statystycznej istotności znalezionych HSP (e-value)
    8. łączenie HSP w dłuższe uliniowienia
    9. policzenie lokalnych uliniowień algorytmem Smith-Watermana
  • Manual do BLAST+
  • Ćwiczenie 1: pobierz lokalny BLAST na Linuxa;
  • Ćwiczenie 2: pobierz ze strony http://www.ncbi.nlm.nih.gov/ sekwencje białkowe dla kilku (przynajmniej trzech) wybranych bakterii
  • Ćwiczenie 3: dla każdej z wybranych bakterii stwórz bazy danych sekwencji programem makeblastdb. Przykład uruchomienia w Pythonie:
  • cmd = "makeblastdb -in genomes/mtu.fasta -dbtype prot -out dbs/mtu -logfile mtu.log"
    os.system(cmd)
    
  • Ćwiczenie 4: wyszukaj wybraną sekwencję białkową w tych bazach danych używając programu blastp lub psiblast.
  • cmd = "blastp -evalue 1e-10 -db dbs/mtu -query query.fasta -out mtu.out -outfmt 6"
    os.system(cmd)