Merge pull request #216 from X-lab-3D/cleanup_database_names

DarioMarzella · web-flow · commit 1ef50b52ffa5 · 2022-10-26T20:30:26.000+02:00
Rename mhcseqs files and add blast database folder.
diff --git a/PANDORA/Database/Database.py b/PANDORA/Database/Database.py
@@ -222,7 +222,7 @@ def construct_both_blast_db(self, data_dir=PANDORA.PANDORA_data):
 
         #Define db name and path
         db_name = 'templates_blast_db'
-        outpath = data_dir + '/' + db_name
+        outpath = data_dir + '/BLAST_databases/' + db_name
         out_fasta = outpath + '/'+ db_name +'.fasta'
 
         #Create db directory
@@ -239,15 +239,15 @@ def construct_both_blast_db(self, data_dir=PANDORA.PANDORA_data):
 
         #Define db name and path
         db_name = 'refseq_blast_db'
-        outpath = data_dir + '/' + db_name
+        outpath = data_dir + '/BLAST_databases/' + db_name
         out_fasta = outpath + '/' + db_name + '.fasta'
 
         #Create db directory
         if not os.path.isdir(outpath):
             subprocess.check_call('mkdir %s' %outpath, shell=True)
 
         #Create .fasta for the db
-        command='cat %s/mhcseqs/Human_MHC_data.fasta %s/mhcseqs/NonHuman_MHC_data.fasta > %s' %(data_dir,
+        command='cat %s/mhcseqs/HLA_cleaned.fasta %s/mhcseqs/MHC_cleaned.fasta > %s' %(data_dir,
                                                                               data_dir,
                                                                               out_fasta)
         subprocess.check_call(command, shell=True)
diff --git a/PANDORA/Database/Database_functions.py b/PANDORA/Database/Database_functions.py
@@ -1631,15 +1631,15 @@ def get_sequence_for_fasta(template, MHC_class, chain):
 
 
 def generate_mhcseq_database(data_dir = PANDORA.PANDORA_data + '/mhcseqs',
-                             HLA_out = 'Human_MHC_data.fasta',
-                             nonHLA_out = 'NonHuman_MHC_data.fasta'):
-    """generate_mhcseq_database(data_dir=PANDORA.PANDORA_data, HLA_out='Human_MHC_data.fasta', nonHLA_out='NonHuman_MHC_data.fasta')
+                             HLA_out = 'HLA_cleaned.fasta',
+                             nonHLA_out = 'MHC_cleaned.fasta'):
+    """generate_mhcseq_database(data_dir=PANDORA.PANDORA_data, HLA_out='HLA_cleaned.fasta', nonHLA_out='MHC_cleaned.fasta')
     Downloads and parse HLA and other MHC sequences to compile reference fastas
 
     Args:
         data_dir (str, optional): Data directory. Defaults to PANDORA.PANDORA_data.
-        HLA_out (str, optional): Output file for HLA sequences. Defaults to 'Human_MHC_data.fasta'.
-        nonHLA_out (str, optional): Output file for non human MHCs. Defaults to 'NonHuman_MHC_data.fasta'.
+        HLA_out (str, optional): Output file for HLA sequences. Defaults to 'HLA_cleaned.fasta'.
+        nonHLA_out (str, optional): Output file for non human MHCs. Defaults to 'MHC_cleaned.fasta'.
 
     Returns:
         None.
@@ -1665,12 +1665,12 @@ def generate_mhcseq_database(data_dir = PANDORA.PANDORA_data + '/mhcseqs',
     return ref_MHCI_sequences
 
 
-def generate_hla_database(data_dir, HLA_out = 'Human_MHC_data.fasta'):
+def generate_hla_database(data_dir, HLA_out = 'HLA_cleaned.fasta'):
     """
     Downloads and parse HLA sequences
 
     Args:
-        HLA_out (str, optional): Output file for HLA sequences. Defaults to 'Human_MHC_data.fasta'.
+        HLA_out (str, optional): Output file for HLA sequences. Defaults to 'HLA_cleaned.fasta'.
 
     Returns:
         None.
@@ -1681,21 +1681,21 @@ def generate_hla_database(data_dir, HLA_out = 'Human_MHC_data.fasta'):
     ###
     # Rename pre-existing raw file
     try:
-        os.system('mv %s/hla_prot.fasta %s/OLD_hla_prot.fasta' %(data_dir, data_dir))
+        os.system('mv %s/HLA_raw.fasta %s/OLD_HLA_raw.fasta' %(data_dir, data_dir))
     except:
         pass
 
     # Download Human data
     url = 'https://raw.githubusercontent.com/ANHIG/IMGTHLA/Latest/hla_prot.fasta'
-    command = (' ').join(['wget', url, '-P', data_dir])
+    command = (' ').join(['wget', url, '-O', f'{data_dir}/HLA_raw.fasta'])
     proc = subprocess.Popen(command,  executable='/bin/bash',
                                  shell=True, stdout=subprocess.PIPE)
     print(proc.stdout.read())
 
     HLAs = {}
     to_write = {}
     #Parse the fasta files
-    for seq_record in SeqIO.parse(data_dir + '/hla_prot.fasta', "fasta"):
+    for seq_record in SeqIO.parse(f'{data_dir}/HLA_raw.fasta', "fasta"):
         allele_fullname = seq_record.description.split(' ')[1]
         #allele_significant = allele_fullname[:8]
         #Take only up to the allele identifyer, ignore the silent mutations
@@ -1743,18 +1743,18 @@ def generate_hla_database(data_dir, HLA_out = 'Human_MHC_data.fasta'):
 
     # Remove pre-existing raw file
     try:
-        os.system('rm %s/OLD_hla_prot.fasta' %data_dir)
+        os.system(f'rm {data_dir}/OLD_HLA_raw.fasta')
     except:
         pass
 
     return to_write
 
-def generate_nonhla_database(data_dir, nonHLA_out = 'NonHuman_MHC_data.fasta'):
+def generate_nonhla_database(data_dir, nonHLA_out = 'MHC_cleaned.fasta'):
     """
     Downloads and parse non human MHC sequences
 
     Args:
-        nonHLA_out (str, optional): Output file for non human MHCs. Defaults to 'NonHuman_MHC_data.fasta'.
+        nonHLA_out (str, optional): Output file for non human MHCs. Defaults to 'MHC_cleaned.fasta'.
 
     Returns:
         None.
@@ -1765,22 +1765,22 @@ def generate_nonhla_database(data_dir, nonHLA_out = 'NonHuman_MHC_data.fasta'):
     ###
     # Rename pre-existing raw file
     try:
-        os.system('mv %s/MHC_prot.fasta %s/OLD_MHC_prot.fasta' %(data_dir, data_dir))
+        os.system(f'mv {data_dir}/MHC_raw.fasta {data_dir}/OLD_MHC_raw.fasta')
     except:
         pass
 
     # Download other animlas data
     #os.system('wget https://raw.githubusercontent.com/ANHIG/IPDMHC/Latest/MHC_prot.fasta')
     url = 'https://raw.githubusercontent.com/ANHIG/IPDMHC/Latest/MHC_prot.fasta'
-    command = (' ').join(['wget', url, '-P', data_dir])
+    command = (' ').join(['wget', url, '-O', f'{data_dir}/MHC_raw.fasta'])
     proc = subprocess.Popen(command,  executable='/bin/bash',
                                  shell=True, stdout=subprocess.PIPE)
     print(proc.stdout.read())
 
     MHCs = {}
     to_write = {}
     #Parse the fasta file
-    fasta = f'{data_dir}/MHC_prot.fasta'
+    fasta = f'{data_dir}/MHC_raw.fasta'
     for seq_record in SeqIO.parse(fasta, "fasta"):
         allele_fullname = seq_record.description.split(' ')[1]
         #allele_significant = allele_fullname[:8]
@@ -1827,7 +1827,7 @@ def generate_nonhla_database(data_dir, nonHLA_out = 'NonHuman_MHC_data.fasta'):
 
     # Remove pre-existing raw file
     try:
-        os.system('rm %s/OLD_MHC_prot.fasta' %data_dir)
+        os.system(f'rm {data_dir}/OLD_MHC_raw.fasta')
     except:
         pass
 
diff --git a/PANDORA/PMHC/PMHC.py b/PANDORA/PMHC/PMHC.py
@@ -408,9 +408,9 @@ def retrieve_MHC_refseq(self, input_file = None, chain='M', permissive=False):
         # Define correct fasta file
         if input_file == None:
             if self.allele_type[0].startswith('HLA'):
-                input_file = PANDORA.PANDORA_data+ '/mhcseqs/Human_MHC_data.fasta'
+                input_file = PANDORA.PANDORA_data+ '/mhcseqs/HLA_cleaned.fasta'
             else:
-                input_file = PANDORA.PANDORA_data+ '/mhcseqs/NonHuman_MHC_data.fasta'
+                input_file = PANDORA.PANDORA_data+ '/mhcseqs/MHC_cleaned.fasta'
 
         # Parse Fasta file
         fasta_sequences = SeqIO.parse(input_file,'fasta')
@@ -535,7 +535,7 @@ def fill_allele_seq_info(self, use_templ_seq=False):
             try:
                 blast_results = Modelling_functions.blast_mhc_seq(self.M_chain_seq,
                                                                   chain='M',
-                                                                  blastdb=PANDORA.PANDORA_data + '/refseq_blast_db/refseq_blast_db')
+                                                                  blastdb=PANDORA.PANDORA_data + '/BLAST_databases/refseq_blast_db/refseq_blast_db')
                 #Take only the allele names with the highest id score
                 top_id = blast_results[0][1]
                 self.allele_type.extend([x[0] for x in blast_results if x[1] == top_id])
@@ -574,7 +574,7 @@ def fill_allele_seq_info(self, use_templ_seq=False):
             try:
                 blast_results = Modelling_functions.blast_mhc_seq(self.N_chain_seq,
                                                                   chain='N',
-                                                                  blastdb=PANDORA.PANDORA_data + '/refseq_blast_db/refseq_blast_db')
+                                                                  blastdb=PANDORA.PANDORA_data + '/BLAST_databases/refseq_blast_db/refseq_blast_db')
                 #Take only the allele names with the highest id score
                 top_id = blast_results[0][1]
                 self.allele_type.extend([x[0] for x in blast_results if x[1] == top_id])
diff --git a/PANDORA/Pandora/Modelling_functions.py b/PANDORA/Pandora/Modelling_functions.py
@@ -456,7 +456,7 @@ def score_peptide_alignment(target, template, substitution_matrix='PAM30'):
 
 
 def find_template(target, database, best_n_templates = 1, benchmark=False, 
-                  blastdb=PANDORA.PANDORA_data + '/templates_blast_db/templates_blast_db'):
+                  blastdb=PANDORA.PANDORA_data + '/BLAST_databases/templates_blast_db/templates_blast_db'):
     ''' Selects the template structure that is best suited as template for homology modelling of the target
 
     Args:
@@ -878,7 +878,7 @@ def run_modeller(output_dir, target, python_script = 'cmd_modeller.py', benchmar
 
     return results
 
-def blast_mhc_seq(seq, chain='M', blastdb=PANDORA.PANDORA_data + '/refseq_blast_db/refseq_blast_db'):
+def blast_mhc_seq(seq, chain='M', blastdb=PANDORA.PANDORA_data + '/BLAST_databases/refseq_blast_db/refseq_blast_db'):
     try:
         command = (' ').join(['blastp','-db',blastdb, 
                                                  '-query',
diff --git a/setup.py b/setup.py
@@ -69,6 +69,7 @@
         f'{user_folder_path}/Databases', 
         f'{user_folder_path}/Databases/{data_folder}',
         f'{user_folder_path}/Databases/{data_folder}/mhcseqs', 
+        f'{user_folder_path}/Databases/{data_folder}/BLAST_databases',
         f'{user_folder_path}/Databases/{data_folder}/PDBs',
         f'{user_folder_path}/Databases/{data_folder}/PDBs/pMHCI', 
         f'{user_folder_path}/Databases/{data_folder}/PDBs/pMHCII',
@@ -77,7 +78,8 @@
         f'{user_folder_path}/Databases/{data_folder}/PDBs/Bad/pMHCII', 
         f'{user_folder_path}/Databases/{data_folder}/PDBs/IMGT_retrieved',
         f'{user_folder_path}/Databases/{data_folder}/outputs',
-        f'{user_folder_path}/test/test_data'
+        f'{user_folder_path}/test/',
+        f'{user_folder_path}/test/test_data',
         f'{user_folder_path}/test/test_data/PDBs/Bad',
         f'{user_folder_path}/test/test_data/PDBs/Bad/pMHCI',
         f'{user_folder_path}/test/test_data/PDBs/Bad/pMHCII', 
@@ -86,5 +88,5 @@
 for D in dirs:
     try:
         os.mkdir(D)
-    except OSError:
-        print('Could not make directory: ' + D)
+    except OSError as e:
+        print(f'Could not make directory: {D} \n Reason: {e}')