Liting analyze_schema

BU-ISCIII · saramonzon · Jan 2, 2025 · Nov 2, 2023 · Dec 19, 2023 · Dec 26, 2023
commit dacde9975f3709ca16f18164e74d2f751d8f9e7a
diff --git a/taranis/__main__.py b/taranis/__main__.py
@@ -129,6 +129,7 @@ def taranis_cli(verbose, log_file):
 # testing data for analyze schema
 # taranis analyze-schema -i /media/lchapado/Reference_data/proyectos_isciii/taranis/taranis_testing_data/listeria_testing_schema -o /media/lchapado/Reference_data/proyectos_isciii/taranis/test/analyze_schema
 
+
 @taranis_cli.command(help_priority=1)
 @click.option(
     "-i",
@@ -193,8 +194,7 @@ def analyze_schema(
     usegenus,
 ):
     schema_files = taranis.utils.get_files_in_folder(inputdir, "fasta")
-
-
+
     """
     schema_analyze = {}
     for schema_file in schema_files:
@@ -205,7 +205,20 @@ def analyze_schema(
     # for schema_file in schema_files:
     results = []
     with concurrent.futures.ProcessPoolExecutor() as executor:
-        futures = [executor.submit(taranis.analyze_schema.prueba_paralelizacion, schema_file, output, remove_subset, remove_duplicated, remove_no_cds, genus, species, usegenus) for schema_file in schema_files]
+        futures = [
+            executor.submit(
+                taranis.analyze_schema.prueba_paralelizacion,
+                schema_file,
+                output,
+                remove_subset,
+                remove_duplicated,
+                remove_no_cds,
+                genus,
+                species,
+                usegenus,
+            )
+            for schema_file in schema_files
+        ]
         # Collect results as they complete
         for future in concurrent.futures.as_completed(futures):
             results.append(future.result())

diff --git a/taranis/analyze_schema.py b/taranis/analyze_schema.py
@@ -11,6 +11,7 @@
 import taranis.utils
 
 import pdb
+
 log = logging.getLogger(__name__)
 stderr = rich.console.Console(
     stderr=True,
@@ -19,36 +20,36 @@
     force_terminal=taranis.utils.rich_force_colors(),
 )
 
+
 class AnalyzeSchema:
     def __init__(
-            self,
-            schema_allele,
-            output,
-            remove_subset,
-            remove_duplicated,
-            remove_no_cds,
-            genus,
-            species,
-            usegenus
-        ):
-            self.schema_allele = schema_allele
-            self.allele_name = Path(self.schema_allele).stem
-            self.output = output
-            self.remove_subset = remove_subset
-            self.remove_duplicated = remove_duplicated
-            self.remove_no_cds = remove_no_cds
-            self.genus = genus
-            self.species = species
-            self.usegenus = usegenus
-
+        self,
+        schema_allele,
+        output,
+        remove_subset,
+        remove_duplicated,
+        remove_no_cds,
+        genus,
+        species,
+        usegenus,
+    ):
+        self.schema_allele = schema_allele
+        self.allele_name = Path(self.schema_allele).stem
+        self.output = output
+        self.remove_subset = remove_subset
+        self.remove_duplicated = remove_duplicated
+        self.remove_no_cds = remove_no_cds
+        self.genus = genus
+        self.species = species
+        self.usegenus = usegenus
 
-    def check_allele_quality (self):
+    def check_allele_quality(self):
         a_quality = {}
         allele_seq = {}
         bad_quality_record = []
         with open(self.schema_allele) as fh:
             for record in SeqIO.parse(self.schema_allele, "fasta"):
-                a_quality[record.id] = {"quality": "Good quality", "reason": "-" }
+                a_quality[record.id] = {"quality": "Good quality", "reason": "-"}
                 allele_seq[record.id] = str(record.seq)
                 a_quality[record.id]["length"] = len(str(record.seq))
                 if len(record.seq) % 3 != 0:
@@ -67,27 +68,30 @@ def check_allele_quality (self):
                 else:
                     record_sequence = str(record.seq)
                 a_quality[record.id]["order"] = sequence_order
-                if record_sequence[0:3] not in taranis.utils.START_CODON_FORWARD :
+                if record_sequence[0:3] not in taranis.utils.START_CODON_FORWARD:
                     a_quality[record.id]["quality"] = "Bad quality"
                     a_quality[record.id]["reason"] = "Start codon not found"
                     continue
-                if record_sequence[-3:] not in taranis.utils.STOP_CODON_FORWARD :
+                if record_sequence[-3:] not in taranis.utils.STOP_CODON_FORWARD:
                     a_quality[record.id]["quality"] = "Bad quality"
                     a_quality[record.id]["reason"] = "Stop codon not found"
                     continue
                 if taranis.utils.find_multiple_stop_codons(record_sequence):
                     a_quality[record.id]["quality"] = "Bad quality"
                     a_quality[record.id]["reason"] = "Multiple stop codons found"
                     continue
-                if self.remove_no_cds and a_quality[record.id]["quality"] == "Bad quality":
-                        bad_quality_record.append(record.id)
-
+                if (
+                    self.remove_no_cds
+                    and a_quality[record.id]["quality"] == "Bad quality"
+                ):
+                    bad_quality_record.append(record.id)
+
         if self.remove_duplicated:
             # get the unique sequences and compare the length with all sequences
             unique_seq = list(set(list(allele_seq.values())))
             if len(unique_seq) < len(allele_seq):
                 tmp_dict = {}
-                for rec_id , seq_value in allele_seq.items():
+                for rec_id, seq_value in allele_seq.items():
                     if seq_value not in tmp_dict:
                         tmp_dict[seq_value] = 0
                     else:
@@ -116,50 +120,65 @@ def check_allele_quality (self):
     def fetch_statistics_from_alleles(self, a_quality):
         record_data = {}
         bad_quality_reason = {}
-        a_length = [] 
+        a_length = []
         bad_quality_counter = 0
         for record_id in a_quality.keys():
             record_data["allele_name"] = self.allele_name
             a_length.append(a_quality[record_id]["length"])
             if a_quality[record_id]["quality"] == "Bad quality":
                 bad_quality_counter += 1
-            bad_quality_reason[a_quality[record_id]["reason"]] = bad_quality_reason.get(a_quality[record_id]["reason"], 0 ) +1
+            bad_quality_reason[a_quality[record_id]["reason"]] = (
+                bad_quality_reason.get(a_quality[record_id]["reason"], 0) + 1
+            )
         total_alleles = len(a_length)
         record_data["min_length"] = min(a_length)
         record_data["max_length"] = max(a_length)
         record_data["num_alleles"] = total_alleles
-        record_data["mean_length"] = round(statistics.mean(a_length),2)
-        record_data["good_percent"] = round(100*(total_alleles - bad_quality_counter) / total_alleles, 2)
+        record_data["mean_length"] = round(statistics.mean(a_length), 2)
+        record_data["good_percent"] = round(
+            100 * (total_alleles - bad_quality_counter) / total_alleles, 2
+        )
         return record_data
 
-
     def analyze_allele_in_schema(self):
         allele_data = {}
         # Perform quality
         a_quality = self.check_allele_quality()
         # run annotations
         prokka_folder = os.path.join(self.output, "prokka", self.allele_name)
-        anotation_files = taranis.utils.create_annotation_files(self.schema_allele, prokka_folder, self.allele_name)
-        allele_data["annotation_gene"] = taranis.utils.read_annotation_file(anotation_files+ ".tsv", self.allele_name).get(self.allele_name)
+        anotation_files = taranis.utils.create_annotation_files(
+            self.schema_allele, prokka_folder, self.allele_name
+        )
+        allele_data["annotation_gene"] = taranis.utils.read_annotation_file(
+            anotation_files + ".tsv", self.allele_name
+        ).get(self.allele_name)
         allele_data.update(self.fetch_statistics_from_alleles(a_quality))
         return allele_data
-
-def prueba_paralelizacion(schema_allele,
+
+
+def prueba_paralelizacion(
+    schema_allele,
+    output,
+    remove_subset,
+    remove_duplicated,
+    remove_no_cds,
+    genus,
+    species,
+    usegenus,
+):
+    schema_obj = AnalyzeSchema(
+        schema_allele,
         output,
         remove_subset,
         remove_duplicated,
         remove_no_cds,
         genus,
         species,
-        usegenus
-    ):
-    schema_obj = AnalyzeSchema(schema_allele, output, remove_subset, remove_duplicated, remove_no_cds, genus, species, usegenus)
+        usegenus,
+    )
     return schema_obj.analyze_allele_in_schema()
 
 
 def collect_statistics(stat_data):
-
-
     stats_df = pd.DataFrame(stat_data)
     print(stats_df)
-