Sage-Bionetworks · danlu1 · May 28, 2024 · May 17, 2024 · May 17, 2024 · May 20, 2024
@@ -139,10 +139,12 @@ def consortiumToPublic(
     )
 
     # Clinical release scope filter
-    # If consortium -> Don't release to public
-    # TODO: check why this synapse id is hard coded?
+    clinical_tier_release_scope_synid = databaseSynIdMappingDf["Id"][
+        databaseSynIdMappingDf["Database"] == "clinical_tier_release_scope"
+    ][0]
     publicRelease = extract.get_syntabledf(
-        syn=syn, query_string="SELECT * FROM syn8545211 where releaseScope = 'public'"
+        syn=syn,
+        query_string=f"SELECT * FROM {clinical_tier_release_scope_synid} where releaseScope = 'public'",
     )
 
     allClin = clinicalDf[clinicalDf["SAMPLE_ID"].isin(publicReleaseSamples)]
@@ -186,7 +188,12 @@ def consortiumToPublic(
         )
 
     # Grab mapping table to fill in clinical headers
-    mapping = extract.get_syntabledf(syn=syn, query_string="SELECT * FROM syn9621600")
+    clinical_code_to_desc_map_synid = databaseSynIdMappingDf["Id"][
+        databaseSynIdMappingDf["Database"] == "clinical_code_to_desc_map"
+    ][0]
+    mapping = extract.get_syntabledf(
+        syn=syn, query_string=f"SELECT * FROM {clinical_code_to_desc_map_synid}"
+    )
     genePanelEntities = []
     for entName, entId in consortiumRelease[2]:
         is_deprecated_file = entName in ["data_fusions.txt"]

@@ -1013,6 +1013,7 @@ def store_clinical_files(
     release_synid,
     current_release_staging,
     center_mappingdf,
+    databaseSynIdMappingDf,
     used=None,
 ):
     """
@@ -1030,6 +1031,7 @@ def store_clinical_files(
         release_synid: Synapse id to store release file
         current_release_staging: Staging flag
         center_mappingdf: Center mapping dataframe
+        databaseSynIdMappingDf: Database to Synapse Id mapping
 
     Returns:
         pandas.DataFrame: configured clinical dataframe
@@ -1154,7 +1156,12 @@ def store_clinical_files(
     keep_merged_consortium_samples = clinicaldf.SAMPLE_ID
     # This mapping table is the GENIE clinical code to description
     # mapping to generate the headers of the clinical file
-    mapping = extract.get_syntabledf(syn=syn, query_string="SELECT * FROM syn9621600")
+    clinical_code_to_desc_map_synid = databaseSynIdMappingDf["Id"][
+        databaseSynIdMappingDf["Database"] == "clinical_code_to_desc_map"
+    ][0]
+    mapping = extract.get_syntabledf(
+        syn=syn, query_string=f"SELECT * FROM {clinical_code_to_desc_map_synid}"
+    )
     clinical_path = os.path.join(GENIE_RELEASE_DIR, "data_clinical.txt")
     clinical_sample_path = os.path.join(GENIE_RELEASE_DIR, "data_clinical_sample.txt")
     clinical_patient_path = os.path.join(GENIE_RELEASE_DIR, "data_clinical_patient.txt")
@@ -1564,6 +1571,9 @@ def stagingToCbio(
     sv_synid = databaseSynIdMappingDf["Id"][databaseSynIdMappingDf["Database"] == "sv"][
         0
     ]
+    clinical_tier_release_scope_synid = databaseSynIdMappingDf["Id"][
+        databaseSynIdMappingDf["Database"] == "clinical_tier_release_scope"
+    ][0]
     # Grab assay information
     assay_info_ind = databaseSynIdMappingDf["Database"] == "assayinfo"
     assay_info_synid = databaseSynIdMappingDf["Id"][assay_info_ind][0]
@@ -1592,7 +1602,8 @@ def stagingToCbio(
     # Clinical release scope filter
     # If private -> Don't release to public
     clinicalReleaseScopeDf = extract.get_syntabledf(
-        syn, "SELECT * FROM syn8545211 where releaseScope <> 'private'"
+        syn,
+        f"SELECT * FROM {clinical_tier_release_scope_synid} where releaseScope <> 'private'",
     )
 
     patientCols = clinicalReleaseScopeDf["fieldName"][
@@ -1655,6 +1666,7 @@ def stagingToCbio(
         consortiumReleaseSynId,
         current_release_staging,
         CENTER_MAPPING_DF,
+        databaseSynIdMappingDf,
         used=[sample_used, patient_used],
     )
 
@@ -1884,7 +1896,6 @@ def create_link_version(
     ]
     if clinical_ent:
         # Set private permission for the data_clinical.txt link
-        syn.setPermissions(clinical_ent[0], principalId=3346558, accessType=[])
         syn.setPermissions(clinical_ent[0], principalId=3326313, accessType=[])
 
     for ents in case_list_entities:

@@ -306,8 +306,16 @@ def remap_clinical_values(
     sampletype_mapping.index = sampletype_mapping["CODE"]
     sampletype_dict = sampletype_mapping.to_dict()
 
-    if clinicaldf.get("SAMPLE_TYPE") is not None:
-        clinicaldf["SAMPLE_TYPE_DETAILED"] = clinicaldf["SAMPLE_TYPE"]
+    for column in [
+        "PRIMARY_RACE",
+        "SECONDARY_RACE",
+        "TERTIARY_RACE",
+        "SEX",
+        "ETHNICITY",
+        "SAMPLE_TYPE",
+    ]:
+        if column in clinicaldf.columns:
+            clinicaldf[f"{column}_DETAILED"] = clinicaldf[column]
 
     # Use pandas mapping feature
     clinicaldf = clinicaldf.replace(
@@ -316,9 +324,14 @@ def remap_clinical_values(
             "SECONDARY_RACE": race_dict["CBIO_LABEL"],
             "TERTIARY_RACE": race_dict["CBIO_LABEL"],
             "SAMPLE_TYPE": sampletype_dict["CBIO_LABEL"],
-            "SAMPLE_TYPE_DETAILED": sampletype_dict["DESCRIPTION"],
             "SEX": sex_dict["CBIO_LABEL"],
             "ETHNICITY": ethnicity_dict["CBIO_LABEL"],
+            "PRIMARY_RACE_DETAILED": race_dict["DESCRIPTION"],
+            "SECONDARY_RACE_DETAILED": race_dict["DESCRIPTION"],
+            "TERTIARY_RACE_DETAILED": race_dict["DESCRIPTION"],
+            "SAMPLE_TYPE_DETAILED": sampletype_dict["DESCRIPTION"],
+            "SEX_DETAILED": sex_dict["DESCRIPTION"],
+            "ETHNICITY_DETAILED": ethnicity_dict["DESCRIPTION"],
         }
     )
 
@@ -481,12 +494,12 @@ def preprocess(self, newpath):
         # hardcoded because it never changes
         # TODO: Add clinical tier release scope to GENIE config
         patient_cols_table = self.syn.tableQuery(
-            "select fieldName from syn8545211 where "
+            f"select fieldName from {self.genie_config['clinical_tier_release_scope']} where "
             "patient is True and inClinicalDb is True"
         )
         patient_cols = patient_cols_table.asDataFrame()["fieldName"].tolist()
         sample_cols_table = self.syn.tableQuery(
-            "select fieldName from syn8545211 where "
+            f"select fieldName from {self.genie_config['clinical_tier_release_scope']} where "
             "sample is True and inClinicalDb is True"
         )
         sample_cols = sample_cols_table.asDataFrame()["fieldName"].tolist()

@@ -956,8 +956,15 @@ def test_remap_clinical_values_sampletype():
 )
 def test_remap_clinical_values(col):
     """Test Remapping clinical values"""
-    testdf = pd.DataFrame({col: [1, 2, 99]})
-    expecteddf = pd.DataFrame({col: ["Male", "Female", "Unknown"]})
+    testdf = pd.DataFrame({"SEX": [1, 2, 99], "PRIMARY_RACE": [1, 2, 99]})
+    expecteddf = pd.DataFrame(
+        {
+            "SEX": ["Male", "Female", "Unknown"],
+            "PRIMARY_RACE": ["Male", "Female", "Unknown"],
+            "PRIMARY_RACE_DETAILED": ["Male", "Female", "Not coded"],
+            "SEX_DETAILED": ["Male", "Female", "Not coded"],
+        }
+    )
     remappeddf = genie_registry.clinical.remap_clinical_values(
         testdf, sexdf, sexdf, sexdf, sexdf
     )