Fairly substantial checkin. Among the changes

cjfields · cjfields · commit 6a98e1a702a3 · 2025-10-31T16:00:33.000-05:00
1. learnErrors: we are switching back to using FASTQ, primarily b/c
reading in *all* derep RDS files is required when using these, however
only a small portion of sequence data is actually used for the model.

2. dada: we are using all dereps in the pooled runs and per sample runs

3. dada options (used in learnErrors and dada) are more consistent but we
do need to plan for changes here, the current method is a bit of a hack

4. We are testing a parallel pseudo pooling approach, though this still needs
work
diff --git a/modules/local/dadainfer.nf b/modules/local/dadainfer.nf
@@ -21,18 +21,17 @@ process DADA2_POOLED_INFER {
     #!/usr/bin/env Rscript
     suppressPackageStartupMessages(library(dada2))
 
-    dadaOpt <- ${dadaOpt}
+    dadaOpt <- "${dadaOpt}"
 
     if (!is.na(dadaOpt)) {
-      setDadaOpt(dadaOpt)
-      cat("dada Options:\\n",dadaOpt,"\\n")
+      setDadaOpt(${dadaOpt})
+      cat("dada Options:\\n",${dadaOpt},"\\n")
     }
     set.seed(100)
 
     cat("Processing all samples\\n")
 
     err <- readRDS("${err}")
-    dereps <- readRDS("${dereps}")
 
     #Variable selection from CLI input flag --pool
     pool <- "${params.pool}"
@@ -41,6 +40,16 @@ process DADA2_POOLED_INFER {
     if(pool != "pseudo"){
       pool <- as.logical(pool)
     }
+    
+    # File parsing (these come from the process input channel)
+    derep_files <- list.files('.', pattern=paste0("${readmode}",".derep.RDS"), full.names = TRUE)
+
+    dereps <- lapply(derep_files, readRDS)
+
+    # note this is a bit of a hack, but we want the file name 
+    # included with the name of the derep object. This makes
+    # sure these are in sync if needed later
+    names(dereps) <- sapply(dereps, function(x) { x\$file })
 
     cat(paste0("Denoising ${readmode} reads: pool:", pool, "\\n"))
     dds <- dada(dereps, 
diff --git a/modules/local/learnerrors/main.nf b/modules/local/learnerrors/main.nf
@@ -9,7 +9,7 @@ process DADA2_LEARN_ERRORS {
 
     output:
     tuple val(readmode), path("errors.${readmode}.RDS"), emit: error_models
-    tuple val(readmode), path("dereps.${readmode}.RDS"), emit: dereps_full
+    // tuple val(readmode), path("dereps.${readmode}.RDS"), emit: dereps_full
     path("${readmode}*.err.pdf"), emit: pdf
 
     when:
@@ -47,20 +47,13 @@ process DADA2_LEARN_ERRORS {
         cat("dada Options:\\n","${params.dada_opts}","\\n")
     }
 
-    # File parsing (these come from the process input channel)
-    derep_files <- list.files('.', pattern=paste0("${readmode}",".derep.RDS"), full.names = TRUE)
-
-    dereps <- lapply(derep_files, readRDS)
-
-    # note this is a bit of a hack, but we want the file name 
-    # included with the name of the derep object. This makes
-    # sure these are in sync if needed later
-    names(dereps) <- sapply(dereps, function(x) { x\$file })
+    # File parsing
+    filts <- list.files('.', pattern=paste0("${readmode}",".filtered.fastq.gz"), full.names = TRUE)
 
     set.seed(${params.random_seed})
 
     # Learn read error rates
-    err <- learnErrors(dereps, 
+    err <- learnErrors(filts, 
         multithread=${task.cpus},
         errorEstimationFunction=errFunc,
         verbose=TRUE,
@@ -82,6 +75,5 @@ process DADA2_LEARN_ERRORS {
     dev.off()
 
     saveRDS(err, paste0("errors.","${readmode}",".RDS")) 
-    saveRDS(dereps, paste0("dereps.","${readmode}",".RDS"))
     """
 }
diff --git a/modules/local/persampleinferderepmerge.nf b/modules/local/persampleinferderepmerge.nf
@@ -5,7 +5,7 @@ process PER_SAMPLE_INFER {
     container "ghcr.io/h3abionet/tada:docker-DADA-1.36"
 
     input:
-    tuple val(meta), path(reads)
+    tuple val(meta), path(dereps)
     path(errs)
     // optional inputs
     path(fp, stageAs: "priors_R1")
@@ -40,17 +40,17 @@ process PER_SAMPLE_INFER {
       return(priors)
     }
 
-    dadaOpt <- ${dadaOpt}
+    dadaOpt <- "${dadaOpt}"
 
     if (!is.na(dadaOpt)) {
-      setDadaOpt(dadaOpt)
-      cat("dada Options:\\n",dadaOpt,"\\n")
+      setDadaOpt(${dadaOpt})
+      cat("dada Options:\\n",${dadaOpt},"\\n")
     }
 
     cat("Processing:", "${meta.id}", "\\n")
 
     errF <- readRDS("errors.R1.RDS")
-    derepF <- derepFastq("${reads[0]}", n=100000)
+    derepF <- readRDS("${dereps[0]}")
 
     # TODO: there is probably a better way of doing this 
     # when using optparse
@@ -70,7 +70,7 @@ process PER_SAMPLE_INFER {
 
     if (file.exists("errors.R2.RDS")) {
         errR <- readRDS("errors.R2.RDS")
-        derepR <- derepFastq("${reads[1]}", n=100000)
+        derepR <- readRDS("${dereps[1]}")
         paramsR <- list(
             derep=derepR, 
             err=errR, 
diff --git a/modules/local/persamplemergedadards.nf b/modules/local/persamplemergedadards.nf
@@ -4,28 +4,29 @@ process PER_SAMPLE_MERGE {
 
     input:
     path(dds)
+    val(stage)
 
     output:
-    path("all.dd.*.RDS"), emit: inferred // to readtracking
-    path("priors.R1.fna"), optional: true, emit: priors_for
-    path("priors.R2.fna"), optional: true, emit: priors_rev
+    path("all.dd.${stage}.*.RDS"), emit: inferred // to readtracking
+    path("priors.${stage}.R1.fna"), optional: true, emit: priors_for
+    path("priors.${stage}.R2.fna"), optional: true, emit: priors_rev
 
     when:
     task.ext.when == null || task.ext.when
 
     script:
-    def dadaOpt = !params.dada_opts.isEmpty() ? "'${params.dada_opts.collect{k,v->"$k=$v"}.join(", ")}'" : 'NA'    
+    def dadaOpt = params.dada_opts ? "${params.dada_opts}" : "NA"
     """
     #!/usr/bin/env Rscript
     suppressPackageStartupMessages(library(dada2))
     suppressPackageStartupMessages(library(ShortRead))
     suppressPackageStartupMessages(library(openssl))
 
-    dadaOpt <- ${dadaOpt}
+    dadaOpt <- "${dadaOpt}"
 
     if (!is.na(dadaOpt)) {
-      setDadaOpt(dadaOpt)
-      cat("dada Options:\\n",dadaOpt,"\\n")
+      setDadaOpt(${dadaOpt})
+      cat("dada Options:\\n",${dadaOpt},"\\n")
     }
 
     dadaopts <- getDadaOpt()
@@ -51,23 +52,23 @@ process PER_SAMPLE_MERGE {
     dadaFs <- lapply(list.files(path = '.', pattern = '.dd.R1.RDS'), function (x) readRDS(x))
     dadaRs <- lapply(list.files(path = '.', pattern = '.dd.R2.RDS'), function (x) readRDS(x))
     names(dadaFs) <- sub('.dd.R1.RDS', '', list.files('.', pattern = '.dd.R1.RDS'))
-    saveRDS(dadaFs, "all.dd.R1.RDS")
+    saveRDS(dadaFs, "all.dd.${stage}.R1.RDS")
 
     priorsF <- generate_priors(dadaFs, idtype="${params.id_type}")
     if (is.na(priorsF)) {
         message("No priors found for R1!")
     } else {
-        writeFasta(priorsF, file = 'priors.R1.fna')
+        writeFasta(priorsF, file = 'priors.${stage}.R1.fna')
     }
     if (length(dadaRs) > 0) {
         names(dadaRs) <- sub('.dd.R2.RDS', '', list.files('.', pattern = '.dd.R2.RDS'))
         saveRDS(dadaRs, "all.dd.R2.RDS")
         priorsR <- generate_priors(dadaRs, idtype="${params.id_type}")
         if (is.na(priorsR)) {
             message("No priors found for R2!")
-            file.create("priors.R2.fna")
+            file.create("priors.${stage}.R2.fna")
         } else {
-            writeFasta(priorsR, file = "priors.R2.fna")
+            writeFasta(priorsR, file = "priors.${stage}.R2.fna")
         }
     }
     """
diff --git a/modules/local/persampleseqtable.nf b/modules/local/persampleseqtable.nf
@@ -5,11 +5,12 @@ process PER_SAMPLE_SEQTABLE {
     input:
     path(mr)
     val(readmode)
+    val(stage)
 
     output:
-    path("seqtab.${readmode}.RDS"), emit: filtered_seqtable
-    path("all.merged.RDS"), optional: true, emit: merged_seqs
-    path("seqtab.original.${readmode}.RDS"), emit: seqtabQC
+    path("seqtab.${stage}.${readmode}.RDS"), emit: filtered_seqtable
+    path("all.${stage}.merged.RDS"), optional: true, emit: merged_seqs
+    path("seqtab.original.${stage}.${readmode}.RDS"), emit: seqtabQC
     
     when:
     task.ext.when == null || task.ext.when
@@ -26,7 +27,7 @@ process PER_SAMPLE_SEQTABLE {
     names(combined) <- pairIds
     seqtab <- makeSequenceTable(combined)
 
-    saveRDS(seqtab, "seqtab.original.${readmode}.RDS")
+    saveRDS(seqtab, "seqtab.original.${stage}.${readmode}.RDS")
 
     # this is an optional filtering step to remove *merged* sequences based on 
     # min/max length criteria
@@ -38,7 +39,7 @@ process PER_SAMPLE_SEQTABLE {
        seqtab <- seqtab[,nchar(colnames(seqtab)) <= ${params.min_asv_len}, drop = FALSE]
     }
 
-    saveRDS(seqtab, "seqtab.${readmode}.RDS")
-    saveRDS(combined, "all.${readmode}.RDS")
+    saveRDS(seqtab, "seqtab.${stage}.${readmode}.RDS")
+    saveRDS(combined, "all.${stage}.${readmode}.RDS")
     """
 }
diff --git a/modules/local/pooledseqtable.nf b/modules/local/pooledseqtable.nf
@@ -151,12 +151,20 @@ process DADA2_POOLED_SEQTABLE {
    # read in denoised reads for both
    ddFs <- readRDS("all.dd.R1.RDS")
 
-   derepsF <- readRDS("dereps.R1.RDS")
+   # File parsing (these come from the process input channel)
+   derep_files_r1 <- list.files('.', pattern="R1.derep.RDS", full.names = TRUE)
+   derepsF <- lapply(derep_files_r1, readRDS)
+   names(derepsF) <- sapply(derepsF, function(x) { x\$file })
 
    if (file.exists("all.dd.R2.RDS")) {
 
       ddRs <- readRDS("all.dd.R2.RDS")
-      derepsR <- readRDS("dereps.R2.RDS")
+      
+      # File parsing (these come from the process input channel)
+      derep_files_r2 <- list.files('.', pattern="R2.derep.RDS", full.names = TRUE)
+      derepsR <- lapply(derep_files_r2, readRDS)
+      names(derepsR) <- sapply(derepsR, function(x) { x\$file })
+
       mergers <- if(rescuePairs) {
          mergePairsRescue(ddFs, derepsF, ddRs, derepsR,
           returnRejects = TRUE,
diff --git a/subworkflows/local/dada2_denoise.nf b/subworkflows/local/dada2_denoise.nf
@@ -1,7 +1,9 @@
-include { DADA2_LEARN_ERRORS                    } from '../../modules/local/learnerrors'
-include { DADA2_DEREP_SEQS                      } from '../../modules/local/dada2derepseqs'
-include { DADA2_POOLED_DENOISE                  } from '../../subworkflows/local/dada2_pooled_denoise'
-include { DADA2_PER_SAMPLE_DENOISE              } from '../../subworkflows/local/dada2_per_sample_denoise'
+include { DADA2_LEARN_ERRORS                                          } from '../../modules/local/learnerrors'
+include { DADA2_DEREP_SEQS                                            } from '../../modules/local/dada2derepseqs'
+include { DADA2_POOLED_DENOISE                                        } from '../../subworkflows/local/dada2_pooled_denoise'
+include { DADA2_PER_SAMPLE_DENOISE as DADA2_PER_SAMPLE_DENOISE_ROUND1 } from '../../subworkflows/local/dada2_per_sample_denoise'
+include { DADA2_PER_SAMPLE_DENOISE as DADA2_PER_SAMPLE_DENOISE_ROUND2 } from '../../subworkflows/local/dada2_per_sample_denoise'
+include { DADA2_PER_SAMPLE_DENOISE                                    } from '../../subworkflows/local/dada2_per_sample_denoise'
 
 workflow DADA2_DENOISE {
 
@@ -37,20 +39,20 @@ workflow DADA2_DENOISE {
     //    For this 'batch' run, we use two channels combining the data and 
     //    include whether they are R1 or R1 (a 'readmode') to distinguish them. ch_trimmed_batch
 
-    ch_dereps_per_read = ch_dereps
+    ch_trimmed_per_read = ch_trimmed
         .map { 
             [ 'R1', it[0].single_end ? it[1] : it[1][0] ]
         }
         .concat(
-            ch_dereps
+            ch_trimmed
                 .filter { !it[0].single_end }
                 .map {
                     [ 'R2', it[1][1] ]
                 }
         )
         .groupTuple(sort: true)
 
-    DADA2_LEARN_ERRORS(ch_dereps_per_read) 
+    DADA2_LEARN_ERRORS(ch_trimmed_per_read) 
     ch_errs = DADA2_LEARN_ERRORS.out.error_models
 
     // deal with priors here, which are optional inputs
@@ -64,14 +66,48 @@ workflow DADA2_DENOISE {
         if (params.pool == "parallel") {
             DADA2_PER_SAMPLE_DENOISE(
                 per_sample_errs,
-                ch_trimmed_parallel,
+                ch_dereps,
                 for_priors,
-                rev_priors)
+                rev_priors,
+                "single-pass")
             ch_merged = DADA2_PER_SAMPLE_DENOISE.out.merged_seqs
             ch_inferred = DADA2_PER_SAMPLE_DENOISE.out.inferred
             ch_filtered_seqtab = DADA2_PER_SAMPLE_DENOISE.out.filtered_seqtable
+            ch_versions = ch_versions.mix(DADA2_PER_SAMPLE_DENOISE.out.versions)
         } else {
-            error "parallel-pseudo pooling not supported yet" 
+            // error "parallel-pseudo pooling not supported yet" 
+            
+            // For now we keep these separate since this method is *highly* 
+            // experimental!!!!
+
+            // Round 1, generate a new set of priors
+            // Note this can also take an older set of prior data
+            DADA2_PER_SAMPLE_DENOISE_ROUND1(
+                per_sample_errs,
+                ch_dereps,
+                for_priors,
+                rev_priors,
+                "Round1")
+            rnd1_ch_merged = DADA2_PER_SAMPLE_DENOISE_ROUND1.out.merged_seqs
+            rnd1_ch_inferred = DADA2_PER_SAMPLE_DENOISE_ROUND1.out.inferred
+            rnd1_ch_filtered_seqtab = DADA2_PER_SAMPLE_DENOISE_ROUND1.out.filtered_seqtable
+            rnd1_for_priors = DADA2_PER_SAMPLE_DENOISE_ROUND1.out.for_priors
+            rnd1_rev_priors = DADA2_PER_SAMPLE_DENOISE_ROUND1.out.rev_priors
+            ch_versions = ch_versions.mix(DADA2_PER_SAMPLE_DENOISE_ROUND1.out.versions)
+            
+            // Round 2, using priors from round 1 but same error models and dereps
+            DADA2_PER_SAMPLE_DENOISE_ROUND2(
+                per_sample_errs,
+                ch_dereps,
+                rnd1_for_priors,
+                rnd1_rev_priors, 
+                "Round2")
+            ch_merged = DADA2_PER_SAMPLE_DENOISE_ROUND2.out.merged_seqs
+            ch_inferred = DADA2_PER_SAMPLE_DENOISE_ROUND2.out.inferred
+            ch_filtered_seqtab = DADA2_PER_SAMPLE_DENOISE_ROUND2.out.filtered_seqtable
+            rnd2_for_priors = DADA2_PER_SAMPLE_DENOISE_ROUND2.out.for_priors
+            rnd2_rev_priors = DADA2_PER_SAMPLE_DENOISE_ROUND2.out.rev_priors
+            ch_versions = ch_versions.mix(DADA2_PER_SAMPLE_DENOISE_ROUND2.out.versions)
         }
     } else {
         // TODO: can we even use priors with 'true' or 'pseudo'?
@@ -84,9 +120,21 @@ workflow DADA2_DENOISE {
         // and this step, which optionally pools them. For really large runs
         // this will use a ton of memory
 
+        ch_dereps_per_read = ch_dereps
+                .map { 
+                    [ 'R1', it[0].single_end ? it[1] : it[1][0] ]
+                }
+                .concat(
+                    ch_dereps
+                        .filter { !it[0].single_end }
+                        .map {
+                            [ 'R2', it[1][1] ]
+                        }
+                )
+                .groupTuple(sort: true)
+
         DADA2_POOLED_DENOISE(
-            ch_errs,
-            DADA2_LEARN_ERRORS.out.dereps_full
+            ch_errs, ch_dereps_per_read
         )
 
         ch_merged = DADA2_POOLED_DENOISE.out.merged_seqs
diff --git a/subworkflows/local/dada2_per_sample_denoise/main.nf b/subworkflows/local/dada2_per_sample_denoise/main.nf
diff --git a/subworkflows/local/dada2_pooled_denoise/main.nf b/subworkflows/local/dada2_pooled_denoise/main.nf