DeepFastGBS

A high-throughput genotyping-by-sequencing (GBS) pipeline integrating DeepVariant and GLnexus for accurate variant calling in plant genomics.

DeepFastGBS is an enhanced version of the FastGBS pipeline that integrates Google's DeepVariant for superior variant calling accuracy. This pipeline streamlines the processing of genotyping-by-sequencing (GBS) data, from raw sequences to high-quality variant calls.

Features

Complete GBS data processing pipeline
Integration with DeepVariant for accurate variant calling
GLnexus-based cohort variant calling
Support for both single-end and paired-end sequencing
Automatic handling of ILLUMINA and IONTORRENT data
Parallel processing capabilities
Comprehensive logging and quality control
Automated sample filtering based on read depth
Built-in imputation using BEAGLE 5.0

Prerequisites

Linux operating system
Singularity (for running DeepVariant and GLnexus containers)
Required software modules:
- sabre (v1.000)
- cutadapt (v3.2)
- bwa (v0.7.17)
- samtools (v1.8)
- vcftools (v0.1.16)
- java (v1.8.0)
- beagle (v5.0)
- python (v3.7)
- htslib (v1.8)

Installation

Clone the repository:

git clone https://github.com/yourusername/FastGBS-DV.git cd FastGBS-DV

Make the scripts executable:

chmod +x fastgbs_dv.sh chmod +x Summary4VCF.py

Usage

Configure your parameters in parameters_V2.txt:

; Edit parameters according to your data LOGFILE=logfile_fastgbs.log FLOWCELL=your_flowcell_id ...

Run the pipeline using SLURM:

sbatch SLURM_GBS.sh

Or run directly:

./fastgbs_dv.sh parameters_V2.txt

Pipeline Steps

Demultiplexing (sabre)
Adapter trimming (cutadapt)
Read alignment (BWA-MEM)
BAM processing (samtools)
Variant calling (DeepVariant)
Variant merging (GLnexus)
Variant filtering and imputation (vcftools, BEAGLE)
Summary statistics generation

Output Files

Demultiplexed and trimmed FASTQ files
Aligned BAM files
Variant calls in VCF format
Imputed genotypes
Summary statistics for variants and samples

Configuration

The pipeline is configured through the parameters_V2.txt file. Key parameters include:

Sequencing technology (ILLUMINA/IONTORRENT)
Sequence type (SE/PE)
Reference genome
Processing threads
DeepVariant model type
GLnexus settings

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
SLURM_GBS.sh		SLURM_GBS.sh
Summary4VCF.py		Summary4VCF.py
checkpoint_var_DV.txt		checkpoint_var_DV.txt
count_nbseq_DV.sh		count_nbseq_DV.sh
fastgbs_dv.sh		fastgbs_dv.sh
makeBarcodeSabre_DV.py		makeBarcodeSabre_DV.py
makeDir_DV.sh		makeDir_DV.sh
parameters_DV.txt		parameters_DV.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

DeepFastGBS

Features

Prerequisites

Installation

Usage

Pipeline Steps

Output Files

Configuration

About

Uh oh!

Releases

Packages

Languages

pythseq/DeepFastGBS

Folders and files

Latest commit

History

Repository files navigation

DeepFastGBS

Features

Prerequisites

Installation

Usage

Pipeline Steps

Output Files

Configuration

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages