Start Bioinfo '26

Introdução ao Nextflow e Bioinformática Reprodutível

A bioinformática moderna exige reprodutibilidade, escalabilidade e controle rigoroso de cada etapa analítica. Neste minicurso, vamos explorar o ecossistema Nextflow, a transição do pensamento linear em scripts Bash para o paradigma de Dataflow e a execução de pipelines padrão-ouro diretamente na nuvem.

Clique acima para iniciar o ambiente de prática.

Para que nosso foco seja inteiramente científico e prático, abstraímos a barreira da infraestrutura. O ambiente virtual gerado pelo Codespaces já vem configurado com todas as dependências (Nextflow, Docker e utilitários) necessárias para a aula.

Gravação Oficial do Minicurso

Start Bioinfo 2026 - Introdução ao Nextflow - dia 04

▶️ Clique na imagem acima para assistir à gravação completa no YouTube.

O Experimento: Transplante de Microbiota Fecal (FMT)

A nossa prática não é apenas um teste de software, é ciência real. Os dados utilizados são baseados em um estudo longitudinal in vivo de Transplante de Microbiota Fecal (FMT) em camundongos.

Acompanharemos uma série temporal de 4 pontos (referente à amostra "19022" no Camundongo #2) para analisar o engraftment (sucesso da colonização) das bactérias:

Dia 0: Fezes Humanas Originais (Input/Doador) - SRR38096734
Dia 7: Fezes Camundongo #2 (Antes da consolidação do FMT) - SRR38097380
Dia 23: Fezes Camundongo #2 (Pós-FMT) - SRR38096774
Dia 27: Fezes Camundongo #2 (Evolução final) - SRR38097389

Execução do Pipeline Padrão Ouro

1. Preparando os Metadados (`samplesheet.csv`)

O Nextflow exige rigor na entrada de dados. Certifique-se de que o arquivo samplesheet.csv na raiz do seu projeto contenha a seguinte estrutura para mapear os arquivos baixados:

sampleID,forwardReads,reverseReads,run
S00_19022_Human_Stool,./data/SRR38096734_1.fastq.gz,./data/SRR38096734_2.fastq.gz,1
S01_19022_Mouse2_D23,./data/SRR38096774_1.fastq.gz,./data/SRR38096774_2.fastq.gz,1
S02_19022_Mouse2_D7,./data/SRR38097380_1.fastq.gz,./data/SRR38097380_2.fastq.gz,1
S03_19022_Mouse2_D27,./data/SRR38097389_1.fastq.gz,./data/SRR38097389_2.fastq.gz,1

2. A Orquestração (nf-core/ampliseq)

Para processar os dados brutos e gerar as matrizes de abundância com resolução de ASVs, executaremos o pipeline nf-core/ampliseq.

Nota biológica: Como o protocolo de sequenciamento utilizado (EMP) já entrega reads sem primers na extremidade 5', mas com read-through na 3', nós desligamos o Cutadapt e ajustamos o truncamento nativo do DADA2.

nextflow run nf-core/ampliseq \
  -r 2.16.1 \
  -profile docker \
  --input samplesheet.csv \
  --FW_primer "GTGYCAGCMGCCGCGGTAA" \
  --RV_primer "GGACTACNVGGGTWTCTAAT" \
  --outdir ./resultados \
  --skip_cutadapt \
  --trunclenf 240 \
  --trunclenr 200 \
  -resume

Cache: A flag -resume garante que a execução recupere etapas previamente calculadas em caso de interrupção, economizando horas de processamento.

Visualização de Dados

Um pipeline profissional não devolve apenas tabelas de texto; ele entrega produtos prontos para Data Science. O Nextflow empacotou nossa filogenia, taxonomia e contagens em um único objeto .rds (Phyloseq).

Para gerar gráficos de publicação sem precisar instalar o R na sua máquina, encapsulamos toda a lógica em um script automatizado que reutiliza o ambiente isolado do Docker. No terminal do seu Codespace, execute:

./dataviz.sh

Resultado: Abra a pasta resultados/ no explorador do VS Code e clique nas imagens .png para visualizar a evolução taxonômica e a substituição das comunidades do camundongo pela do doador humano.

Materiais de Apoio

Slides da Apresentação (PDF) : Material de apoio teórico utilizado na aula, cobrindo os conceitos de Big Data, Conteinerização, DAGs e Dataflow.
Documentação e Treinamento Oficial (Nextflow): Documentação completa e exercícios avançados.
nf-core: Repositório de Pipelines Validados: Catálogo de pipelines padrão-ouro para bioinformática.

Créditos e Licença

Este projeto é mantido por Mateus Falco. O conteúdo está disponível sob a licença CC BY-NC 4.0, permitindo o uso e modificação para fins educacionais e científicos, desde que citada a fonte e sem finalidade comercial.

Agradecimentos

A ciência reprodutível é construída sobre ombros de gigantes. Agradecemos imensamente às comunidades que mantêm as ferramentas base deste minicurso:

Nextflow / Seqera: Pela revolução na orquestração de dados.
nf-core: Pela curadoria e desenvolvimento do pipeline ampliseq.
R Project: Pelos pacotes phyloseq e ggplot2.
Docker & Bioconda: Pelo ecossistema de containers.

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
.devcontainer		.devcontainer
.vscode		.vscode
data		data
doc		doc
img		img
AUTHORS.md		AUTHORS.md
LICENSE.md		LICENSE.md
README.md		README.md
dataviz.sh		dataviz.sh
nextflow.config		nextflow.config
samplesheet.csv		samplesheet.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Start Bioinfo '26

Gravação Oficial do Minicurso

O Experimento: Transplante de Microbiota Fecal (FMT)

Execução do Pipeline Padrão Ouro

1. Preparando os Metadados (`samplesheet.csv`)

2. A Orquestração (nf-core/ampliseq)

Visualização de Dados

Materiais de Apoio

Créditos e Licença

Agradecimentos

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Start Bioinfo '26

Gravação Oficial do Minicurso

O Experimento: Transplante de Microbiota Fecal (FMT)

Execução do Pipeline Padrão Ouro

1. Preparando os Metadados (samplesheet.csv)

2. A Orquestração (nf-core/ampliseq)

Visualização de Dados

Materiais de Apoio

Créditos e Licença

Agradecimentos

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

1. Preparando os Metadados (`samplesheet.csv`)

Packages