-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathpipeline_pyrad.txt
68 lines (61 loc) · 3.23 KB
/
pipeline_pyrad.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
#crear un contenedor en ubuntu con un volumen
ruta=C:\Users\Erandi\Desktop\Bioinformatica #cambiar ruta
docker run -v $ruta:/data -it ubuntu /bin/bash
#actualizar la versión de ubuntu del contenedor
apt-get update #para actualizar los paquetes
apt-get upgrade #para instalar la última versión de los paquetes
#necesario para instalar conda y modificar archivos
apt-get install wget curl bzip2 nano
##hasta acá hemos puesto listo el contenedor...
#Instalación de conda según instrucciones de http://ipyrad.readthedocs.io/installation.html
wget https://repo.continuum.io/miniconda/Miniconda-latest-Linux-x86_64.sh
bash Miniconda-latest-Linux-x86_64.sh
source ~/.bashrc
#para instalar ipyrad
conda update conda ## updates conda
conda install -c ipyrad ipyrad ## installs the latest release
#bajar las secuencias de ejemplo en el volumen, y trabajarlas y guardarlas ahí. Comandos de http://ipyrad.readthedocs.io/tutorial_intro_cli.html
curl -LkO https://github.com/dereneaton/ipyrad/raw/master/tests/ipsimdata.tar.gz
tar -xvzf ipsimdata.tar.gz
#ver los datos
ls ipsimdata/
#para descomprimir los archivos
gunzip -c ./ipsimdata/rad_example_R1_.fastq.gz | head -n 12
#tipos de archivos que usa: fastq
#crear archivo de instrucciones y parámetros
ipyrad -n iptest
New file params-iptest.txt created in [nombre del volumen]
#modificar el archivo params-iptest.txt para guardar la ruta donde se añadirán los archivos con nano
nano params-iptest.txt
#modificar las líneas de params-iptest.txt con las rutas:
#./ipsimdata/rad_example_R1_.fastq.gz ## [2] [raw_fastq_path]: Location of raw non-demultiplexed fastq files
#./ipsimdata/rad_example_barcodes.txt ## [3] [barcodes_path]: Location of barcodes file
#ahora sí podemos empezar a trabajar...
#Paso 1. Demultiplexar o desagrupar las secuencias de acuerdo a los adaptadores
ipyrad -p params-iptest.txt -s 1
#diferentes comandos para ver los resultados
ls iptest_fastqs
ipyrad -p params-iptest.txt -r #este da un resumen
cat ./iptest_fastqs/s1_demultiplex_stats.txt
#Paso 2. Filtrar las secuencias
ipyrad -p params-iptest.txt -s 2
#Crear un directorio nuevo para guardar los nuevos agrupamientos de secuencias dentro de las muestras
iptest_clust_[depende de los datos, el default es 0.85]/
#Paso 3. Agrupamiento de las secuencias de cada muestra por valor de calidad en
ipyrad -p params-iptest.txt -s 3
#resultados
ipyrad -p params-iptest.txt -r #este da un resumen
#imprime las primeras 28 lineas de resultados. 0.85 es el número por default, pero depende de las muestras
gunzip -c iptest_clust_0.85/1A_0.clustS.gz | head -n 28
#Paso 4. Estimar heterocigocidad y tasa de error
ipyrad -p params-iptest.txt -s 4
#Paso 5. Llamar la secuencia concenso basada en el paso 4
ipyrad -p params-iptest.txt -s 5
#ver los resultados
gunzip -c iptest_consens/1A_0.consens.gz | head
#Paso 6. Agrupar las secuencias entre muestras
ipyrad -p params-iptest.txt -s 6
#se crea un archivo iptest_test.hdf5
#Paso 7. Filtrar los datos por máximo número de indels, heterocigocidad, snp's por locus y el número mínimo de muestras por locus
ipyrad -p params-iptest.txt -s 7
#se creará un directorio nuevo "iptest_outfiles" con los resultados en varios formatos