reciprocal_smallest_distance

Software captura de pantalla:
reciprocal_smallest_distance
Detalles de software:
Versión: 1.1.5
Fecha de carga: 20 Feb 15
Licencia: Libre
Popularidad: 10

Rating: nan/5 (Total Votes: 0)

reciprocal_smallest_distance es un algoritmo de orthology por parejas que utiliza alineación de secuencias global y distancia evolutiva de máxima verosimilitud entre secuencias para detecta con precisión orthologs entre genomas.
Instalación desde un paquete
Descargar y descomprimir la última versión desde github:
cd ~
-L rizo https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | XVZ alquitrán
Instale reciprocal_smallest_distance, asegurándose de usar Python 2.7:
cd reciprocal_smallest_distance-VERSION
python setup.py install
Uso RSD encontrar Othologs
Los siguientes comandos de ejemplo demuestran las principales formas de ejecutar rsd_search. Cada invocación de rsd_search requiere especificar la ubicación de un archivo de secuencias FASTA formato de dos genomas, llamada la consulta y genomas sujetos. Su orden es arbitrario, pero si se utiliza la opción --ids, los identificadores debe venir del genoma consulta. También debe especificar un archivo para escribir los resultados de la orthologs encontrados por el algoritmo RSD. El formato del archivo de salida contiene un ortólogo por línea. Cada línea contiene la consulta Secuencia ID, ID del Sujeto secuencia, y la distancia (calculado por codeml) entre las secuencias. Opcionalmente, puede especificar un archivo que contiene los identificadores mediante la opción --ids. Entonces rsd sólo buscar ortólogos para esos identificadores. Utilizando --divergence y --evalue, usted tiene la opción de usar diferentes umbrales de los valores predeterminados.
Obtener ayuda sobre cómo ejecutar rsd_search, rsd_blast o rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Encuentra orthologs entre todas las secuencias en los genomas de consulta y sujetos, utilizando divergencia defecto y EVALUE umbrales
ejemplos rsd_search -q / genomas / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoma = examples / genomas / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Encuentra orthologs utilizando varios divergencia y EVALUE umbrales no predeterminados
ejemplos rsd_search -q / genomas / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoma = examples / genomas / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0,2 1e-20 --de 0,5 0,00001 --de 0,8 0,1
No es necesario formatear un archivo FASTA para BLAST o calcular BLAST hits porque rsd_search lo hace por usted.
Sin embargo, si usted planea ejecutar rsd_search varias veces por los mismos genomas, especialmente para las grandes genomas, puede ahorrar tiempo utilizando rsd_format a preformateado los archivos FASTA y rsd_blast a precomputen el BLAST hits. Cuando se ejecuta rsd_blast, asegúrese de usar un --evalue tan grande como el mayor umbral evalue que se propone dar a rsd_search.
Aquí es cómo dar formato a un par de archivos FASTA en su lugar:
rsd_format -g ejemplos / genomas / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g ejemplos / genomas / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
Y aquí es cómo dar formato a los archivos FASTA, poniendo los resultados en otro directorio (el directorio actual en este caso)
examples / genomas / Mycoplasma_genitalium.aa / -d Mycoplasma_genitalium.aa rsd_format -g.
examples / genomas / Mycobacterium_leprae.aa / -d Mycobacterium_leprae.aa rsd_format -g.
Aquí es cómo calcular avance y retroceso éxitos hornos (utilizando el evalue por defecto):
rsd_blast -v -q ejemplos / genomas / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoma = examples / genomas / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-Hits q_s.hits --reverse-Hits s_q.hits
Aquí es cómo calcular hacia delante y la onda expansiva golpea revés para rsd_search, usando genomas que ya hayan sido formateadas por explosión y un evalue no predeterminado
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-genoma = Mycobacterium_leprae.aa
--forward-Hits q_s.hits --reverse-Hits s_q.hits
--no-formato --evalue 0.1
Encuentra orthologs entre todas las secuencias en la consulta y genomas sujetos utilizando genomas que ya han sido formateados para la explosión
rsd_search -q Mycoplasma_genitalium.aa
--subject-genoma = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no-formato
Encuentra orthologs entre todas las secuencias en la consulta y genomas sujetos utilizando éxitos que ya han sido calculadas. Observe que --no-formato se incluye, ya que desde los éxitos de explosión ya se han computado los genomas no necesitan ser formateados para la explosión.
rsd_search -v --query-genoma Mycoplasma_genitalium.aa
--subject-genoma = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-Hits q_s.hits --reverse-Hits s_q.hits --no-formato
Encuentra ortólogos de secuencias específicas en el genoma de la consulta. Para encontrar orthologs para sólo unos pocos secuencias, utilizando --no-explosión-cache puede acelerar el cálculo. Tu caso es distinto.
ejemplos rsd_search -q / genomas / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-genoma = examples / genomas / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o ejemplos / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids ejemplos / Mycoplasma_genitalium.aa.ids.txt --no-explosión-cache
Formatos de de salida
Orthologs se pueden guardar en varios formatos diferentes utilizando la opción --outfmt de rsd_search. El formato predeterminado, --outfmt -1, se refiere a --outfmt 3. Inspirado por Uniprot dat, un conjunto de ortólogos comienza con una línea de parámetros, entonces tiene 0 o más líneas ortholog, entonces tiene una línea de fondo. Los parametes son el nombre de la consulta genoma, sujeta nombre genoma, umbral de divergencia, y el umbral evalue. Cada ortólogo es en una sola línea lista la consulta Identificación secuencia, el id secuencia sujeto, y la estimación de la distancia máxima verosimilitud. Este formato puede representar ortólogos para varios conjuntos de parámetros en un único archivo, así como conjuntos de parámetros sin ortólogos. Por lo tanto, es adecuado para su uso con rsd_search al especificar múltiples divergencia y EVALUE umbrales.
Este es un ejemplo que contiene 2 combinaciones de parámetros, uno de los cuales no tiene orthologs:
PA tLACJO tYEAS7 t0.2 T1E-15
O tQ74IU0 tA6ZM40 t1.7016
O tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 T1E-15
//
El formato original de RSD, --outfmt 1, se proporciona por compatibilidad hacia atrás. Cada línea contiene un ortólogo, representado como Identificación secuencia sujeto, consulta Identificación secuencia, y estimar la distancia máxima verosimilitud. Sólo puede representar un único conjunto de ortólogos en un archivo.
Ejemplo:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
También se proporciona por compatibilidad hacia atrás es un formato utilizado internamente por Roundup (http://roundup.hms.harvard.edu/), que es como el formato RSD original, excepto la columna Identificación de la secuencia de consulta está antes de la secuencia ID tema.
Ejemplo:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215

Requisitos :

  • Python
  • NCBI BLAST 2.2.24
  • PAML 4.4
  • Kalign 2,04

Programas parecidos

STEME
STEME

20 Feb 15

pyNetConv
pyNetConv

3 Jun 15

CaPSID
CaPSID

20 Feb 15

Comentarios a la reciprocal_smallest_distance

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!