Capítulo 1 Introducción a la Genómica

1.1 Variabilidad genética

  • Tradicionalmente, en ecología se definen tres tipos de medidas de diversidad de acuerdo a la escala del fenómeno estudiado:
  1. Se llama diversidad alfa a la que describe la diversidad de especies dentro de una comunidad a una escala pequeña o local. Esta escala es normalmente del tamaño de un ecosistema y es a la que generalmente nos referimos al hablar de una zona.
  2. La diversidad beta describe la diversidad de especies entre dos comunidades o ecosistemas. Involucra una escala mayor, ya que incluye ecosistemas (que correspondían a la diversidad alfa) y en general suele haber alguna distinción geográfica o barrera importante entre las comunidades de referencia.
  3. La diversidad gamma se refiere a una escala de estudio mucho mayor, como por ejemplo un bioma, donde se compara la diversidad de especies entre muchos ecosistemas
  • Aunque la diversidad biológica puede cuantificarse de muchas maneras diferentes, los dos factores principales que se tienen en cuenta para medir la diversidad son la riqueza y la uniformidad. La riqueza representa el número de tipos (especies) diferentes entre todos los que identificamos en el área de interés mientras que la uniformidad compara la similitud del tamaño de la población de cada una de las especies presentes.

  • Para la diversidad alfa, el índice más sencillo de entender es la entropía de Shannon que mide la incertidumbre al asignar la identidad de un individuo elegido al azar de la población. Si le llamamos \(p_i\) a la proporción (frecuencia relativa) de individuos de la especie \(i\), de un total de \(k\) especies identificadas en el ecosistema, entonces el índice de Shannon se calcula como: \(H'=-\sum^k_{i=1} p_i \ln p_i\). Cuanto más homogéneo sea el reparto de las especies mayor será el índice de Shannon y el máximo del mismo será cuando todas las especies tienen el mismo número de integrantes.

  • El índice de uniformidad (\(E\)) estandariza al índice de Shannon por la riqueza: \(E=\frac{H'}{H_{max}}=\frac{H'}{\ln k}\).

  • El índice de Simpson (\(D\)) mide la probabilidad de que dos individuos seleccionados al azar de una muestra pertenezcan a la misma especie o categoría. Es decir, si \(n_i\) representa el número de individuos de la especie o categoría \(i\) y \(N\) el número total de individuos, es decir \(N=\sum_i n_i\), entonces \(D=\sum^k_{i=1} \frac{n_i(n_i-1)}{N(N-1)}\). La intuición de este índice es que si los individuos se concentran en pocos tipos diferentes el valor de \(D\) será más alto, es decir lo contrario a lo que esperaríamos para un índice de diversidad. Para superar este problema, se suele restar a 1 el valor de 𝐷, es decir se reporta \(1 − D\).

  • El índice de cobertura de Good (\(C\)) es usado como estimador de diversidad alfa. \(C=1-\frac{F_1}{N}\). Dónde \(F_1\) es el número de OTUs en la muestra con un solo representante.


1.1.1 Metagenómica y Metatranscriptómica

  • Para entender la variabilidad genética es necesario conocer las secuencias, o al menos algunas secuencias que nos puedan servir de marcador, en muchos individuos. Los microarrays son un arreglo de sondas moleculares colocadas en una placa.

  • Una sonda molecular, en este caso, es una secuencia específica a un gen o una región de un gen y que es (idealmente) única en el genoma de referencia. Cuando el ADN o el ADN copia (en los estudios de transcriptómica) de un individuo se hibrida con dicha sonda (que está fijada en la placa) se produce algún tipo de señal, por ejemplo la emisión de luz en determinada frecuencia al ser iluminada por un laser. Esta tecnología permite, por ejemplo, identificar si la secuencia presente en el organismo es de un tipo u otro, por ejemplo en el caso de los SNPs (polimorfismos de un solo nucleótido) y en el caso de las especies diploides identificar el genotipo.

  • Es importante tener en cuenta que para crear una sonda para medir variabilidad hay que cono- cer las secuencias de regiones que contengan variabilidad y que el array solo va a captar variabilidad en las posiciones del genoma para el que fue diseñado.

  • La la metatranscriptómica que tiene por objetivo la caracterización de todo el ARN mensajero (ARNm) presente en cada muestra. La diferencia más importante con la genómica funcional es que mientras que en esta última cada genoma aporta lo mismo y por lo tanto el factor de ponderación es la proporción de cada taxa (v.g. especie) en la muestra, en la metatranscriptómica existe la misma ponderación, pero también la ponderación por expresión de las secuencias. De esta forma, más allá de identificar qué secuencias están presentes en la muestra, podemos cuantificar (en forma relativa) la “importancia” de cada una.


1.2 Genómica composicional

  • A nivel genómico la evolución se da por un conjunto de eventos como las mutaciones, las duplicaciones de genes y regiones, las inserciones y “deleciones” de secuencias nucleotídicas. El estudio de las variaciones en la composición de los genomas es lo que se puede llamar Genómica Composicional y forma parte de la Genómica Comparativa.

  • Para quitar la influencia del uso de aminoácidos se puede estandarizar a la interna de cada aminoácido. Una de las estandarizaciones posibles es el RSCU, en el que el número observado de codones para un aminoácido es dividido por el número esperado si el uso dentro de un aminoácido fuera equiprobable. \(RSCU_{ij}=\frac{x_{ij}}{\frac{1}{n_i}\sum_{j=1}^{n_i}\ x_{ij}}=n_i\times \frac{x_{ij}}{\sum_{j=1}^{n_i}\ x_{ij}}\). Dónde \(x_{ij}\) es el número de ocurrencias del codón \(j\) para el aminoácido \(i\), y \(n_i\) es la multiplicidad del aminoácido \(i\) (es decir, el número de codones que lo codifican).

  • La idea del análisis de correspondencia es que dada una tabla de \(n\)x\(p\) (casos x variables) encontrar un sistema de \(k\) ejes ortogonales (con \(k < min(n,p)\)) que condense el máximo de variación en los datos originales. Esto es posible en la medida en que las variables (casos) estén correlacionados en alguna medida y cuanto mayor sea esa asociación más varianza será condensada en pocos ejes (dimensiones).

  • La métrica adoptada en el COA es la de la distancia \(\chi^2\), o sea, para la celda correspondiente a la fila \(i\) y columna \(j\), la distancia será \(d_{ij}=(O_{ij}-E_{ij})^2/E_{ij}\) donde \(O_{ij}\) es el número observado y \(E_{ij}\) el número esperado para esa celda, usualmente el número total de observaciones multiplicado por las frecuencias relativas marginales en la tabla. El punto importante es determinar con cuantos ejes (nuevas dimensiones) nos vamos a quedar. Cuantas más dimensiones retengamos mayor cantidad de la varianza original retendremos, pero al costo de dificultar la interpretación.

  • Desde el punto de vista biológico, lo relevante del COA, además de identificar si podemos condensar la varianza en pocos ejes, es poder etiquetar cada eje con uno o unos pocos factores biológicos relevantes, tanto sean composicionales, de estructura del código, ambientales, etc.

  • Los distintos aminoácidos poseen diferentes propiedades que permiten agruparlos en diversos grupos, de acuerdo a las mismas. Por ejemplo, tenemos aminoácidos polares, apolares, hidrofílicos, hidrofóbicos, pequeños, medianos y grandes, alifáticos y aromáticos, etc. La importancia de esto es que permiten generar proteínas con diferentes propiedades y estructura tridimensional.

  • La redundancia en el código genético permite que un mismo aminoácido sea codificado por diferentes codones. Entre otras cosas, eso permite una mayor tolerancia a las mutaciones, ya que mutaciones que cambian el codon pero no el aminoácido no suelen tener mayor impacto en la estructura de la proteína (aunque puede ocurrir esto último debido a diferencias en la velocidad de traducción y su impacto en el plegamiento de la proteína).

  • El contenido G+C de los genomas es una variable extremadamente importante ya que se encuentra directamente asociada, entre otras cosas, a la composición de las proteínas. Diferentes hipótesis se han propuesto para explicar la enorme variabilidad entre los procariotas (\(20\%-80\%\)), pero en esencia se dividen en Neutralistas y Seleccionistas.

  • El contenido G+C de una secuencia se calcula como

\[\begin{equation} GC=\frac{N_G+N_C}{N_A+N_C+N_G+N_T} \end{equation}\]

donde \(N_A,...,N_T\) es la cantidad de bases de cada tipo.


1.3 Genómica comparativa

  • La genómica comparativa trata de identificar diferencias en los genomas, entender los procesos evolutivos que llevan a esas diferencias y en algunos casos de correlacionar estas diferencias con el fenotipo o aún el ambiente donde se desarrollan los organismos.

  • La base de la genómica comparativa se encuentra en la determinación de homología en secuencias, es decir la inferencia sobre el origen ancestral compartido de las mismas. En especial, la determinación de la relación de ortología (ancestría común por especiación, ver más arriba) juega un papel central en la genómica comparativa ya que suele implicar (aunque no siempre) la realización de la misma función en diferentes organismos. Usualmente las secuencias ortólogas son las más similares en las otras especies y esto ha llevado al criterio práctico del Reciprocal Best Hit (RBH), es decir, un par de secuencias se consideran ortólogas si cada una de ellas es la mejor “selección” (la más similar) en su correspondiente genoma, de la otra. Cuando la similaridad entre secuencias es debida a eventos de especiación el orden de los distintos genes dentro del genoma será relativamente similar durante mucho tiempo.

  • La aproximación filogenómica, implica una cuidadosa reconstrucción filogenética, a partir de la cual se intenta conciliar los resultados del alineamiento de las secuencias homólogas. Los resultados obtenidos son altamente dependientes de la reconstrucción filogenética, por lo que es necesario tener mucho cuidado en la selección de secuencias para realizar la misma, en la correcta selección del modelo de substitución (tanto aminoácidica como nucleotídica) y el algoritmo de reconstrucción filogenética.

  • Existen diversas formas de estudiar el efecto de la selección a nivel molecular, pero uno de los usualmente más aceptados es el de la relación Ka/Ks, que es la relación entre el número de substituciones no-sinónimas por sitio no-sinónimo con respecto al número de substituciones sinónimas por sitio sinónimo. Como las substituciones sinónimas es de esperar que sean encontradas a una tasa usualmente mucho más alta que las no-sinónimas, aquellos sitios con una relación Ka/Ks por encima de 1 se consideran bajo selección positiva. El problema principal radica en determinar cuales apartamientos del 1 resultan estadísticamente significativos.


1.4 Genómica funcional

  • Las proteínas son los principales efectores a nivel celular, así como también juegan un rol fundamental en las estructuras celulares y las diferentes maquinarias, sin embargo, desafortunadamente, la medición de proteínas a escala masiva (lo que se conoce como proteómica) es un tema aún relativamente nuevo: se trata de técnicas caras y complejas y que no han experimentado aún una explosión similar a la que se experimentó a nivel de la medición de ácidos nucléicos.

  • Como sabemos, la información se almacena en el ADN, la que luego es transcrita hacia el ARN y que luego se traduce en proteínas. Si a su vez consideramos el hecho de que es relativamente sencillo medir cantidades de ARN en forma masiva (en realidad ADNc), la idea de utilizar la medición de los transcritos como un proxy a la medición de proteínas surge de inmediato. Es decir, si suponemos que la tasa de producción de proteínas es directamente proporcional a la tasa de transcripción, entonces medir la cantidad de transcritos es una buena y fiable indicación de la producción de proteínas.