¿Quién está a punto de convertirse en la mayor bestia en el bosque Big Data? Un grupo de expertos en matemáticas y computación han llegado a lo que dicen es una respuesta clara. No es YouTube o Twitter, sitios de medios sociales que engullen cantidades impresionantes de ancho de banda y generan número de bytes lectrónicos difíciles de captar todos los días. Y no es la astronomía o la física de partículas, dos de las ciencias de la más alta tecnología que han sido durante mucho tiempo la vanguardia de la generación y procesamiento de datos.
No, la bestia alfa en el bosque Big Data, los expertos dicen que en la edición del 07 de julio de PLoS Biology, resulta ser la genómica – una ciencia que no existía hace 15 años y es sólo ahora está empezando a salir de el campo para generar más bytes electrónicos por año en relación con todos los demás campos.
Los expertos dicen que es un primer paso necesario de un gran desafío – encontrar la manera de capturar, almacenar, procesar e interpretar toda esa información biológica genómica codificada, por sí mismos en ceros y unos sin sentido.
"Durante mucho tiempo, la gente ha utilizado el adjetivo 'astronómico' para hablar de las cosas que son realmente, enorme", dice Michael Schatz, profesor asociado en el Centro de Biología Cuantitativa Simons en Cold Spring Harbor Laboratory (CSHL) y co-autor del artículo de PLoS. "Pero al señalar el increíble ritmo de crecimiento de la generación de datos en las ciencias biológicas, mis colegas y yo creemos que podríamos tener que empezar a llamar a las cosas verdaderamente inmensas "genómicas".
Todos los campos del equipo en comparación, de los medios sociales en Internet a la astronomía, están generando enormes cantidades de datos electrónicos – del orden de decenas a cientos de petabytes anuales. Un petabyte es un cuatrillón de bytes – 10 seguido de 15 ceros; es 1000 bytes veces mayor que un terabyte, la cantidad de almacenamiento que podría tener en su ordenador personal.
Dice el equipo, compuesto por expertos en datos de la Universidad de Illinois en Champaign-Urbana – que todos los campos están en una curva de rápido crecimiento. YouTube realmente genera la mayor cantidad de datos en este momento, alrededor de 100 petabytes al año.
Pero la genómica no se queda atrás y esta creciendo mucho más rápido. Al ritmo actual, la cantidad de datos del genóma producida diariamente se duplica cada 7 meses. En 2025, esa cifra oscilará entre 2 y 40 exabytes por año, según las estimaciones del equipo. Un exabyte es el equivalente a 1.000 petabytes, aproximadamente un millón de veces más datos que puede almacenar en su ordenador personal.
Schatz y sus colegas describen la genómica como una "bestia de cuatro cabezas." Se refieren a los problemas individuales de adquisición de datos, almacenamiento, distribución y análisis. Como datos que fluyen a través de Internet, los datos biológico que es la materia prima de la genómica está altamente distribuida. Eso significa que está generada y consumida en muchos lugares.
A diferencia de los datos de Internet, sin embargo, que tiene el formato de acuerdo con unos protocolos estándar, los datos de la genómica se compilan en muchos formatos diferentes, un hecho que pone en peligro su amplia inteligibilidad y utilidad.
Este problema crece en importancia a medida que aumenta la cantidad de datos. Como explica Schatz, gran parte del gran torrente de datos de biología tendrá la forma de secuencias del genoma humano, así como la información médica relacionada que también depende de la tecnología de secuenciación. Esta información relacionada toma la forma de dos instantáneas y el equivalente de las películas, y las preocupaciones, por ejemplo, los niveles de mensajes de genes, o transcripciones, en muestras de tejidos específicos, así como la identidad y los niveles de proteína en las muestras.
Si todos los datos de la secuencia de humanos hasta ahora generados fueron puestos en un solo lugar – cerca de 250.000 secuencias – requeriría unos 25 petabytes de espacio de almacenamiento. Ese es un problema manejable, dice Schatz. Pero en 2025, el equipo espera un máximo de 1000 millones de personas que tendrán sus genomas completamente secuenciados, en su mayoría, la gente en naciones relativamente ricas. y esto, sotienen, plantea un problema de almacenamiento de nivel exabyte.
En algún momento, la secuencia completa no necesitarán ser almacenada. En la física de partículas, los datos se leen y se filtran a medida que se generan, minimizando en gran medida los requisitos de almacenamiento. Pero este análisis no es del todo práctico para la información biológica, principalmente debido a que es mucho más difícil de decidir qué secuencias salvar. Es concebible que tendrán que ser preservado de mil millones de conjuntos de datos individuales si quiere ser una ayuda para los futuros médicos.
Schatz está especialmente interesado en el problema planteado por la obtención de cientos de millones, incluso miles de millones de secuencias del genoma de longitud completa humanos. El problema no es realmente la velocidad, que crecerá rápidamente y de manera previsible, dice, sino en encontrar la manera de alinear y representar diferentes genomas para que puedan ser comparados – y comparación de maneras inteligentes muy eficientes.
"El punto de la secuenciación de los genomas de mil millones no es realmente para hacer un billón de listas separadas diciendo: 'Si usted tiene estas variantes, usted tiene los siguientes riesgos." Por supuesto, las personas van a querer mirar la lista de variantes de ADN que poseen. Pero el poder real de tener 1000000000 genomas humanos proviene de la manera de compararlos y combinar capas de análisis. Nuestra creencia es, que mediante la combinación de toda esta información, los patrones surgirán – de la misma manera que cuando Mendel cultivó a decenas de miles de plantas de guisantes, en los albores de la genética hace 150 años, fue capaz de formular leyes de la herencia mirando a los patrones de cómo se heredaron rasgos específicos ".
"La genómica es una ciencia que cambia el juego de muchas maneras", dice Schatz. "Mis colegas y yo estamos diciendo que es importante pensar en el futuro por lo que estamos preparados para ello."
Este artículo aparece publicado en PLoS Biology: "astronómica o Genomical Big Data?". Los autores son: Zachary D. Stephens, Skylar Y. Lee, Faraz Faghri, Roy H. Campbell, Chengxiang Zhai, Miles J. Efron, Ravishankar Iyer, Michael C. Schatz *, Saurabh Sinha, Gene E. Robinson. El documento se puede obtener en línea en: http://journals.plos.org/plosbiology/