Las cantidades inmensas de datos con las que deben lidiar los sistemas informáticos de Google, Facebook, o el CERN (el Laboratorio Europeo para la Física de Partículas), por citar algunos casos, están fuera del alcance de la tecnología normal de bases de datos. Los centros de investigación científica y empresas que manejan depósitos de datos de esa magnitud han tenido que adoptar soluciones imaginativas.
Los analistas de datos pueden beneficiarse mucho del Apache Hadoop, de código abierto, pues permite trabajar con petabytes (millones de gigabytes) de datos, y miles de nodos, y cuenta con el muy eficiente sistema de archivos HDFS.
Sin embargo, Hadoop no es capaz de consultar grandes conjuntos de datos tan eficientemente como los sistemas de bases de datos que están diseñados para el procesamiento en paralelo.
El equipo de Jens Dittrich, profesor de sistemas de información en la Universidad de Saarland en Alemania, está desarrollando la "Biblioteca de Indexación Agresiva de Hadoop", llamada también HAIL por sus siglas en inglés.
Los analistas de datos pueden beneficiarse mucho del Apache Hadoop, de código abierto, pues permite trabajar con petabytes (millones de gigabytes) de datos, y miles de nodos, y cuenta con el muy eficiente sistema de archivos HDFS.
Sin embargo, Hadoop no es capaz de consultar grandes conjuntos de datos tan eficientemente como los sistemas de bases de datos que están diseñados para el procesamiento en paralelo.
El equipo de Jens Dittrich, profesor de sistemas de información en la Universidad de Saarland en Alemania, está desarrollando la "Biblioteca de Indexación Agresiva de Hadoop", llamada también HAIL por sus siglas en inglés.
Ésta permite guardar cantidades enormes de datos en HDFS de tal manera que el tiempo de respuesta de las consultas es hasta 100 veces menor.
Además, el equipo de Dittrich ha organizado el proceso de indexar datos de tal manera que no es necesario tiempo extra de computación ni retraso adicional. Incluso, el espacio adicional necesario de almacenamiento es bajo.
Además, el equipo de Dittrich ha organizado el proceso de indexar datos de tal manera que no es necesario tiempo extra de computación ni retraso adicional. Incluso, el espacio adicional necesario de almacenamiento es bajo.
No hay comentarios:
Publicar un comentario