Ver el mundo a través de los ojos de Wikipedia

18/06/2012 - 07:15 por Business Wire

Ver el mundo a través de los ojos de Wikipedia¿Qué se puede hacer en un día en la nueva SGI® UV™ 2000 - el mayor sistema de extracción de datos de memoria interna del mundo?.

SGI (NASDAQ:SGI), líder en computación técnica se ha asociado con Kalev H. Leetaru de la Universidad de Illinois para crear el primer mapeo y exploración de contenidos de texto completo de la edición en idioma Inglés de Wikipedia, en el tiempo y el espacio. Los resultados incluyen visualizaciones de la historia moderna capturadas en menos de un día utilizando las técnicas de extracción de datos de memoria interna. Al cargar la edición completa en idioma Inglés de Wikipedia en la SGI® UV™ 2000, el Sr. Leetaru pudo mostrar cómo se ha desarrollado la visión del mundo de Wikipedia en los últimos dos siglos. El lugar, el año y el sentimiento positivo o negativo están muy relacionados con esas referencias.

Mientras que varios proyectos anteriores han trazado un mapeo de las entradas en Wikipedia con los metadatos de la ubicación asignada manualmente por un editor, estos intentos anteriores sólo representan una pequeña fracción de la información de Wikipedia. Este proyecto abrió el contenido de los artículos, al identificar cada lugar y fecha en los cuatro millones de páginas y las conexiones entre ellos para crear una red masiva.

“Ver” Wikipedia de una forma totalmente nueva

“Este análisis le permite al mundo dar un paso atrás en los artículos y textos individuales para obtener una vista general del enorme conocimiento capturado en Wikipedia, no sólo una vista página por página, en diagrama. Podemos ver cómo ha evolucionado una de las más grandes colecciones del saber humano y ver lo que nunca se pudo ver antes, como el sentimiento mundial en un determinado tiempo y lugar, o dónde puede haber puntos ciegos en la cobertura de los conocimientos”, manifestó Franz Aman, Director de Comercialización y Jefe de Estrategias de SGI. “Nos gusta utilizar Google Earth porque podemos alejar la imagen y obtener un panorama general. Con la SGI UV 2, podemos aplicar el mismo concepto a los grandes datos para obtener un panorama general de nuestros grandes datos”.

A partir de este análisis, se considera que Wikipedia tiene cuatro períodos de crecimiento en su cobertura histórica: 1001-1500 (Edad Media), 1501-1729 (principios de la Edad Moderna), 1730-2003 (Siglo de las Luces), 2004-2011 (Era de Wikipedia) y su crecimiento continuo parece estar centrado en mejorar la cobertura de los acontecimientos históricos, en lugar de aumentar la documentación del presente. El tono promedio de la cobertura de Wikipedia de cada año coincide con los más importantes eventos mundiales, y el período más negativo de los últimos 1.000 años ha sido la Guerra Civil Estadounidense, seguido por la Segunda Guerra Mundial. El análisis también muestra que la "brecha de derechos de autor" que tiene espacios en blanco en la mayor parte del siglo XX en las colecciones digitalizadas impresas no es un problema para Wikipedia, donde hay un crecimiento exponencial constante en su cobertura desde 1924 hasta la fecha.

Permitir a los investigadores extraer datos de los grandes datos a la velocidad de los grandes datos

“La naturaleza unidireccional de las conexiones en Wikipedia, la falta de enlaces y la distribución desigual de las casillas de información (InfoBoxes) indican las limitaciones de la extracción de datos basada en metadatos de colecciones como Wikipedia”, manifestó el Sr. Leetaru. “Con la SGI UV 2, la gran memoria compartida disponible me ha permitido formular preguntas a todo el conjunto de datos en tiempo casi real. Con una gran cantidad de memoria compartida de caché coherente en mis manos, yo podría simplemente escribir unas pocas líneas de código y ejecutarlo en todo el conjunto de datos, formulando todas las preguntas que vengan a mi mente. Esto no es posible con un enfoque de computación escalable. Es muy similar a utilizar un procesador de textos en lugar de utilizar una máquina de escribir – puedo realizar mi investigación de una manera completamente diferente, centrándome en los resultados, no en los algoritmos”.

El enfoque analítico

Cargada en la SGI® UV™ 2000, la computadora de gran cerebro, esta base de datos masiva sufrió una geocodificación de texto completa y una codificación de fecha completa, utilizando los algoritmos que identificaron cada mención de cada lugar y fecha en todo el texto de cada entrada en Wikipedia. Se extrajeron más de 80 millones de lugares y 42 millones de fechas entre el año 1000 después de Cristo y el 2012, un promedio de 19 lugares y 11 fechas por artículo (cada 44 palabras y cada 75 palabras, respectivamente). Las conexiones entre cada fecha y lugar se capturaron en una red masiva que representa la visión de la historia de Wikipedia. Con esta instrumentación, el Sr. Leetaru fue capaz de realizar un análisis en tiempo casi real del conjunto de datos sobre la SGI UV 2 para crear mapas visuales a través del espacio y el tiempo para ver no sólo cómo se desarrolló la historia, sino también el tono general de todo el mundo a través de los últimos mil años, y probando de forma interactiva una amplia gama de teorías y preguntas de investigación, todo en menos de un día de trabajo.

La Nueva SGI UV: La computadora de gran cerebro

La familia de productos de SGI UV 2 le permite a los usuarios encontrar las respuestas a los problemas más difíciles del mundo en un sistema tan fácil de administrar como una estación de trabajo. Construida con la familia E5 de los procesadores Intel® Xeon®, en Linux estándar, y compatible con una amplia gama de opciones de almacenamiento, la SGI UV 2 ofrece una solución estándar completa en la industria para la computación sin límite.

Con tan sólo 16 núcleos y 32 gigabytes de memoria, la SGI UV 2 puede empezar con un tamaño pequeño y expandirse sin problemas. Esta plataforma de próxima generación duplica el número de núcleos (hasta 4.096 núcleos) y cuadruplica la cantidad de memoria principal coherente (hasta 64 terabytes) de la generación anterior, disponible para la computación de memoria interna en un sistema de una sola imagen. La SGI UV 2 puede escalar a ocho petabytes de memoria compartida y a una velocidad pico de entrada / salida (I / O) de cuatro terabytes por segundo (14 PB / hora) y podría ingresar todo el contenido de la colección impresa de la biblioteca del Congreso de EE. UU. en menos de tres segundos.

La SGI UV 2000 está disponible de inmediato. La SGI UV 20 se puede ordenar hoy y se empezará a distribuir en agosto de 2012. Los precios van desde 30.000 USD.

Acerca de SGI

SGI, el líder confiable en computación técnica, se enfoca en ayudar a los clientes a resolver los negocios más exigentes y los desafíos tecnológicos. Visite sgi.com para obtener más información.

Siga a SGI en Twitter (@sgi_corp), Facebook (facebook.com/sgiglobal), YouTube (youtube.com/sgicorp), y LinkedIn.

Para ver fotos y vídeos, visite:http://www.sgi.com/go/wikipedia

© 2012 Silicon Graphics International Corporation. SGI y el logotipo de SGI son marcas registradas o marcas de Silicon Graphics International Corp. o de sus subsidiarias en los Estados Unidos y / u otros países. Intel y Xeon son marcas comerciales registradas de Intel Corporation. Todas las demás marcas comerciales y marcas son propiedad de sus respectivos titulares.

Las imágenes son cortesía de Kalev Leetaru

Fotografías y galería multimedia disponibles: http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=es

Contacts :

Relaciones Públicas de Ogilvy
Meghan Fintland, 415-677-2704
SGImedia@ogilvy.com


Source(s) : Silicon Graphics International Corporation

Publicar un comentario