SGI
(NASDAQ:SGI), líder en computación técnica se ha asociado con Kalev H.
Leetaru de la Universidad de Illinois para crear el primer mapeo y
exploración de contenidos de texto completo de la edición en idioma
Inglés de Wikipedia, en el tiempo y el espacio. Los resultados incluyen
visualizaciones de la historia moderna capturadas en menos de un día
utilizando las técnicas de extracción de datos de memoria interna. Al
cargar la edición completa en idioma Inglés de Wikipedia en la SGI®
UV™ 2000, el Sr. Leetaru pudo mostrar cómo se ha desarrollado la
visión del mundo de Wikipedia en los últimos dos siglos. El lugar, el
año y el sentimiento positivo o negativo están muy relacionados con esas
referencias.
Mientras que varios proyectos anteriores han trazado un mapeo de las
entradas en Wikipedia con los metadatos de la ubicación asignada
manualmente por un editor, estos intentos anteriores sólo representan
una pequeña fracción de la información de Wikipedia. Este proyecto abrió
el contenido de los artículos, al identificar cada lugar y fecha en los
cuatro millones de páginas y las conexiones entre ellos para crear una
red masiva.
“Ver”
Wikipedia de una forma totalmente nueva
“Este análisis
le permite al mundo dar un paso atrás en los artículos y textos
individuales para obtener una vista general del enorme conocimiento
capturado en Wikipedia, no sólo una vista página por página, en
diagrama. Podemos ver cómo ha evolucionado una de las más grandes
colecciones del saber humano y ver lo que nunca se pudo ver antes, como
el sentimiento mundial en un determinado tiempo y lugar, o dónde puede
haber puntos ciegos en la cobertura de los conocimientos”, manifestó
Franz Aman, Director de Comercialización y Jefe de Estrategias de SGI.
“Nos gusta utilizar Google Earth porque podemos alejar la imagen y
obtener un panorama general. Con la SGI UV 2, podemos aplicar el mismo
concepto a los grandes datos para obtener un panorama general de
nuestros grandes datos”.
A partir de este análisis, se considera que Wikipedia tiene cuatro
períodos de crecimiento en su cobertura histórica: 1001-1500 (Edad
Media), 1501-1729 (principios de la Edad Moderna), 1730-2003 (Siglo de
las Luces), 2004-2011 (Era de Wikipedia) y su crecimiento continuo
parece estar centrado en mejorar la cobertura de los acontecimientos
históricos, en lugar de aumentar la documentación del presente. El tono
promedio de la cobertura de Wikipedia de cada año coincide con los más
importantes eventos mundiales, y el período más negativo de los últimos
1.000 años ha sido la Guerra Civil Estadounidense, seguido por la
Segunda Guerra Mundial. El análisis también muestra que la "brecha de
derechos de autor" que tiene espacios en blanco en la mayor parte del
siglo XX en las colecciones digitalizadas impresas no es un problema
para Wikipedia, donde hay un crecimiento exponencial constante en su
cobertura desde 1924 hasta la fecha.
Permitir a los investigadores extraer datos de los grandes datos a la
velocidad de los grandes datos
“La naturaleza unidireccional de las conexiones en Wikipedia, la falta
de enlaces y la distribución desigual de las casillas de información
(InfoBoxes) indican las limitaciones de la extracción de datos basada en
metadatos de colecciones como Wikipedia”, manifestó el Sr. Leetaru. “Con
la SGI UV 2, la gran memoria compartida disponible me ha permitido
formular preguntas a todo el conjunto de datos en tiempo casi real. Con
una gran cantidad de memoria compartida de caché coherente en mis manos,
yo podría simplemente escribir unas pocas líneas de código y ejecutarlo
en todo el conjunto de datos, formulando todas las preguntas que vengan
a mi mente. Esto no es posible con un enfoque de computación escalable.
Es muy similar a utilizar un procesador de textos en lugar de utilizar
una máquina de escribir – puedo realizar mi investigación de una manera
completamente diferente, centrándome en los resultados, no en los
algoritmos”.
El enfoque analítico
Cargada en la SGI®
UV™ 2000, la computadora de gran cerebro, esta base de datos masiva
sufrió una geocodificación de texto completa y una codificación de fecha
completa, utilizando los algoritmos que identificaron cada mención de
cada lugar y fecha en todo el texto de cada entrada en Wikipedia. Se
extrajeron más de 80 millones de lugares y 42 millones de fechas entre
el año 1000 después de Cristo y el 2012, un promedio de 19 lugares y 11
fechas por artículo (cada 44 palabras y cada 75 palabras,
respectivamente). Las conexiones entre cada fecha y lugar se capturaron
en una red masiva que representa la visión de la historia de Wikipedia.
Con esta instrumentación, el Sr. Leetaru fue capaz de realizar un
análisis en tiempo casi real del conjunto de datos sobre la SGI UV 2
para crear mapas visuales a través del espacio y el tiempo para ver no
sólo cómo se desarrolló la historia, sino también el tono general de
todo el mundo a través de los últimos mil años, y probando de forma
interactiva una amplia gama de teorías y preguntas de investigación,
todo en menos de un día de trabajo.
La Nueva SGI UV: La computadora de gran cerebro
La familia de productos de SGI
UV 2 le permite a los usuarios encontrar las respuestas a los
problemas más difíciles del mundo en un sistema tan fácil de administrar
como una estación de trabajo. Construida con la familia E5 de los
procesadores Intel® Xeon®, en Linux estándar, y compatible con una
amplia gama de opciones de almacenamiento, la SGI UV 2 ofrece una
solución estándar completa en la industria para la computación sin
límite.
Con tan sólo 16 núcleos y 32 gigabytes de memoria, la SGI UV 2 puede
empezar con un tamaño pequeño y expandirse sin problemas. Esta
plataforma de próxima generación duplica el número de núcleos (hasta
4.096 núcleos) y cuadruplica la cantidad de memoria principal coherente
(hasta 64 terabytes) de la generación anterior, disponible para la
computación de memoria interna en un sistema de una sola imagen. La SGI
UV 2 puede escalar a ocho petabytes de memoria compartida y a una
velocidad pico de entrada / salida (I / O) de cuatro terabytes por
segundo (14 PB / hora) y podría ingresar todo el contenido de la
colección impresa de la biblioteca del Congreso de EE. UU. en menos de
tres segundos.
La SGI UV 2000 está disponible de inmediato. La SGI UV 20 se puede
ordenar hoy y se empezará a distribuir en agosto de 2012. Los precios
van desde 30.000 USD.
Acerca de SGI
SGI, el líder confiable en computación técnica, se enfoca en ayudar a
los clientes a resolver los negocios más exigentes y los desafíos
tecnológicos. Visite sgi.com
para obtener más información.
Siga a SGI en Twitter
(@sgi_corp), Facebook
(facebook.com/sgiglobal), YouTube
(youtube.com/sgicorp), y LinkedIn.
Para ver fotos y vídeos, visite:http://www.sgi.com/go/wikipedia
© 2012 Silicon Graphics International Corporation. SGI y el logotipo de
SGI son marcas registradas o marcas de Silicon Graphics International
Corp. o de sus subsidiarias en los Estados Unidos y / u otros países.
Intel y Xeon son marcas comerciales registradas de Intel Corporation.
Todas las demás marcas comerciales y marcas son propiedad de sus
respectivos titulares.
Las imágenes son cortesía de Kalev Leetaru
Fotografías y galería multimedia disponibles: http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=es