Newsletter

Zlecone: Patrząc na świat oczami Wikipedii

18.06.2012, 20:03aktualizacja: 18.06.2012, 20:03

Pobierz materiał i Publikuj za darmo

Co można zrobić w ciągu jednego dnia za pomocą nowego SGI(R) UV(TM) 2000 - największego na świecie systemu do przetwarzania danych zawartych w pamięci?

International Supercomputing Conference 2012 - międzynarodowa konferencja poświęcona komputerom dużej mocy

HAMBURG, Niemcy - (BUSINESS WIRE) - SGI (http://www.sgi.com/) (NASDAQ:SGI), zaufany lider w zakresie przetwarzania danych, nawiązał współpracę z Kalev H. Leetaru z Uniwersytetu w Illinois w celu opracowania po raz pierwszy w historii struktury i analizy pełnej zawartości anglojęzycznej Wikipedii w czasie i przestrzeni. Wyniki obejmują wizualizację historii nowożytnej uchwyconej w ciągu jednego dnia, z zastosowaniem technik do przetwarzania danych zawartych w pamięci. Wgrywając całą anglojęzyczną edycję Wikipedii do systemu SGI(R) UV(TM) 2000 (http://www.sgi.com/products/servers/uv/?), Leetaru mógł pokazać, jak rozwinął się zasób informacji o świecie w Wikipedii w ciągu dwóch ostatnich lat. Lokalizacja, rok oraz pozytywna lub negatywna opinia zostały przypisane tym odniesieniom.

Podczas gdy poprzednie projekty mapowały hasła Wikipedii ręcznie przypisanymi przez edytora metadanymi lokalizacji, próby te stanowiły tylko niewielki ułamek informacji o lokalizacji. Projekt ten udostępnił treść samych artykułów, rozpoznając każdą lokalizację i datę we wszystkich czterech milionach stron i połączeń pomiędzy nimi, tworząc ogromną sieć.

"Patrząc" na Wikipedię w nowej odsłonie (https://www.facebook.com/sgiglobal/app_254258188009276)

"Ta analiza (https://www.facebook.com/sgiglobal/app_254258188009276) pozwala na odejście od pojedynczych artykułów i tekstów, i uchwycenie ogromu wiedzy wprowadzonej do Wikipedii, bez ograniczeń w postaci struktury drzewa na każdej stronie. Możemy obserwować, jak rozwinął się jeden z największych zbiorów wiedzy zdobytej przez człowieka, a także zobaczyć coś, czego wcześniej nie mogliśmy ujrzeć, np. globalne opinie na dany temat w określonym czasie i miejscu lub też lokalizację ‘białych plam’ w zakresie wiedzy - powiedział Franz Aman, dyrektor działu marketingu i kierownik ds. strategii w SGI. - Uwielbiamy korzystać z Google Earth, ponieważ możemy oddalić widok, uzyskując całościowy obraz terenu. Używając SGI UV 2, możemy zastosować tę samą technikę względem dużej ilości danych, aby również uzyskać tak duży obraz".

Z analizy wynika, że Wikipedia posiada w swoim historycznym zakresie cztery okresy rozwoju: 1001 - 1500 (średniowiecze), 1501 - 1729 (historia nowożytna), 1730 - 2003 (oświecenie), 2004 - 2011 (era Wikipedii). Jej ciągły rozwój zasadza się na poszerzaniu zakresu informacji dotyczących wydarzeń historycznych, a nie na dokładnym dokumentowaniu teraźniejszości. Każdego roku przeciętny wydźwięk informacji w Wikipedii odpowiada najważniejszym wydarzeniom na świecie, przy czym za najbardziej negatywny okres minionego tysiąclecia uznano wojnę secesyjną oraz II wojnę światową. Analiza pokazuje również, że ‘luka w prawie autorskim’, która wymazuje większość zdigitalizowanych informacji drukowanych o XX wieku, nie stanowi problemu dla Wikipedii, która odnotowuje stały i szybki wzrost liczby informacji obejmujących okres od 1924 r. aż do dzisiaj.

Umożliwianie użytkownikom przetwarzania dużej ilości danych ("Big Data”) przy prędkości Big Data

"Jednokierunkowy charakter połączeń w Wikipedii, brak linków oraz nierówne rozmieszczenie infoboksów wskazują na ograniczenia w przetwarzaniu danych zbiorów Wikipedii w oparciu o metadane - powiedział Leetaru. - Dzięki SGI UV 2, duża ilość dostępnej pamięci wspóldzielonej pozwoliła mi badać kwestie dotyczące całego zbioru danych w czasie zbliżonym do rzeczywistego. Posiadając do dyspozycji dużą ilość spójnej, współdzielonej pamięci podręcznej (cache), mógłbym napisać kilka wersów kodu i użyć go na całym zbiorze danych, pytając o wszystko to, co tylko przyjdzie mi na myśl. Nie jest to możliwe z systemem skalowalnym. Proces ten przypomina używanie edytora tekstu zamiast maszyny do pisania - mogę prowadzić wyszukiwanie w zupełnie inny sposób, skupiając się na wynikach, a nie na algorytmach".

Podejście analityczne

Po wgraniu tego olbrzymiego zbioru danych do komputera Big Brain, bazującego na systemie SGI(R)UV(TM)2000 (http://www.sgi.com/products/servers/uv/?), przeszedł on pełne geokodowanie tekstu i kodowanie dat, używając przy tym algorytmów, które potrafią rozpoznać każdą wpisaną lokalizację i datę zawartą w tekście każdego wpisu na Wikipedii. Wyszczególniono ponad 80 milionów lokalizacji oraz 42 miliony dat między rokiem 1000 a 2012, co stanowi średnio 19 lokalizacji i 11 dat na artykuł (odpowiednio 44 słowa i 75 słów). Relacje między każdą datą i lokalizacją zostały uchwycone w postaci olbrzymiej sieci przedstawiającej mapę historyczną Wikipedii. Przy pomocy tej procedury, Leetaru był w stanie dokonać analizy zbliżonej do czasu rzeczywistego na zbiorze danych umieszczonych w systemie SGI UV 2 tak, aby utworzyć mapy wizualizacyjne w czasie i przestrzeni. Dzięki temu nie tylko mógł zaobserwować, jak kształtowała się historia, ale także opisać atmosferę panującą na świecie przez ostatnie tysiąc lat oraz interaktywnie testować szeroki wachlarz teorii i pytań badawczych - a wszystko to w ciągu niespełna jednego dnia pracy.

Nowy system SGI UV - komputer "Big Brain"

Linia produktów SGI UV 2 (http://www.sgi.com/products/servers/uv/?) umożliwia użytkownikom znalezienie odpowiedzi na pytania dotyczące najtrudniejszych problemów świata metodami tak prostymi, jak obsługa komputera stacjonarnego. Zbudowany na procesorze z serii E5 Intel(R) Xeon(R), pracujący ze standardowym systemem Linux oraz obsługujący szeroki wachlarz opcji gromadzenia danych, SGI UV 2 oferuje kompleksowe rozwiązania branżowe, pozwalając na nieograniczone przetwarzanie danych.

Przy pomocy zaledwie 16 rdzeni i 32 gigabajtów pamięci, SGI UV 2 można uruchomić w podstawowej konfiguracji, a następnie stopniowo ją rozbudowywać. W porównaniu do poprzedniej, nowa generacja ma podwojoną liczbę rdzeni (do 4 096) oraz czterokrotnie zwiększoną wielkość głównej pamięci spójnej (do 64 terabajtów), dostępnej do przetwarzania danych zawartych w pamięci na pojedynczej kopii systemu. SGI UV 2 potrafi skalować do ośmiu petabajtów pamięci współdzielonej, a przy szczytowym transferze wejścia-wyjścia równym cztery terabajty na sekundę, mógłby przetworzyć całe drukowane zbiory Biblioteki Kongresu USA w ciągu niecałych trzech sekund.

System SGI UV 2000 jest już dostępny. Można go zamówić już dziś, natomiast dostawy rozpoczną się w sierpniu 2012 roku. Ceny zaczynają się od 30 000 USD.

Informacje o SGI

Działalność SGI, lidera branży przetwarzania danych, skupia się na pomocy klientom w rozwiązywaniu ich najważniejszych problemów biznesowych i technologicznych. Więcej informacji znajduje się na stronie: http://sgi.com.

Dołącz do profilów SGI w serwisach Twitter (http://twitter.com/#!/sgi_corp) (@sgi_corp), Facebook (https://www.facebook.com/sgiglobal) (facebook.com/sgiglobal), YouTube (http://www.youtube.com/sgicorp) (youtube.com/sgicorp) i LinkedIn (http://www.linkedin.com/company/sgi).

Zdjęcia i materiały filmowe znajdują się pod adresem: http://www.sgi.com/go/wikipedia.

© 2012 Silicon Graphics International Corporation. SGI i logo SGI to znaki towarowe lub zastrzeżone znaki towarowe Silicon Graphics International Corp. lub jej spółek zależnych na terenie Stanów Zjednoczonych i/lub innych krajów. Intel i Xeon to zastrzeżone znaki towarowe Intel Corporation. Wszelkie inne znaki towarowe stanowią własność ich właścicieli.

Zdjęcia zostały dołączone dzięki uprzejmości p. Kalev Leetaru.

Zdjęcia/galeria multimediów dostępne pod adresem: http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=en

KONTAKT:

Ogilvy Public Relations

Meghan Fintland

tel. 415-677-2704

e-mail: SGImedia@ogilvy.com

Źródło informacji: Business Wire

Oficjalną, obowiązującą wersję niniejszego zawiadomienia stanowi tekst oryginalny sporządzony w języku źródłowym. Tekst tłumaczenia służy wyłącznie celom orientacyjnym, został sporządzony wyłącznie dla celów ułatwienia zrozumienia zawiadomienia i należy interpretować go w odniesieniu do tekstu źródłowego, który jest jedyną wersją mającą skutki prawne.

Pobierz materiał i Publikuj za darmo

bezpośredni link do materiału
Data publikacji 18.06.2012, 20:03
Źródło informacji PAP
Zastrzeżenie Za materiał opublikowany w serwisie PAP MediaRoom odpowiedzialność ponosi – z zastrzeżeniem postanowień art. 42 ust. 2 ustawy prawo prasowe – jego nadawca, wskazany każdorazowo jako „źródło informacji”. Informacje podpisane źródłem „PAP MediaRoom” są opracowywane przez dziennikarzy PAP we współpracy z firmami lub instytucjami – w ramach umów na obsługę medialną. Wszystkie materiały opublikowane w serwisie PAP MediaRoom mogą być bezpłatnie wykorzystywane przez media.

Newsletter

Newsletter portalu PAP MediaRoom to przesyłane do odbiorców raz dziennie zestawienie informacji prasowych, komunikatów instytucji oraz artykułów dziennikarskich, które zostały opublikowane na portalu danego dnia.

ZAPISZ SIĘ