DevaGroup Blog Słownik pojęć SEO/SEM/e-marketing Internet archive – internetowe archiwum stron www

Internet archive – internetowe archiwum stron www

Każda instytucja publiczna, która przetwarza dokumenty, ma swoje archiwum. Co więcej, wiele osób prowadzi zbiory określonych danych również na własny użytek. Archiwizujemy umowy, przechowujemy rozliczenia z urzędem skarbowym, potwierdzenia płatności. Coraz częściej prywatne archiwa tworzone są w formie cyfrowej, na przykład poprzez specjalny serwis. Co ciekawe, również Internet doczekał się swojego archiwum, w którym przechowywane są archiwalne wersje stron internetowych. Archive Google ma potencjał, aby stać się ogromnym źródłem wiedzy.

Podejmij współpracę z profesjonalną agencją

Zapytaj o ofertę

Co to jest Internet Archive?

Internet Archive to organizacja non profit, która została utworzona pod koniec ubiegłego stulecia, a dokładnie w roku 1996. Jej inicjatorem był Brewster Kahle. Organizacja swoją siedzibę ma w San Francisco, w Stanach Zjednoczonych Ameryki Północnej.

Do zadań, jakie Internet Archive sobie wyznacza, należy między innymi:

· gromadzenie wszelkich dostępnych na całym świecie zasobów multimedialnych,

· darmowe udostępnianie zgromadzonych zasobów.

Bezpłatny dostęp do zgromadzonych zasobów mają przede wszystkim naukowcy. Również i historycy mają szansę zapoznać się ze zarchiwizowanymi zasobami. W pewnej części także każdy człowiek, niezależnie od tego, z jakiej części świata pochodzi, może odwiedzić archiwum stron internetowych. Ilość zgromadzonego materiału jest trudna do wyobrażenia. Szacuje się, że przez ostatnich 8 lat zgromadzono dane zajmujące 10 petabajtów – to jednostka, która stosowana jest w celu określenia największych dostępnych przestrzeni służących do magazynowania danych. 1 PB można także wyrazić w nieco inny sposób – jest to nic innego jak bilion bajtów). Aktualizacja systemu archiwalnego następuje co około dwa miesiące.

Internet Archive – dlaczego powstało?

O wielkości, nieszablonowości i wyjątkowości projektu niech świadczy misja organizacji. Jej twórcy wyszli z założenia, że przecież każdy naród, każda grupa etniczna, dąży do tego, aby zgromadzić dziedzictwo kulturowe. Wiedza o tym, co wydarzyło się w przeszłości, pozwala lepiej rozumieć teraźniejszość, umożliwia naukę na błędach, a także pozwala oszacować skutki konkretnych działań w przyszłości. Pomysł organizacji idzie jednak o krok dalej. Internet Archive nie gromadzi informacji dotyczących konkretnego narodu czy państwa. Jej celem jest zgromadzenie całej wiedzy, jaka dostępna jest człowiekowi.

Jak działa Internet Archive?

Podróż w czasie stała się obecnie możliwa, a wszystko za sprawą Internet Archive. Cel, jaki stawiała przed sobą organizacja, wydawał się początkowo (przynajmniej przeciętnemu zjadaczowi chleba) wręcz niewyobrażalny do osiągnięcia. Jak w ogóle można myśleć o tym, aby zgromadzić i przechowywać całą dostępną współczesnemu człowiekowi wiedzę. Okazało się jednak, że taka inicjatywa nie tylko jest możliwa do przeprowadzenia, lecz również ma rację bytu. W ramach tego gigantycznego projektu udaje się gromadzić materiały multimedialne z całego świata. Multimedia udostępniane są całkowicie za darmo – jednak jest pewien warunek. Muszą być wykorzystywane w celach edukacyjnych.

Wśród olbrzymich zbiorów zgromadzonych do tej pory przez amerykańską organizację zaliczają się między innymi:

● strony internetowe,

● cyfrowe wersje książek,

● grafiki multimedialne,

● materiały video,

● nagrania,

● oprogramowania (w różnych wersjach).

Takie pliki to ogromny zbiór wiedzy. Co ciekawe, pod pewnymi warunkami, z tego archiwum może (co prawda w ograniczonym zakresie, ale jednak) skorzystać każdy z nas. Wszystko za sprawą Wayback Machine.

Archiwum cyfrowe – Wayback Machine

Analizując projekt tworzony przez organizację Internet Archive należy wspomnieć o Wayback Machine. To archiwum cyfrowe, dzięki któremu można dosłownie przenieść się w czasie. Zgromadzono w nim kopie stron internetowych. Jak to możliwe, że udaje się gromadzić tyle danych? Jeżeli za ten proces miałby odpowiadać człowiek, trzeba by wykorzystać nieprzebrane zasoby ludzkie. W takiej sytuacji i tak praca ta mogłaby wydawać się syzyfowa, a sam projekt mógłby nie doczekać się realizacji. Od czego jednak mamy postęp technologiczny. Za gromadzenie danych odpowiedzialne są roboty. To właśnie ich zadaniem jest skrupulatne skanowanie i pozyskiwanie gromadzonych informacji.

W jaki sposób można pozyskać zgromadzone dane?

Korzystanie z zasobów archiwum cyfrowego jest niezwykle proste. Wystarczy wejść na stronę internetową archive.org i wpisać w pole wyszukiwania adres witryny, która nas interesuje. W odpowiedzi dostaniemy wykres graficzny uwzględniający przedział czasowy, z którego są dostępne dane. Wystarczy kliknąć w wybrany dzień, a w nowym oknie wyświetli się historyczna wersja strony internetowej.

Na uwagę zasługuje również fakt, że niektóre strony mogą posiadać kilka wersji przypisanych do konkretnego dnia. Do zarchiwizowanych zasobów przypisywany jest snapshot – znacznik czasu. W przypadku, gdy strona internetowa danego dnia archiwizowana była kilkukrotnie, to przy każdej kopii jest informacja o dokładnej godzinie jej wykonania.

Dane odnośnie historycznych wersji domeny można wykorzystać przy analizie pod kątem potencjalnego pozycjonowania strony www na takiej domenie.

Wypożyczalnia książek Internet Archive

Wayback Machine to nie jedyne dziecko organizacji Internet Archive. Warto przyjrzeć się także projektowi, jakim jest biblioteka cyfrowa. Gromadzone są w niej książki dostępne w domenie publicznej. Można znaleźć książki do czytania online, jak i do pobrania w różnych formatach. Open Library to przede wszystkim książki, których prawa autorskie już wygasły. Nie są to zatem najnowsze publikacje. Jest to prawdziwa kopalnia skarbów dla osób pasjonujących się zarówno historią, jak i literaturą sprzed wielu dekad. Co ciekawe, w ramach swej działalności, biblioteka udostępnia użytkownikom także i nowsze publikacje. Są one dostępne do wypożyczenia na okres dwóch tygodni. Jedyny warunek, jaki musi spełnić każda osoba, która chce wypożyczyć konkretną książkę w wersji cyfrowej, to założenie bezpłatnego konta. Liczba dostępnych pozycji zbliża się wielkimi krokami do miliona. Jest też pewna ciekawostka dla miłośników filmów. Materiały, co do których prawa autorskie wygasły, są digitalizowane i powszechnie udostępniane w ramach wolnej licencji.

« Wróć do słownika pojęć SEO/SEM/e-marketing