Оваа новинарска лекција покажува како со помош на Гугл, Архивата на Тајм.мк и archive.org може да се видат содржини кои веќе не се достапни на веб-сајтовите каде што биле првобитно објавени.
Пишува: Филип Стојановски, информатичар, програмски координатор во Фондацијата Метаморфозис
Има ситуации кога е од јавен интерес да се пронајдат содржини кои биле објавени на Интернет, па потоа отстранети. Оваа новинарска лекција покажува како со помош на Гугл, Архивата на Тајм.мк и archive.org може да се видат содржини кои веќе не се достапни на веб-сајтовите каде што биле првобитно објавени.
Преносот на информации преку интернет се врши со копирање од компјутер на компјутер. Кога се разгледува некоја веб-страница, таа всушност се копира од серверот каде што е сместена, преку интернет провајдерот до компјутерот на корисникот (што опфаќа десетици и стотици можни копирања меѓу разни посредници). За да „дознаат“ што има на Интернет, пребарувачите прават интерни копии од страниците кои потоа ги анализираат. Во целиот тој процес има големи можности и нешто што било избришано по објавувањето да биде зачувано. Многу е веројатно дека она што е ставено на Интернет, „вечно“ ќе остане „таму“. Или барем доволно долго.
Без оглед на тоа кој бил мотивот за нивното бришење или измена, од техничка гледна точка има различни начини за отстранување на содржини од вебот:
- Директно бришење од страна на авторите, уредници, издавачите и другите лица со администраторски привилегии. Кога се пристапува до адресата на ваквите написи, се добива порака од типот „таква страница не постои“;
- Промени во базите на податоци или замена на софтверот што го придвижува веб сајтот. При нарачување на промената, зачувување на функционалната архива не било приоритетна потреба. Пример: Канал 5 има веб-сајт од 1999 година, но најстарите достапни вести се од 2003 г.;
- Промена на доменот или други атрибути на веб-сајтот. На пр. од utrinski.com.mk во utrinski.mk, при што некои написи во моментов не се достапни, иако се појавуваат при интерно пребарување;
- Исклучување на цели сајтови, каков што е случајот со www.a1.com.mk.
- агрегаторите како Тајм, Грид, Дејли и Пинг;
- форуми, блогови и сајтови за чување линкови и дискусии како пензионираниот Кајмак;
- стари постови на социјалните мрежи како Твитер или Фејсбук.
Во случајот на „кешот“ на Гугл (Google Cache) зборот „кеш“ значи место каде привремено се складира нешто. Линкови до ваквите страници може да се појават меѓу резултатите од пребарувања. Како што објаснуваат од Гугл:
- Гугл ја снима секоја страница што ја испитува додека го поминува вебот и ја складира како бекап во случај оригиналната страница да не е достапна. Ако кликнете на „кешираниот“ линк (анг. Cached link) ќе ја видите веб-страницата како што изгледала во моментот кога сме ја индексирале. Оваа зачувана содржина Гугл ја користи за да процени дали дадената страница е релевантен погодок за вашето пребарување.
- Кога се прикажува зачуваната страница, на врвот има хедер (заглавие) кое служи како потсетување дека не мора да се работи за најновата/тековната верзија на страницата. Во ваквиот приказ, термините кои се однесуваат на вашето пребарување се истакнати (со жолта позадина) за полесно да видите зошто страницата е релевантна.
- Вакви „кеширани“ линкови не се појавуваат за сајтовите што не биле индексирани, како и за сајтовите чии сопственици побарале да не ги кешираме нивните содржини.
cache:http://точната адреса на страницатаОграничување: Важно е да се има на ум дека содржините складирани во кешот на Гугл имаат релативно краток рок на траење. Се чуваат во рок од неколку недели. Исто така, ако во дадена страница се правеле измени, ја прикажува само последната снимена верзија, а не првобитната.
Порака од Гугл кеш дека не може да најде нешто. |
Архивата на Тајм.мк
Пронаоѓање на македонски содржини може да се изведе и со помош на посебната секција „Архива“ во рамките на агрегаторот Тајм.мк (time.mk/arhiva). Основната форма на агрегаторот опфаќа над 150 сајтови, но нуди ограничено количество податоци за секоја вест: линк, наслов, интро…, но не и целосни текстови. Тоа произлегува од неговата намена – да пренасочува кон оригиналните сајтови. Наспроти тоа, одделот „Архива“ содржи податоци од 16 македонски веб-сајтови, меѓу кои важни медиуми и Собранието, кои се зачувани како целосни текстови што може да се пребаруваат. За написите кои постојат на нивните оригинални веб-сајтови, архивата служи како класичен пребарувач и насочува директно кон нив. На увид на јавноста е достапен само текстот, додека сликите или мултимедијалните елементи не се зачувани.
Ограничување: За разлика од Гугл или агрегаторот Тајм.мк, кои постојано проверуваат дали има нешто ново на веб-сајтовите кои ги следат, кај архивата на Тајм.мк базата се полни повремено, од прилика два пати годишно. Тоа значи дека верзиите на написите кои се зачувани во неа се оние кои биле достапни на оригиналните веб-сајтови во моментот на „полнење“. Написите кои биле објавени и исчезнати пред основањето на архивата во ноември 2012 година, или, пак, кои биле објавени и избришани меѓу две „полнења“ нема да бидат забележани во нејзината база на податоци.
Архивата на Интернет
Архивата на Интернет (Archive.org) е непрофитна дигитална библиотека чија мисија е „универзален пристап до сето знаење“. Таа обезбедува перманентно складирање и бесплатен јавен пристап до збирки дигитални материјали, како веб-сајтови, музика, филмови и скоро три милиони книги со истечени авторски права. Покрај архивската функција, таа е и активистичка организација која се залга за слободен и отворен Интернет.
Слично на Гугл, софтверот на Архивата наречен „Машина за си било еднаш“ (анг. Wayback Machine) од 1996 година има складирано неколку стотици милијарди веб-страници. Меѓу другите, архивира и страници од повеќето влијателни македонски медиуми. Но, за разлика од Гугл, овие снимени содржини не се пребарливи по клучни зборови, туку се достапни исклучиво со внесување на директната адреса на бараната страница.
Она што ја издвојува оваа „Машина“ од претходните алатки е дека таа дава можност да се видат сите снимени верзии на една иста страница, достапни по датуми.
Ограничување: Дополнително интересно е што во случај на отворање на некоја од страниците, во некои случаи може да се користат и линковите во нив за да се дојде до други страници од истиот веб-сајт. Во некои случаи зачувани се и фотографии или може и да се активира код за анимации. Но, во општ случај, Архивата чува само содржини од типот текст (ХТМЛ) и вметнати слики, а не и видео прилози кои биле составен дел од даден текст. Така на пример, може да се прочитаат голем дел од вестите на А1 ТВ, но не во целост, бидејќи текстуалниот дел во многу случаи бил само краток вовед чија намена била да го наведе посетителот да го види видео-прилогот, а не целосен транскрипт.
Пример 1: „Топ 10 најчитани вести…“
Ниту еден од линковите во написот „Топ 10 најчитани вести на Курир за 2012 година“ не функционира. Во списокот се наведени написи со фотографии на осомничените за убиството кај Смилковско Езеро, преку преживеалиците на Боки 13, спортски контроверзи, промоција на проширен текст на „Излези момче“ или најава за затворање на Фејбук, при што како најчитана е посочена веста за „чудото“ во Св. Димитрија.
Ако се кликне на било кој од линковите, се добива страница со текст
„404 – Артиклот #[број на запис од база] не е пронајден“.
Арно ама, за сите тие написи стојат зачувани копии на Archive.org (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) и тоа во по неколку „примероци“.
Пример 2: „Партиите со интернет загари…“
Снимка (копија) на избришан напис зачувана на archive.org. |
На оригиналниот линк се добива порака на англиски дека „страницата не е најдена“. Текстот не е зачуван во кешот на Гугл оти е поминато долго време, ниту, пак, бил снимен во архивата на Тајм.мк, оти бил избришан пред нејзиното формирање. Но, има зачувани копии на Archive.org. Притоа, не изгледа исто како на оригиналниот сајт, оти некои од мултимедијалните елементи не се собрани, меѓу другото и илустрацијата и форматирањето (CSS).
***
Кога има потреба да се најдат податоци кој некој би сакал да се исчезнати од интернет, најчесто се користи комбинација од разни методи на пребарување. Со оглед на тоа што голем дел од секојдневниот живот се одвива преку Интернет, оваа област на истражувачко новинарство ќе има сè поширока примена.
Оваа новинарска лекција е изработена во рамките на Проектот на УСАИД за зајакнување на медиумите во Македонија – Компонента Сервис за проверка на факти од медиумите, имплементирана од Метаморфозис. Новинарската лекција e овозможенa сo поддршка на Американската агенција за меѓународен развој (УСАИД). Содржината на новинарската лекција е одговорност на авторот и не ги одразува ставовите на Метаморфозис, УСАИД или Владата на САД. За повеќе информации за работата на УСАИД во Македонија, ве молиме посетете ги веб-страницата (http://macedonia.usaid.gov) и Фејсбук-страницата на УСАИД (www.facebook.com/USAIDMacedonia).
No comments:
Post a Comment