Wszystko, co musisz wiedzieć o wyszukiwarkach (3)

środa, 29 styczeń 03, 23:34

Promocja Stron WWW wiązała się z wyszukiwarkami od początku ich istnienia. Dzisiaj, chociaż ruch na stronie generowany przez wyszukiwarki maleje, pozycjonowanie stron www to nadal sekret sukcesu.

Jak działają?

Na szczęście dla biznesów, wszystkie liczące się wyszukiwarki działają na tej samej zasadzie. Dodatkowo większość wykorzystuje zbliżone algorytmy ustalające pozycje strony www w rankingu wyszukiwania.

Wyszukiwarka składa się z czterech podstawowych elementów:

  • Pajączka (Spider, Crawler),

  • Bazy danych,

  • Indeksu

  • i Programu Wyszukującego.

[bardzo często Bazę danych i Indeks traktuje się jako jedność i nazywa Indeksem, co jest jednak sporym uproszczeniem]

Pajączek czyta zlecone mu strony tak, jak to robi przeglądarka. Czyta kod strony i go interpretuje. W przeciwieństwie jednak do przeglądarki, pajączek interpretowany kod czyści z niepotrzebnych znaczników HTML i zapamiętuje tylko interesujący go tekst. Oczywiście tekst ten ma własne znaczniki informujące w dalszym procesie program wyszukujący, gdzie dany tekst się znajdował w kodzie strony, czy był to tytuł, nagłówek H1, zwykły tekst itd.

Pajączek po przeczytaniu strony podąża po linkach do podstron w tej samej domenie (Deep Crawling), czytając je również. Różne wyszukiwarki mają zdefiniowaną różną głębokość, na którą zagłębia się pajączek. Zakłada się, że najważniejsze strony powinny być najdalej 2 kliknięcia od strony głównej.

Po "przerobieniu" danego serwisu pajączek, poprzez linki kierujące na zewnątrz, trafia na inne, nieznane mu dotąd strony.

Celem większości wyszukiwarek, oprócz prawidłowego dostarczania rankingu, jest objęcie jak największej liczby stron - Google w styczniu zindeksowała 3 083 324 652 stron. Proces indeksowania internetu opiera się na dwóch założeniach:

  1. do prawie każdej strony ktoś się kiedyś odwołał i można do niej dojść po linkach na stronach bazy wyjściowej i stron znalezionych poprzez tą bazę. Baza wyjściowa to pewna liczba stron www, głównie portali i katalogów, które administratorzy nowej wyszukiwarki ustalają ręcznie, aby ich pajączek miał wyjście na możliwie najwięcej serwisów.

  2. resztę stron zaproponują właściciele. Zwracam uwagę na słowo "zaproponoują". Zwykle mówi się o "dodawaniu stron do wyszukiwarki". W rzeczywistości formularze wyszukiwarek PROPONUJĄ pajączkowi, które strony ma odwiedzić. Ręczne "dodanie" poprzez formularz nie jest więc równoznaczne ze zindeksowaniem strony przez wyszukiwarkę. Dlatego też trzeba ponawiać proponowanie do skutku, do pojawienia się naszej strony w wynikach.

Zebrane informacje przekazywane są do Bazy Danych wyszukiwarki. Pajączki wracają na zindeksowane strony po pewnym określonym czasie lub przy ponownym zaproponowaniu strony do indeksacji. Sprawdza wtedy czy strony się nie zmieniły i ewentualnie pobiera nowe dane.

Baza Danych jest indeksowana (najprawdopodobniej po dodaniu nowego wpisu). Tworzy się Indeks. To, czy strona pojawi się przy wyszukiwaniu, zależy od tego, czy została uwzględniona w Indeksie, a nie w Bazie Danych... chociaż zazwyczaj jest to równoważne. Indeks to spis wszystkich unikalnych słów wraz z odnośnikami do miejsc występowania ich w bazie danych. Indeks wyszukiwarki można porównać do indeksu, który można znaleźć w książkach - idea jest taka sama.

Gdy użytkownik wpisze jakieś hasło w formularzu wyszukiwarki, Program Wyszukujący przeszukuje Indeks w poszukiwaniu tego słowa. Jeśli słowo zostanie znalezione, Program Wyszukujący czyta wszystkie strony z Bazy Danych oznaczone w indeksie jako zawierające dane zapytanie. Następnie posługując się swoimi algorytmami ocenia wartości każdej strony. Za ocenę stron mogą odpowiadać algorytmy w samym Programie Wyszukującym, dodatkowy program (np. PageRank w Google) i np. fakt pojawienia się strony w katalogu. Na podstawie ocen jest tworzony ranking.

PageRank to specjalny program, który ocenia wartość strony na podstawie liczby stron, które zawierają link do danej strony. Wbrew oficjalnemu opisowi program ten nie jest demokratyczny.

W bazie danych znajduje się pełny, zapamiętany tekst. Wyszukiwarki jednak generalnie stosują tzw. Stop Words. Są to słowa bez konkretnego znaczenie, jak spójniki czy rodzajniki, których nie uwzględnia się w wyszukiwaniu.

Jeśli zadamy wyszukiwarce Google pytanie: the president to Program Wyszukujący przeszuka indeks tylko według słowa "president", "the" zostanie pominięte dla szybszego rezultatu. Jednakże w opisach stron "the" będzie się znajdowało.

Przeczytaj powyższy tekst ponownie, jeśli nie do końca zrozumiałeś ideę działania wyszukiwarek. W następnej części powiem Ci co dokładnie interesuje pajączki - które elementy strony www musisz dopracować.

czytaj dalej: Co czytają pajączki? »»
Komentarze
Newsletter

Newsletter CzasNaE-Biznes

Cotygodniowa dawka darmowych artykułów od Piotra Majewskiego - ojca chrzestnego polskiego małego e-biznesu...

Dołącz do 99 060 czytelników