Jak Google odkrywa i indeksuje strony
Zanim strona pojawi się w wynikach wyszukiwania, Google musi ją najpierw odkryć, przeskanować i zdecydować, czy warto ją zaindeksować. To fundament SEO — jeśli strona nie jest zaindeksowana, nie ma widoczności organicznej.
Trzy etapy
1. Odkrycie (Crawl Discovery) Googlebot odkrywa URL-e przez linki z innych stron lub przez sitemapę. Nowe strony bez linków zewnętrznych mogą czekać tygodniami na pierwsze odwiedziny robota.
2. Skanowanie (Crawling) Robot skanuje zawartość strony — tekst, linki, meta tagi, dane strukturalne. Sprawdza też, czy robots.txt nie blokuje dostępu i jaki jest status HTTP.
3. Indeksowanie (Indexing)
Google decyduje, czy stronę zaindeksować. Może odmówić jeśli wykryje duplikaty, złą kanonikalizację, tag noindex, błędy lub treść niskiej jakości.
Kluczowe pojęcia
- Googlebot — robot Google odpowiedzialny za skanowanie stron.
- Indeks Google — baza danych stron, z której Google pobiera wyniki.
- Sitemap — plik XML z listą URL-i pomagający Googlebotowi odkrywać strony.
- Canonical — tag HTML wskazujący Google która wersja URL-a jest "prawdziwa".
- Crawl budget — limit stron, które Googlebot skanuje w danym czasie (ważne dla dużych serwisów).
Jak sprawdzić status indeksacji?
Google Search Console → raport "Stan" — pokazuje które strony są zaindeksowane, które wykluczone i z jakiego powodu.
Częste pułapki
- Nowe treści nie pojawiają się w Google przez tygodnie — często brak linków wewnętrznych lub błąd w robots.txt.
- Ważne podstrony wykluczone z indeksu przez przypadkowe
noindex. - Chaos w URL-ach (parametry, duplikaty) marnujący crawl budget.