Robots.txt

Plik robots.txt to instrukcja dla robotów wyszukiwarek — mówi im co mogą, a czego nie mogą indeksować na Twojej stronie. Znajdziesz go zawsze pod adresem /robots.txt.

Jak działa?

Robot Google (Googlebot) zanim zacznie przeglądać stronę, najpierw sprawdza robots.txt. Jeśli znajdzie tam blokadę dla danej sekcji, omija ją.

Podstawowa struktura:

User-agent — do którego robota odnosi się reguła. * oznacza wszystkich.
Allow — co można indeksować.
Disallow — czego nie można indeksować.
Sitemap — adres sitemapa, żeby robot wiedział gdzie go szukać.

Co warto blokować?

Na blogu osobistym zazwyczaj blokujesz dostęp do:

Panelu admina (/admin)
Stron z wynikami wyszukiwania (/search)
Duplikatów treści (np. stron z parametrami URL jak ?sort=date)

Ważna uwaga

Robots.txt nie jest zabezpieczeniem. Blokuje tylko grzeczne roboty — złośliwe oprogramowanie go ignoruje. Do ukrywania prywatnych treści używaj autoryzacji, nie robots.txt.