Co to jest robots.txt?

by Agata
0 comments

Co to jest robots.txt?

Plik robots.txt to prosty plik tekstowy umieszczany w katalogu głównym witryny (np. https://twojadomena.pl/robots.txt), który instruuje roboty wyszukiwarek, które zasoby mogą, a których nie powinny one craw­lować. Opiera się na tzw. Robots Exclusion Protocol i dotyczy wyłącznie dostępu do URL-i, a nie uprawnień użytkowników.

Jak działa i co zawiera robots.txt?

Robot najpierw pobiera plik robots.txt z danej host/domeny i protokołu (oddzielny plik dla http/https oraz każdej subdomeny), a następnie stosuje się do reguł przypisanych do swojego identyfikatora.

Najważniejsze dyrektywy:

  • User-agent: wskazuje, do którego robota odnoszą się reguły (np. Googlebot, Bingbot, lub ogólne “*”).
  • Disallow: ścieżki zakazane do crawlowania.
  • Allow: ścieżki dozwolone (nadpisują Disallow w tej samej grupie; obsługiwane m.in. przez Google/Bing).
  • Sitemap: adres(y) map witryny, ułatwiające odkrywanie URL-i.
  • Crawl-delay: sugeruje opóźnienie między żądaniami (nie jest standardem i bywa różnie interpretowane).

Dodatkowe zasady techniczne:

  • Komentarze poprzedza się znakiem #; każda reguła w osobnej linii.
  • Wzorce mogą używać * (dowolny ciąg) i $ (koniec adresu) – wspierane przez główne wyszukiwarki.
  • Limit rozmiaru parsowania przez Google to ok. 500 KB – nadmiar zostanie zignorowany.
  • Jeśli plik nie istnieje (404) – brak ograniczeń; jeśli jest tymczasowo niedostępny (5xx) – wyszukiwarki zwykle ograniczają crawl do czasu odzyskania dostępu.

Ważne rozróżnienie: robots.txt kontroluje crawlowanie, a nie bezpośrednio indeksowanie. Adres zablokowany w robots.txt może nadal trafić do indeksu na podstawie linków zewnętrznych (bez podglądu treści). Do zablokowania indeksacji używaj meta tagów robots “noindex” lub nagłówka HTTP X-Robots-Tag, albo zwracaj status 404/410 czy stosuj uwierzytelnianie. Dyrektywa “noindex” w robots.txt nie jest obsługiwana.

Polecane -  Co to jest Perl?

Znaczenie dla SEO

Dobrze skonfigurowany robots.txt:

  • Chroni budżet crawl – ogranicza niepotrzebne skanowanie np. stron z parametrami sortowania, filtrów, koszyka czy paneli administracyjnych.
  • Ułatwia odkrywanie treści – dzięki dyrektywie Sitemap robot szybciej znajduje ważne URL-e.
  • Zapobiega duplikacji ścieżek – blokada technicznych sekcji może zmniejszyć ryzyko indeksacji wariantów URL.
  • Stabilizuje renderowanie – nie blokuj jednak plików CSS/JS, bo Googlebot potrzebuje ich do prawidłowego renderu; blokady zasobów mogą obniżyć ocenę jakości strony.

Ryzyka i błędy:

  • Globalne “Disallow: /” przypadkiem pozostawione po testach wycina stronę z crawlu.
  • Używanie robots.txt do “ukrywania” wrażliwych danych jest nieskuteczne – źli aktorzy i tak mogą je pobrać.
  • Blokowanie stron, które chcesz usunąć z indeksu, uniemożliwi robotowi odczyt “noindex” na nich – efekt odwrotny do zamierzonego.

Dobre praktyki:

  • Minimalizuj liczbę reguł; operuj na wzorcach zamiast wyliczać setki ścieżek.
  • Oddzielne pliki dla każdej subdomeny i protokołu.
  • Testuj wdrożenia i monitoruj logi serwera; w Google Search Console sprawdzaj, czy URL jest “Zablokowany przez robots.txt”.
  • Utrzymuj spójność z innymi sygnałami (rel=canonical, mapy witryny, przekierowania).

Praktyczne przykłady

Przykładowy plik dla witryny e‑commerce/WordPress:

User-agent: *
# Nie blokuj zasobów koniecznych do renderowania
Allow: /wp-content/uploads/
Allow: /*.css$
Allow: /*.js$

# Ogranicz sekcje techniczne
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/

# Ogranicz duplikujące parametry
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*&page=

# Wskaż mapy witryny
Sitemap: https://twojadomena.pl/sitemap_index.xml

Środowisko testowe (lepiej zabezpieczyć hasłem, ale tymczasowo):

User-agent: *
Disallow: /

Naturalne domknięcie tematu

Plik robots.txt jest lekkim, ale strategicznym mechanizmem sterowania dostępem robotów do zasobów. W połączeniu z mapami witryny, tagami meta i poprawną architekturą informacji pozwala efektywnie zarządzać budżetem crawl i jakością indeksu. Kluczem jest precyzja: blokuj to, co naprawdę zbędne dla crawlu, nie ograniczaj renderowania i pamiętaj, że do wykluczania z indeksu służą inne narzędzia niż robots.txt. Regularne testy i monitoring sprawią, że stanie się on bezpiecznym wsparciem technicznego SEO.

You may also like

Get New Updates nto Take Care Your Pet

Witaj na mojej stronie - jestem Agata i zapraszam do zapoznania się z ciekawostkami.. a więcej o mnie przeczytasz

@2024 – All Right Reserved.