Co to jest robots.txt?
Plik robots.txt to prosty plik tekstowy umieszczany w katalogu głównym witryny (np. https://twojadomena.pl/robots.txt), który instruuje roboty wyszukiwarek, które zasoby mogą, a których nie powinny one crawlować. Opiera się na tzw. Robots Exclusion Protocol i dotyczy wyłącznie dostępu do URL-i, a nie uprawnień użytkowników.
Jak działa i co zawiera robots.txt?
Robot najpierw pobiera plik robots.txt z danej host/domeny i protokołu (oddzielny plik dla http/https oraz każdej subdomeny), a następnie stosuje się do reguł przypisanych do swojego identyfikatora.
Najważniejsze dyrektywy:
- User-agent: wskazuje, do którego robota odnoszą się reguły (np. Googlebot, Bingbot, lub ogólne “*”).
- Disallow: ścieżki zakazane do crawlowania.
- Allow: ścieżki dozwolone (nadpisują Disallow w tej samej grupie; obsługiwane m.in. przez Google/Bing).
- Sitemap: adres(y) map witryny, ułatwiające odkrywanie URL-i.
- Crawl-delay: sugeruje opóźnienie między żądaniami (nie jest standardem i bywa różnie interpretowane).
Dodatkowe zasady techniczne:
- Komentarze poprzedza się znakiem #; każda reguła w osobnej linii.
- Wzorce mogą używać * (dowolny ciąg) i $ (koniec adresu) – wspierane przez główne wyszukiwarki.
- Limit rozmiaru parsowania przez Google to ok. 500 KB – nadmiar zostanie zignorowany.
- Jeśli plik nie istnieje (404) – brak ograniczeń; jeśli jest tymczasowo niedostępny (5xx) – wyszukiwarki zwykle ograniczają crawl do czasu odzyskania dostępu.
Ważne rozróżnienie: robots.txt kontroluje crawlowanie, a nie bezpośrednio indeksowanie. Adres zablokowany w robots.txt może nadal trafić do indeksu na podstawie linków zewnętrznych (bez podglądu treści). Do zablokowania indeksacji używaj meta tagów robots “noindex” lub nagłówka HTTP X-Robots-Tag, albo zwracaj status 404/410 czy stosuj uwierzytelnianie. Dyrektywa “noindex” w robots.txt nie jest obsługiwana.
Znaczenie dla SEO
Dobrze skonfigurowany robots.txt:
- Chroni budżet crawl – ogranicza niepotrzebne skanowanie np. stron z parametrami sortowania, filtrów, koszyka czy paneli administracyjnych.
- Ułatwia odkrywanie treści – dzięki dyrektywie Sitemap robot szybciej znajduje ważne URL-e.
- Zapobiega duplikacji ścieżek – blokada technicznych sekcji może zmniejszyć ryzyko indeksacji wariantów URL.
- Stabilizuje renderowanie – nie blokuj jednak plików CSS/JS, bo Googlebot potrzebuje ich do prawidłowego renderu; blokady zasobów mogą obniżyć ocenę jakości strony.
Ryzyka i błędy:
- Globalne “Disallow: /” przypadkiem pozostawione po testach wycina stronę z crawlu.
- Używanie robots.txt do “ukrywania” wrażliwych danych jest nieskuteczne – źli aktorzy i tak mogą je pobrać.
- Blokowanie stron, które chcesz usunąć z indeksu, uniemożliwi robotowi odczyt “noindex” na nich – efekt odwrotny do zamierzonego.
Dobre praktyki:
- Minimalizuj liczbę reguł; operuj na wzorcach zamiast wyliczać setki ścieżek.
- Oddzielne pliki dla każdej subdomeny i protokołu.
- Testuj wdrożenia i monitoruj logi serwera; w Google Search Console sprawdzaj, czy URL jest “Zablokowany przez robots.txt”.
- Utrzymuj spójność z innymi sygnałami (rel=canonical, mapy witryny, przekierowania).
Praktyczne przykłady
Przykładowy plik dla witryny e‑commerce/WordPress:
User-agent: *
# Nie blokuj zasobów koniecznych do renderowania
Allow: /wp-content/uploads/
Allow: /*.css$
Allow: /*.js$
# Ogranicz sekcje techniczne
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /cart/
Disallow: /checkout/
Disallow: /search/
# Ogranicz duplikujące parametry
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*&page=
# Wskaż mapy witryny
Sitemap: https://twojadomena.pl/sitemap_index.xml
Środowisko testowe (lepiej zabezpieczyć hasłem, ale tymczasowo):
User-agent: *
Disallow: /
Naturalne domknięcie tematu
Plik robots.txt jest lekkim, ale strategicznym mechanizmem sterowania dostępem robotów do zasobów. W połączeniu z mapami witryny, tagami meta i poprawną architekturą informacji pozwala efektywnie zarządzać budżetem crawl i jakością indeksu. Kluczem jest precyzja: blokuj to, co naprawdę zbędne dla crawlu, nie ograniczaj renderowania i pamiętaj, że do wykluczania z indeksu służą inne narzędzia niż robots.txt. Regularne testy i monitoring sprawią, że stanie się on bezpiecznym wsparciem technicznego SEO.

Dzięki wieloletniemu doświadczeniu, zdobytemu przy współpracy z różnymi branżami, potrafię dostosowywać podejście do indywidualnych potrzeb każdego klienta. Na stronie Biznesuj.pl dzielę się wiedzą oraz praktycznymi poradami na temat prowadzenia biznesu, aby inspirować i wspierać przedsiębiorców w ich codziennych wyzwaniach. Zapraszam do lektury moich artykułów, które mogą stać się drogowskazem w dążeniu do sukcesu.”