Dlaczego robots.txt nie czyści indeksu Google

Home » Dlaczego robots.txt nie czyści indeksu Google

I dlaczego wiele sklepów e-commerce błędnie zakłada, że „problem jest załatwiony”

Wstęp: skąd w ogóle to przekonanie?

W bardzo wielu sklepach e-commerce (szczególnie na PrestaShop, Magento, Shopify Plus) pojawia się ten sam schemat myślenia:

Zablokowaliśmy parametry w robots.txt, więc Google już tego nie indeksuje.

Na pierwszy rzut oka brzmi to logicznie.
W praktyce — to jedno z najbardziej mylących założeń w SEO technicznym.

Ten artykuł wyjaśnia dlaczego robots.txt nie czyści indeksu Google, co dokładnie robi, a czego z definicji zrobić nie może — i dlaczego ma to realny wpływ na rozwój dojrzałych sklepów.

Bez mitów. Bez teorii spiskowych. Tylko mechanika Google.


Robots.txt – co on naprawdę robi (fakty)

Plik robots.txt służy jednemu, bardzo konkretnemu celowi:

Informuje roboty wyszukiwarek, których adresów URL nie powinny CRAWLOWAĆ.

I tylko tyle.

Robots.txt:

  • ✅ ogranicza crawl (skanowanie),
  • nie zarządza indeksem,
  • nie usuwa URL-i z indeksu,
  • nie cofa decyzji indeksacyjnych podjętych wcześniej.

To nie jest interpretacja. To jest oficjalna, wielokrotnie powtarzana zasada Google.


Crawl ≠ Index (tu zaczyna się problem)

Kluczowe jest rozróżnienie dwóch procesów:

1️⃣ Crawlowanie

Googlebot odwiedza URL, pobiera jego treść.

2️⃣ Indeksowanie

Google decyduje, czy URL:

  • trafi do indeksu,
  • zostanie z niego usunięty,
  • pozostanie „znany”, ale nieaktywny.

Robots.txt dotyczy tylko punktu 1.


Co się dzieje w praktyce w sklepach e-commerce

W dojrzałych sklepach Google przez lata poznaje:

  • URL-e z filtrów,
  • URL-e z paginacji,
  • URL-e z sortowania,
  • URL-e z wyszukiwarki,
  • URL-e z dawnych modułów i konfiguracji.

W pewnym momencie ktoś dodaje w robots.txt:

Disallow: /*?page=
Disallow: /*?order=
Disallow: /*?q=

I… Google przestaje je crawlowąć.

Ale:

  • one już są w indeksie,
  • Google już je zna,
  • one nadal istnieją jako byty indeksowe.

Efekt?

Google wie, że te URL-e istnieją,
ale nie może ich odwiedzić,
więc nie dostaje sygnału, że powinny zniknąć.


Paradoks robots.txt (bardzo ważny)

To jest moment, w którym wielu właścicieli sklepów się dziwi:

  • „Zablokowaliśmy parametry w robots.txt”
  • „A w Google Search Console nadal widzimy tysiące adresów”

I to nie jest błąd Google.

To jest konsekwencja mechaniki:

Jeśli Google nie może crawlowąć URL-a,
nie może zobaczyć, że ma on noindex,
ani że canonical wskazuje gdzie indziej.

Czyli:

  • robots.txt zamyka drzwi,
  • ale nie sprząta pokoju.

Dlaczego to nie jest problemem dla małych stron

Dla małej strony:

  • 200–500 URL-i,
  • krótka historia,
  • mało parametrów,

ten efekt jest praktycznie niezauważalny.

Google:

  • i tak wszystko ogarnia,
  • i tak szybko reaguje,
  • i tak ma zapas crawl budgetu.

Dlatego ten problem jest często bagatelizowany.


Dlaczego to jest realny problem dla dojrzałych sklepów

W dużych sklepach sytuacja wygląda inaczej:

  • dziesiątki tysięcy znanych URL-i,
  • setki kombinacji parametrów,
  • wieloletnia historia zmian,
  • wiele źródeł linków wewnętrznych i zewnętrznych.

Wtedy:

  • Google marnuje uwagę na byty bez wartości,
  • indeks staje się „rozmyty”,
  • crawl budget nie trafia tam, gdzie powinien.

Efekt biznesowy:

  • nowe kategorie indeksują się wolniej,
  • SEO „działa”, ale się nie skaluje,
  • zmiany mają opóźniony efekt,
  • sklep stoi w miejscu mimo poprawnych działań.

Najczęstszy błąd: „canonical wszystko załatwi”

Canonical nie jest poleceniem, tylko wskazówką.

Jeśli Google:

  • widzi tysiące wariantów URL-i,
  • nie może ich crawlowąć (bo robots.txt),
  • ma sprzeczne sygnały,

to canonical często bywa ignorowany.

I to jest oficjalnie potwierdzone przez Google.


Co z tego wynika (bez rozwiązań, tylko wnioski)

  1. Robots.txt nie czyści indeksu
  2. Robots.txt nie usuwa historii URL-i
  3. Robots.txt nie wystarcza w e-commerce
  4. Crawl i index to dwa różne światy
  5. Duże sklepy muszą zarządzać indeksem, nie tylko crawl’em

To nie jest „zaawansowane SEO”.
To jest architektura interpretacji domeny przez Google.


Dla kogo ten problem nie istnieje

Uczciwie:

  • małe sklepy,
  • nowe projekty,
  • proste strony ofertowe,
  • landing pages.

Jeśli:

  • w Google Search Console masz kilkaset URL-i,
  • nie widzisz masy parametrów,

to ten temat Cię nie dotyczy — i to jest dobra wiadomość.


Podsumowanie w jednym zdaniu

Robots.txt ogranicza dostęp robota, ale nie zarządza pamięcią Google. A w e-commerce to pamięć indeksu jest prawdziwym problemem.

Zobacz nasz dział:

Indeks Google – architektura i stabilizacja