I dlaczego wiele sklepów e-commerce błędnie zakłada, że „problem jest załatwiony”
Wstęp: skąd w ogóle to przekonanie?
W bardzo wielu sklepach e-commerce (szczególnie na PrestaShop, Magento, Shopify Plus) pojawia się ten sam schemat myślenia:
„Zablokowaliśmy parametry w robots.txt, więc Google już tego nie indeksuje.”
Na pierwszy rzut oka brzmi to logicznie.
W praktyce — to jedno z najbardziej mylących założeń w SEO technicznym.
Ten artykuł wyjaśnia dlaczego robots.txt nie czyści indeksu Google, co dokładnie robi, a czego z definicji zrobić nie może — i dlaczego ma to realny wpływ na rozwój dojrzałych sklepów.
Bez mitów. Bez teorii spiskowych. Tylko mechanika Google.
Robots.txt – co on naprawdę robi (fakty)
Plik robots.txt służy jednemu, bardzo konkretnemu celowi:
Informuje roboty wyszukiwarek, których adresów URL nie powinny CRAWLOWAĆ.
I tylko tyle.
Robots.txt:
- ✅ ogranicza crawl (skanowanie),
- ❌ nie zarządza indeksem,
- ❌ nie usuwa URL-i z indeksu,
- ❌ nie cofa decyzji indeksacyjnych podjętych wcześniej.
To nie jest interpretacja. To jest oficjalna, wielokrotnie powtarzana zasada Google.
Crawl ≠ Index (tu zaczyna się problem)
Kluczowe jest rozróżnienie dwóch procesów:
1️⃣ Crawlowanie
Googlebot odwiedza URL, pobiera jego treść.
2️⃣ Indeksowanie
Google decyduje, czy URL:
- trafi do indeksu,
- zostanie z niego usunięty,
- pozostanie „znany”, ale nieaktywny.
Robots.txt dotyczy tylko punktu 1.
Co się dzieje w praktyce w sklepach e-commerce
W dojrzałych sklepach Google przez lata poznaje:
- URL-e z filtrów,
- URL-e z paginacji,
- URL-e z sortowania,
- URL-e z wyszukiwarki,
- URL-e z dawnych modułów i konfiguracji.
W pewnym momencie ktoś dodaje w robots.txt:
Disallow: /*?page=
Disallow: /*?order=
Disallow: /*?q=
I… Google przestaje je crawlowąć.
Ale:
- one już są w indeksie,
- Google już je zna,
- one nadal istnieją jako byty indeksowe.
Efekt?
Google wie, że te URL-e istnieją,
ale nie może ich odwiedzić,
więc nie dostaje sygnału, że powinny zniknąć.
Paradoks robots.txt (bardzo ważny)
To jest moment, w którym wielu właścicieli sklepów się dziwi:
- „Zablokowaliśmy parametry w robots.txt”
- „A w Google Search Console nadal widzimy tysiące adresów”
I to nie jest błąd Google.
To jest konsekwencja mechaniki:
Jeśli Google nie może crawlowąć URL-a,
nie może zobaczyć, że ma on noindex,
ani że canonical wskazuje gdzie indziej.
Czyli:
- robots.txt zamyka drzwi,
- ale nie sprząta pokoju.
Dlaczego to nie jest problemem dla małych stron
Dla małej strony:
- 200–500 URL-i,
- krótka historia,
- mało parametrów,
ten efekt jest praktycznie niezauważalny.
Google:
- i tak wszystko ogarnia,
- i tak szybko reaguje,
- i tak ma zapas crawl budgetu.
Dlatego ten problem jest często bagatelizowany.
Dlaczego to jest realny problem dla dojrzałych sklepów
W dużych sklepach sytuacja wygląda inaczej:
- dziesiątki tysięcy znanych URL-i,
- setki kombinacji parametrów,
- wieloletnia historia zmian,
- wiele źródeł linków wewnętrznych i zewnętrznych.
Wtedy:
- Google marnuje uwagę na byty bez wartości,
- indeks staje się „rozmyty”,
- crawl budget nie trafia tam, gdzie powinien.
Efekt biznesowy:
- nowe kategorie indeksują się wolniej,
- SEO „działa”, ale się nie skaluje,
- zmiany mają opóźniony efekt,
- sklep stoi w miejscu mimo poprawnych działań.
Najczęstszy błąd: „canonical wszystko załatwi”
Canonical nie jest poleceniem, tylko wskazówką.
Jeśli Google:
- widzi tysiące wariantów URL-i,
- nie może ich crawlowąć (bo robots.txt),
- ma sprzeczne sygnały,
to canonical często bywa ignorowany.
I to jest oficjalnie potwierdzone przez Google.
Co z tego wynika (bez rozwiązań, tylko wnioski)
- Robots.txt nie czyści indeksu
- Robots.txt nie usuwa historii URL-i
- Robots.txt nie wystarcza w e-commerce
- Crawl i index to dwa różne światy
- Duże sklepy muszą zarządzać indeksem, nie tylko crawl’em
To nie jest „zaawansowane SEO”.
To jest architektura interpretacji domeny przez Google.
Dla kogo ten problem nie istnieje
Uczciwie:
- małe sklepy,
- nowe projekty,
- proste strony ofertowe,
- landing pages.
Jeśli:
- w Google Search Console masz kilkaset URL-i,
- nie widzisz masy parametrów,
to ten temat Cię nie dotyczy — i to jest dobra wiadomość.
Podsumowanie w jednym zdaniu
Robots.txt ogranicza dostęp robota, ale nie zarządza pamięcią Google. A w e-commerce to pamięć indeksu jest prawdziwym problemem.
