I dlaczego to ma realne znaczenie dla dużych sklepów e-commerce
Wstęp: pozorny paradoks, który wcale nim nie jest
W Google Search Console wielu właścicieli sklepów widzi statusy, które na pierwszy rzut oka wydają się sprzeczne:
- „URL zindeksowany, ale nie zeskanowany”
- „Wykryto – obecnie nie zaindeksowano”
- „Strona znana Google, brak ostatniego crawlu”
Pojawia się naturalne pytanie:
Jak Google może coś indeksować, skoro tego nie crawluje?
Odpowiedź jest prosta, choć dla wielu niewygodna:
bo crawlowanie i indeksowanie to dwa różne procesy.
Crawl i index to nie to samo
Crawlowanie
To techniczna czynność:
- robot odwiedza adres URL,
- pobiera HTML,
- analizuje treść i linki.
Indeksowanie
To decyzja systemowa:
- czy URL ma sens,
- jaką pełni rolę,
- czy jest unikalny,
- czy powinien pozostać „w pamięci” Google.
📌 Indeksowanie nie wymaga ciągłego crawlu.
Google może podjąć decyzję na podstawie wcześniejszych danych.
Skąd Google zna URL-e, których dziś nie odwiedza?
To kluczowe pytanie dla e-commerce.
Google poznaje URL-e nie tylko przez aktywne odwiedziny, ale także przez:
- historię wcześniejszych crawlów,
- linki wewnętrzne (także te już usunięte),
- linki zewnętrzne,
- stare sitemap.xml,
- parametry generowane przez JS,
- dawne konfiguracje filtrów i sortowania.
Jeśli adres kiedykolwiek istniał i był widoczny, Google go zapamiętuje.
Google nie zapomina URL-i tylko dlatego, że przestały być odwiedzane.
Co się dzieje, gdy blokujesz crawl robots.txt
To moment, w którym pojawia się największe nieporozumienie.
Gdy dodajesz w robots.txt:
Disallow: /*?page=
Disallow: /*?orderby=
Google:
- ❌ nie może wejść na URL,
- ❌ nie widzi aktualnej treści,
- ❌ nie widzi meta noindex,
- ❌ nie widzi canonicala.
Ale jednocześnie:
- ✅ pamięta, że URL istnieje,
- ✅ wie, że był kiedyś istotny,
- ✅ ma go w swoim systemie decyzyjnym.
Efekt:
URL jest znany Google, ale Google nie ma podstaw, żeby go usunąć.
Dlaczego to widać w Google Search Console (i myli)
W GSC widzisz skutki, nie przyczyny.
Statusy typu:
- „Zindeksowana bez treści”
- „Alternatywna strona z poprawnym canonicalem”
- „Odkryto – obecnie nie zaindeksowano”
nie oznaczają błędu.
Oznaczają, że:
- Google rozważa istnienie URL-a,
- ale nie ma wystarczającego sygnału, by go jednoznacznie odrzucić.
📌 GSC raportuje stan wiedzy Google, nie proces.
Dlaczego ten problem eskaluje tylko w dużych sklepach
W małym sklepie:
- kilkaset adresów,
- krótka historia,
- mało wariantów URL-i.
Google radzi sobie intuicyjnie.
W dużym e-commerce:
- tysiące kombinacji filtrów,
- paginacje,
- sortowania,
- kilka lat zmian.
Wtedy:
- liczba „znanych URL-i” rośnie szybciej niż liczba wartościowych stron,
- indeks staje się rozmyty,
- reakcja Google na zmiany jest coraz wolniejsza.
To nie jest kara.
To koszt systemowy skali.
Najczęstszy błąd: „skoro nie crawluje, to nie istnieje”
To założenie jest fałszywe.
Dla Google URL może istnieć decyzyjnie,
nawet jeśli nie jest odwiedzany.
Dlatego:
- brak crawlu ≠ brak wpływu,
- brak ruchu ≠ brak kosztu,
- brak widoczności ≠ brak obecności w systemie.
Co z tego wynika dla strategii SEO (bez recept)
Ten problem pokazuje jedną rzecz bardzo wyraźnie:
SEO w e-commerce to nie tylko optymalizacja stron,
ale zarządzanie tym, co Google uważa za część domeny.
Dopóki:
- Google musi „pamiętać” setki tysięcy URL-i,
- nie ma jasnych sygnałów, które z nich są bezwartościowe,
dopóty:
- wzrost będzie wolniejszy,
- skalowanie trudniejsze,
- efekty mniej przewidywalne.
Podsumowanie w jednym zdaniu
Google może indeksować i „pamiętać” URL-e, których nie crawluje, a w dużych sklepach ta pamięć ma realny koszt.
W dużych i złożonych serwisach e-commerce problemy z indeksacją, crawl budgetem i „niewidocznymi” URL-ami rzadko występują w oderwaniu od siebie.
Jeśli chcesz zobaczyć, jak te mechanizmy składają się w jeden problem systemowy — opisaliśmy to szerzej w ramach Operacyjnego Systemu Stabilizacji Widoczności (VIS-Shield).
