Google może indeksować URL-e, których nie crawluje

I dlaczego to ma realne znaczenie dla dużych sklepów e-commerce

Wstęp: pozorny paradoks, który wcale nim nie jest

W Google Search Console wielu właścicieli sklepów widzi statusy, które na pierwszy rzut oka wydają się sprzeczne:

  • „URL zindeksowany, ale nie zeskanowany”
  • „Wykryto – obecnie nie zaindeksowano”
  • „Strona znana Google, brak ostatniego crawlu”

Pojawia się naturalne pytanie:

Jak Google może coś indeksować, skoro tego nie crawluje?

Odpowiedź jest prosta, choć dla wielu niewygodna:
bo crawlowanie i indeksowanie to dwa różne procesy.


Crawl i index to nie to samo

Crawlowanie

To techniczna czynność:

  • robot odwiedza adres URL,
  • pobiera HTML,
  • analizuje treść i linki.

Indeksowanie

To decyzja systemowa:

  • czy URL ma sens,
  • jaką pełni rolę,
  • czy jest unikalny,
  • czy powinien pozostać „w pamięci” Google.

📌 Indeksowanie nie wymaga ciągłego crawlu.
Google może podjąć decyzję na podstawie wcześniejszych danych.


Skąd Google zna URL-e, których dziś nie odwiedza?

To kluczowe pytanie dla e-commerce.

Google poznaje URL-e nie tylko przez aktywne odwiedziny, ale także przez:

  • historię wcześniejszych crawlów,
  • linki wewnętrzne (także te już usunięte),
  • linki zewnętrzne,
  • stare sitemap.xml,
  • parametry generowane przez JS,
  • dawne konfiguracje filtrów i sortowania.

Jeśli adres kiedykolwiek istniał i był widoczny, Google go zapamiętuje.

Google nie zapomina URL-i tylko dlatego, że przestały być odwiedzane.


Co się dzieje, gdy blokujesz crawl robots.txt

To moment, w którym pojawia się największe nieporozumienie.

Gdy dodajesz w robots.txt:

Disallow: /*?page=
Disallow: /*?orderby=

Google:

  • ❌ nie może wejść na URL,
  • ❌ nie widzi aktualnej treści,
  • ❌ nie widzi meta noindex,
  • ❌ nie widzi canonicala.

Ale jednocześnie:

  • pamięta, że URL istnieje,
  • wie, że był kiedyś istotny,
  • ma go w swoim systemie decyzyjnym.

Efekt:

URL jest znany Google, ale Google nie ma podstaw, żeby go usunąć.


Dlaczego to widać w Google Search Console (i myli)

W GSC widzisz skutki, nie przyczyny.

Statusy typu:

  • „Zindeksowana bez treści”
  • „Alternatywna strona z poprawnym canonicalem”
  • „Odkryto – obecnie nie zaindeksowano”

nie oznaczają błędu.

Oznaczają, że:

  • Google rozważa istnienie URL-a,
  • ale nie ma wystarczającego sygnału, by go jednoznacznie odrzucić.

📌 GSC raportuje stan wiedzy Google, nie proces.


Dlaczego ten problem eskaluje tylko w dużych sklepach

W małym sklepie:

  • kilkaset adresów,
  • krótka historia,
  • mało wariantów URL-i.

Google radzi sobie intuicyjnie.

W dużym e-commerce:

  • tysiące kombinacji filtrów,
  • paginacje,
  • sortowania,
  • kilka lat zmian.

Wtedy:

  • liczba „znanych URL-i” rośnie szybciej niż liczba wartościowych stron,
  • indeks staje się rozmyty,
  • reakcja Google na zmiany jest coraz wolniejsza.

To nie jest kara.
To koszt systemowy skali.


Najczęstszy błąd: „skoro nie crawluje, to nie istnieje”

To założenie jest fałszywe.

Dla Google URL może istnieć decyzyjnie,
nawet jeśli nie jest odwiedzany.

Dlatego:

  • brak crawlu ≠ brak wpływu,
  • brak ruchu ≠ brak kosztu,
  • brak widoczności ≠ brak obecności w systemie.

Co z tego wynika dla strategii SEO (bez recept)

Ten problem pokazuje jedną rzecz bardzo wyraźnie:

SEO w e-commerce to nie tylko optymalizacja stron,
ale zarządzanie tym, co Google uważa za część domeny.

Dopóki:

  • Google musi „pamiętać” setki tysięcy URL-i,
  • nie ma jasnych sygnałów, które z nich są bezwartościowe,

dopóty:

  • wzrost będzie wolniejszy,
  • skalowanie trudniejsze,
  • efekty mniej przewidywalne.

Podsumowanie w jednym zdaniu

Google może indeksować i „pamiętać” URL-e, których nie crawluje, a w dużych sklepach ta pamięć ma realny koszt.

W dużych i złożonych serwisach e-commerce problemy z indeksacją, crawl budgetem i „niewidocznymi” URL-ami rzadko występują w oderwaniu od siebie.

Jeśli chcesz zobaczyć, jak te mechanizmy składają się w jeden problem systemowy — opisaliśmy to szerzej w ramach Operacyjnego Systemu Stabilizacji Widoczności (VIS-Shield).

Operacyjny System Stabilizacji Widoczności w Google