Strona internetowa, nawet bardzo prosta, to złożony mechanizm. Błędy i problemy techniczne to swego rodzaju chleb powszedni. Nie powinny przerażać, a raczej stanowić wyzwanie do rozwiązania. Jednak niekiedy do ich rozpoznania nie wystarczy oko użytkownika lub właściciela strony. Czasem nie znajdzie ich nawet doświadczony deweloper. W takich sytuacjach najlepszym rozwiązaniem jest spojrzenie na serwis “oczami” przeglądarki.

Gdy na pierwszy rzut oka wszystko działa

Często się zdarza, zwłaszcza gdy witryna jest nowa, że niektóre jej elementy nie uruchamiają się, a część linków prowadzi do nieistniejących adresów. Nie jest to jednak zauważalne od razu, a dopiero po dłuższym obcowaniu ze stroną. Pamiętaj, że nawet jeśli z punktu widzenia użytkownika wszystko działa poprawnie, to w serwisie mogą pojawiać się błędy, które może nie wpływają na odbiorcę, ale utrudniają pracę botom wyszukiwarki. Rezultatem tego wszystkiego jest spowolnienie, a w niektórych sytuacjach uniemożliwienie indeksacji. Dalszym, najważniejszym dla właściciela strony skutkiem, jest osłabienie jej widoczności w wynikach wyszukiwania – części podstron brakuje, pozostałe znajdują się na niskich pozycjach. W takiej sytuacji nie pomoże nawet najlepsza optymalizacja treściowa i zaawansowany linkbuilding. 

Problem wygląda na bardzo złożony. Intuicyjnie więc zaczynasz szukać zaawansowanego narzędzia, które sprawdzi całą Twoją stronę w poszukiwaniu różnych błędów. To bardzo dobry pomysł, ale nie zawsze osiągalny finansowo. Co więcej, takie narzędzie nie zawsze wykryje wszystkie problemy, bo chociaż naśladuje roboty, działa trochę inaczej. Dlatego też warto sięgnąć po darmowe rozwiązanie, które każdy użytkownik strony może wykorzystać – Google Search Console.

Google Search Console – narzędzie dla każdego

W Google Search Console znajdziesz wiele interesujących danych dotyczących ruchu  organicznego – wyświetlenia w Google i kliknięcia do strony z podziałem m.in. na adresy, słowa kluczowe, urządzenia. Jednak najważniejszym elementem tego narzędzia są statystyki związane z indeksowaniem – czyli to, w jaki sposób Google “widzi” Twój serwis.

W tym artykule skoncentruję się na sekcji Indeksowanie:

Jej kluczowym elementem jest raport Indeksowanie stron, który prezentuje utrudnienia i błędy napotkane przez boty Google podczas zapoznawania się z Twoim serwisem. Stosunkowo niedawno przeszedł on dość dużą modyfikację. Wcześniej był podzielony na 4 zakładki – błędy, ostrzeżenia, strony indeksowane prawidłowo i wykluczone. Intuicyjnie więc każdy chciał eliminować błędy wyświetlane na czerwono, ostrzeżenia miały nieco niższy priorytet, a pozostałe zakładki często były całkowicie pomijane. Obecnie widoczne są dwie karty – Nie zindeksowano oraz Zindeksowano:

Wydaje się więc, że Google skomplikowało użytkownikom życie – nie wskazuje już jednoznacznie błędów do eliminacji. Można z tym polemizować, ale to właśnie wcześniejszy wygląd mógł być mylący, ponieważ wiele “błędów” w procesie SEO było świadomą decyzją, celowym ograniczeniem indeksowania części zasobów, aby przekierować uwagę botów na te istotne. Czerwone komunikaty w Google Search Console budziły jednak wątpliwości, czy strategia jest słuszna.

Inne elementy sekcji Indeksowanie to:

  • Raport Indeksowanie filmów – pokazujący rozpoznane na stronie filmy i postęp ich indeksacji.
  • Mapy witryn – panel umożliwiający dodanie mapy strony w formacie .xml do narzędzia.
  • Usunięcia – panel pozwalający na czasowe ukrycie zindeksowanych podstron.

Pamiętaj o mapie witryny

Jedną z pierwszych czynności, którą warto wykonać po uruchomieniu dla swojej strony Google Search Console, jest dodanie w nim linku do mapy witryny.

Nie wpłynie to na proces indeksacji witryny, ale pozwoli na śledzenie raportu dotyczącego indeksacji w odniesieniu do mapy strony, w założeniu zawierającej tylko te adresy, na których zindeksowaniu Ci zależy. Ułatwia to więc śledzenie postępów działań SEO. 

Pamiętaj jednak, by nie ograniczać się tylko do sprawdzania stanu indeksowania adresów z mapy (zaznaczony poniżej kolorem czerwonym), a obserwować przede wszystkim ogólny status serwisu (oznaczony kolorem zielonym). Będą się one między sobą różniły, zwłaszcza dla bardziej rozbudowanych stron internetowych.

Błędy i problemy związane z indeksacją

Kluczowym elementem raportu Indeksowanie stron jest sekcja poniżej wykresu – Dlaczego strony nie są zindeksowane. Prezentuje ona listę przyczyn – błędów, problemów i innych czynników, które powodują, że podstrony nie zostały zindeksowane. W każdy element listy możesz kliknąć – spowoduje to wyświetlenie raportu szczegółowego w postaci listy przykładowych podstron dotkniętych danym problemem. Pamiętaj, że będą to przykłady, a nie pełna lista adresów URL. Tę możesz wygenerować jedynie korzystając z zaawansowanych crawlerów. 

Google Search Console wyświetla maksymalnie 1 000 przykładów. W przypadku bardzo rozbudowanych serwisów błędy mogą powtarzać się na kilku, a nawet kilkunastu tysiącach podstron. Mimo wszystko, wspomniany tysiąc często wystarcza, by precyzyjnie rozpoznać problem.

Wypracuj sobie nawyk śledzenia trendów w raporcie, zwłaszcza w momentach, gdy wprowadzasz zmiany na stronie. Dynamiczny przyrost liczby niezindeksowanych podstron powinien wzbudzić Twoją czujność i zachęcić do analizy raportów szczegółowych.

Na jakie elementy warto zwrócić uwagę?

Ograniczona lub zablokowana indeksacja

Jeśli w raporcie podstron niezindeksowanych zobaczysz przyczynę URL zablokowany przez plik robots.txt lub URL zawiera tag „noindex”, oznacza to, że w strukturze strony znajdują się adresy, do których ograniczono lub zablokowano dostęp botom Google. 

Pierwsza z przyczyn oznacza, że w pliku robots.txt znajdują się sugestie, by nie indeksować wymienionych w raporcie adresów URL. Wejdź pod adres <twojadomena>/robots.txt i zweryfikuj plik.

Druga wymieniona przyczyna wskazuje, że w kodzie HTML lub odpowiedzi HTTP uwzględnionych w raporcie adresów URL znajduje się dyrektywa “noindex”, jednoznacznie blokująca dostęp do niej botom wyszukiwarki.

W obu sytuacjach należy zweryfikować raporty szczegółowe pod kątem obecności w nich adresów URL, na których indeksacji nam zależy. Indeksację niektórych adresów blokuje się celowo – np. panelu logowania, panelu użytkownika, polityki prywatności czy koszyka. Ich obecność w raporcie nie jest błędem. Jeżeli jednak znajdziesz tam podstrony produktów, usług, kategorii czy wpisy blogowe, warto zweryfikować, czy ich indeksacja powinna być ograniczana.

Błędy 5xx

Jeśli na liście przyczyn znajdziesz komunikat Błąd serwera (5xx) – koniecznie przyjrzyj się raportowi szczegółowemu. Błędy 5xx w ogólnym ujęciu oznaczają błędy po stronie serwera. Nie muszą one jednak wynikać bezpośrednio z problemów z hostingiem – zwłaszcza w sytuacji, gdy część strony działa, a jedynie wybrane adresy generują taki błąd. Potencjalnych źródeł jest wiele: błędy skryptów umieszczonych na konkretnych podstronach, nadmiar zapytań i przeciążenie z tego wynikające czy niepoprawne lub nieobsługiwane przez serwer zapytania. Gdy się pojawią, oczywiście możesz skontaktować się z hostingiem w celu ustalenia przyczyny błędów, ale przygotuj się również na konieczność dogłębnej weryfikacji kodu strony.

Błędy 404 i pozorne 404

Przyczyna Nie znaleziono (404) oznacza, że podstrony wymienione w raporcie szczegółowym generują błąd 404 – nie znaleziono. Istnieją 3 potencjalne jego przyczyny:

  • zawartość dostępną pod wskazanym adresem przeniesiono pod inny adres,
  • usunięto zawartość dostępną pod wskazanym adresem,
  • pod danym adresem nigdy nie było żadnej zawartości, ale przez przypadek utworzono błędny link.

Przeniesienie zawartości nie zawsze jest umyślne – w niektórych systemach CMS zmiana nazwy produktu lub tytułu wpisu blogowego wpływa na kształt adresu URL. Jeśli do tego dojdzie – nie ważne, czy przypadkiem, czy świadomie – utwórz przekierowanie 301 z dotychczasowego adresu na nowy, aby nie utracić wypracowanych efektów SEO.

Jeśli zawartość usunięto umyślnie, istnieją dwa rozwiązania. Pierwszym jest utworzenie przekierowania 301 do najbliższego tematycznie aktywnego adresu URL. Przykładowo, usuwasz niesprzedawany już produkt, ale w jego miejsce w ofercie pojawił się nowy. Drugim – pozostawienie błędu 404, jeśli nie istnieje żadna wartościowa, zbliżona tematycznie zawartość. Będzie to jasna sugestia, że nie chcesz, by Google kojarzyło Twoją stronę z daną treścią. Jeżeli jednak doszło do przypadkowego usunięcia zawartości danego adresu URL, warto ją jak najszybciej przywrócić.

Przypadek trzeci – przypadkowe utworzenie błędnego linku – jest najbardziej złożony. Błędne odnośniki mogą pojawić się zarówno na Twojej stronie, jak i poza nią. Aby zbadać pierwszą kwestię, warto skorzystać z crawlera, który zbada wszystkie linki wewnętrzne w Twoim serwisie. Linki przychodzące prowadzące do adresów generujących błąd 404 możesz zweryfikować np. w narzędziu Majestic – Uszkodzone strony:

Jeżeli linki do strony z błędem 404 są wartościowe, rozważ utworzenie przekierowania 301 na poprawny adres. Jeśli jednak są spamem – pozostaw błąd 404.

Pozorny błąd 404 oznacza natomiast, że dany adres co prawda nie generuje błędu HTTP 404, ale znajduje się pod nim komunikat o błędzie lub pusta strona. W takiej sytuacji również warto zweryfikować, czy przypadkiem lub celowo czegoś nie usunięto i podjąć odpowiednie kroki naprawcze. 

Niektóre strony internetowe ze względów technicznych nie generują odpowiedzi HTTP 404, a jedynie komunikat o braku zawartości. Chcąc uniknąć niejasności z tym związanych i problemów z pozornymi błędami, warto zadbać o odpowiednią konfigurację CMS lub serwera, aby w takiej sytuacji komunikowany był kod 404.

Przekierowania

Przyczyna Strona zawierająca przekierowanie sugeruje, że pod danym adresem URL bot natrafił na przekierowanie (np. 301), które przeniosło go pod inny adres URL. Taki adres nie będzie indeksowany, ale wcale nie oznacza to, że URL docelowy zindeksowany zostanie – będzie on poddany osobnej weryfikacji.

Raport ten warto sprawdzać pod kątem obecności adresów URL, które nie powinny zostać przekierowane. Zdarzają się sytuacje (zwłaszcza przy okazji migracji serwisów), gdy reguły przekierowań zadziałają niezgodnie z założeniami ich twórców, przez co wartościowa treść zostaje pominięta przez boty Google. Jeśli zauważysz adres, w przypadku którego masz pewność, że powinien być dostępny, usuń przekierowania i zgłoś go do ponownej indeksacji.

Adresy kanoniczne

Z obecnością adresów kanonicznych i wersji alternatywnych URL związane jest kilka przyczyn braku indeksacji podstron:

  • Alternatywna strona zawierająca prawidłowy tag strony kanonicznej
  • Duplikat, użytkownik nie oznaczył strony kanonicznej
  • Duplikat, wyszukiwarka Google wybrała inną stronę kanoniczną niż użytkownik

W raportach im poświęconych bardzo często znajdziesz skomplikowane, nieczytelne adresy URL, związane np. z sortowaniem czy filtrami. Często stanowią one zbędne duplikaty, które nie powinny być indeksowane. Nawet jeśli listy są bardzo długie, nie musi to oznaczać problemów ze stroną, a raczej poprawne działanie konfiguracji adresów kanonicznych. Jeśli jednak zauważysz w raporcie proste adresy URL, sugerujące, że masz do czynienia z podstroną produktu, usługi, kategorią czy wpisem blogowym – koniecznie sprawdź poprawność ustawienia dla nich adresów kanonicznych. Pamiętaj, że canonical to sugestia, która może zostać zignorowana przez Google – tego rodzaju “decyzje” zobaczysz w ostatnim ze wskazanych powyżej raportów. 

Inne przyczyny braku indeksacji

Powyższe przykłady nie wyczerpują listy przyczyn braku indeksacji raportowanych przez Google Search Console. W swoim raporcie możesz również znaleźć pozycje tj.:

  • Strona zeskanowana, ale jeszcze niezindeksowana
  • Strona wykryta – obecnie niezindeksowana

W obu przypadkach Google wie o istnieniu adresów. Z różnych przyczyn jednak ich jeszcze nie zindeksowało. W praktyce rozróżnianie tych dwóch komunikatów nie ma większego sensu, weryfikuj jednak co pewien czas, czy lista nie wydłuża się nadmiernie, a także czy przynajmniej część adresów z czasem jest indeksowana. Często znajdziesz na niej również różnego rodzaju zbędne adresy, które nigdy nie powinny być indeksowane, jak np. RSS feed w WordPressie, adresy techniczne wtyczek itp. Świadomość ich obecności w systemie jest bardzo ważna, aby przypadkiem nie zużywały crawl budgetu. Google Search Console często jest jedynym źródłem wiedzy o istnieniu adresów URL tego typu.

Jeżeli jednak istotne dla Ciebie adresy widnieją na liście bardzo długo, koniecznie sprawdź, czy nie generują one błędów i są poprawnie podlinkowane w strukturze strony. Jakiekolwiek, nawet przejściowe ograniczenie dostępu dla botów może bowiem przekładać się na ich niskie zainteresowanie zawartością naszej stron.

Inne przyczyny to np. obecność błędów 401, 403 czy pętli przekierowań. Są one rzadko spotykane, a jeśli wystąpią, należy sprawdzić adresy URL z nimi powiązane i podjąć decyzje o eliminacji lub zachowaniu ograniczeń dostępu, a w przypadku pętli przekierowań – ich naprawie.

Sprawdź, co jest indeksowane

Zielony kolor raportu stron zindeksowanych może sugerować, że wszystko jest w porządku i nawet nie trzeba go weryfikować. Warto jednak od czasu do czasu sprawdzić, jakie adresy URL są poprawnie indeksowane. Niepożądane treści, duplikaty lub zasoby techniczne to elementy, które zbędnie zużywają cenny crawl budget. Indeksację niektórych elementów warto wyłączyć lub ograniczyć, oczywiście z zachowaniem szczególnej ostrożności. Pamiętaj, że jeśli zdecydujesz się na wprowadzenie przekierowań, adresów kanonicznych, blokady indeksacji lub usunięcie treści, dany adres URL pojawi się w raporcie Nie zindeksowano.

Zgłaszaj poprawki

Jeśli dokonasz jakichkolwiek zmian lub napraw, pamiętaj, aby skorzystać z przycisku Sprawdź poprawkę obecnego na każdym raporcie szczegółowym. 

Usunięcia – wsparcie w sytuacjach kryzysowych

Sekcja Usunięcia to nie raport, a panel, przy pomocy którego możesz poprosić o czasowe usunięcie treści z wyszukiwarki Google. Nie należy go używać do wyindeksowywania zasobów – do tego służy dyrektywa “noindex” w kodzie HTML lub odpowiedzi HTTP. 

Jeśli jednak doszło do rażącej pomyłki lub snippet w wynikach wyszukiwania ujawnia dane, które nie powinny być łatwo dostępne, a czas gra dużą rolę, możesz ukryć dany URL. Wystarczy stworzyć nową prośbę, a po kilku-kilkudziesięciu godzinach adres zniknie z wyników wyszukiwania. Pamiętaj jednak, że jeśli nie wyłączysz jego indeksacji, może bardzo szybko powrócić.

Indeksowanie i wiele więcej

Warto samodzielnie przejrzeć funkcje dostępne w Google Search Console. Raporty ruchu, stanu czy aktywności botów wyszukiwarki pomogą w wyciąganiu wniosków przydatnych w kampaniach SEO. Nie wszystko jednak podawane jest “na tacy” – niektóre komunikaty bywają niezrozumiałe, a raportowane problemy są efektem głębiej ukrytych błędów. Dlatego też od czasu do czasu warto skorzystać z bardziej zaawansowanych narzędzi lub wsparcia profesjonalistów.


Autor artykułu

Bartłomiej Tomczyk – SEO & Content Marketing Specialist w NAOS Poland

W codziennej pracy łączę działania SEO z rozwojem wysokiej jakości contentu na stronach internetowych. Wierzę, że aby odnieść sukces w obecnych realiach świata wyszukiwarek, warto poświęcić czas dogłębnej analizie technicznej i treściowej oraz, co równie ważne, zrozumieniu potrzeb Klienta. Uwielbiam dzielić się wiedzą – zwłaszcza na poziomie podstawowym – gdyż jeśli budować, to tylko na solidnym fundamencie.

Leave a Comment

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>
*