Logi serwera przydają się działowi IT, ale także SEOwcom. Informacje z Google Search Console z zakładki „Stan” są pomocne, ale nie odpowiadają na wątpliwości związane z częstotliwością odwiedzania danych podstron czy dystrybucją budżetu crawlowania. Warto wejść o poziom wyżej i sprawdzać, jak naprawdę Googlebot odwiedza naszą domenę. Szczególnie polecam taką analizę do serwisów rozbudowanych, o dużej głębokości, a także jeśli zauważamy problem z indeksacją strony, chociażby na etapie wstępnych wniosków z Google Search Console.

Na co zwrócić uwagę, analizując logi serwera?

Ta lista nie wyczerpuje wachlarza możliwości, które daje nam analiza logów serwera. Jest to jednak kilka punktów, na które warto spojrzeć niezależnie od tego, jakim serwisem się zajmujemy. Polecam przygotować sobie własną checklistę, szerszą od tej, zawierającą elementy dopasowane do problemów naszej domeny.

1) Status adresów: 404

Błędy 404 to zmora każdego SEOwca. Jeśli pojawiają się w logach serwera, to warto się tym zainteresować.

Co należy z nimi zrobić? Oczywiście wdrożyć odpowiednie przekierowania. Dla pojedynczych adresów nie powinno być to problematyczne. Jednak przy dużej skali błędów 404 należy zastanowić się, czy nie mamy do czynienia z systematycznym błędem. Warto wówczas poszukać i rozwiązać przyczynę problemu, zamiast reagować jedynie na jego skutki. Nie chcemy przecież przy kolejnej analizie odkryć, że błędów przybyło.

Dodatkowo, zwłaszcza jeśli odpytań adresów 404 jest dużo, sprawdźmy, czy nie mamy zewnętrznych broken linków z silnych serwisów albo linków wewnętrznych prowadzących do 404. Wtedy przekierowania są już więcej niż konieczne, a wewnętrzne broken linki powinny być poprawione na adresy odpowiadające 200.

2) Przekierowane adresy

Przekierowania do adresów ze statusem 404, łańcuchy przekierowań i pętle przekierowań marnują zasoby Googlebota. Zamiast crawlować i indeksować wartościowe adresy, robot zatrzymuje się przy takich przypadkach.

Takie przypadki powinny zostać poprawione na pojedyncze, bezpośrednie przekierowania. Już to zrobi dużą różnicę, jeśli mieliśmy do czynienia z dużą skalą problemu.

Kolejnym krokiem może być zmiana linków wewnętrznych na docelowe adresy czy usunięcie problematycznych adresów z sitemap.

Poza takimi przypadkami mamy także prawidłowe przekierowania – te pojedyncze, gdzie adres docelowy odpowiada 200. Czy powinny nas niepokoić? Raczej nie – sami je rekomendujemy i wdrażamy, ale jeśli jest ich dużo lub pochodzą z dziwnych adresów, to warto zweryfikować linkowanie wewnętrzne, sitemapy, a także strategię linkowania z zewnątrz. Być może linkowana jest wersja http, mimo że od kilku lat strona działa pod https?

Jeśli pojawiają się także odpowiedzi serwera 302, to upewnijmy się, że jest to celowo wdrożone rozwiązanie. Przekierowania 302 są polecane tylko w niektórych przypadkach i w praktyce są rzadko stosowane.  

3) Częste odwiedzanie nieistotnych adresów

To, że Googlebot odwiedza adresy ze statusem 200, jeszcze nie znaczy, że wszystko idzie po naszej myśli.

Polecam zwrócić uwagę na adresy URL z parametrami czy adresy stron testowych. Zazwyczaj nie zależy nam na tym, by były często crawlowane.

Możemy mieć do czynienia z adresami, które są istotne z punktu widzenia informacji na nich zawartych, ale nie są kluczowe w strategii SEO, a równocześnie są często odwiedzane przez roboty, kosztem ważnych artykułów czy stron produktowych. Wtedy warto zweryfikować, czy nie mają one wewnętrznych linków site wide.

Często jednak spotkamy adresy, które zupełnie nie powinny być crawlowane. Analiza logów jest bardzo przydatna do wyłapania takich przypadków. Rozwiązaniem dla adresów z parametrami mogą być reguły parametrów, które ustawiamy w Google Search Console. Inną opcją, tutaj już dla wszystkich adresów, a nie tylko tych z parametrem, jest oczywiście blokada w pliku robots.txt.

(Kliknij aby powiększyć)

4) Zmiany w czasie

Dużą wartością, jaką daje analiza logów serwera jest możliwość porównania aktywności w poszczególnych tygodniach czy miesiącach. Jeśli na bazie wniosków z analizy w styczniu wdrażałeś większe zmiany na stronie, sprawdź w logach z lutego, czy wpłynęło to na crawlowanie serwisu. Jeśli zmieniłeś regułę dotyczącą parametru w GSC – sprawdź, czy to pomogło, a może potrzebna jest jednak blokada w pliku robots.txt?

Dodałeś boksy z polecanymi produktami na stronach produktów? Porównaj miesiąc do miesiąca, czy Googlebot częściej odwiedza teraz strony produktowe.

A może URL z potencjałem SEO został dodany do menu lub stopki? Czy to wpłynęło na częstotliwość jego odwiedzania? Testuj i sprawdzaj rezultaty!

5) Stopień pokrycia

Przy analizie logów serwera warto skupić się także na ilościowej analizie.

Ile podstron zostało choć raz odpytanych, a jaka jest całkowita liczba istniejących podstron w danym serwisie? Te wartości warto zestawić także z liczbą podstron, które dają ruch organiczny, jak również z liczbą podstron naszej domeny, które znajdują się w indeksie Google.

Najlepiej analizować to procentowo, także w podziale na typy podstron czy sekcje serwisu. Jeśli to strony kategorii są dla nas kluczowe z punktu widzenia SEO oraz sprzedaży, zadajmy sobie pytanie, czy są crawlowane odpowiednio często.

Całościowy pogląd na sytuację może dać porównanie dwóch zestawień: podziału serwisu procentowo na typy podstron oraz podziału budżetu crawlowania na podstawie odpytań danych typów podstron. Wtedy zobaczymy strukturę serwisu oraz dystrybucję zasobów Googlebota.

A jak to optymalizować? Pomocna będzie odpowiednio przemyślana strategia linkowania wewnętrznego i zewnętrznego, dyrektywy z pliku robots.txt, zmiany w sitemapach i wiele więcej. Wszystko zależy od konkretnego problemu czy obszaru do optymalizacji.

6) Mapy witryn a crawlowanie

Polecam także poświęcić chwilę na porównanie zawartości sitemap z przecrawlowanymi adresami. Być może pojawią się ważne adresy, których zabrakło w sitemapach. Porównanie w drugą stronę może za to pokazać nam, które URLe z sitemap nie są crawlowane.

Przy okazji warto upewnić się, że do Google Search Console mamy dodane wszystkie istniejące sitemapy i możemy tam obserwować, czy są one odczytywane prawidłowo.

7) Inne anomalie

Zwróć uwagę, czy Googlebot nie odwiedza np. stron z paginacji, które nie istnieją, bo linki do kolejnych podstron są dodane, a nie zawierają już produktów? Niekoniecznie muszą odpowiadać 404.

Być może wśród listy przecrawlowanych adresów pojawią się błędne URLe, np. z podwójnie doklejoną nazwą domeny czy podwójnym znakiem „/”, które powstały przez błędnie dodane linki w kodzie strony.

Krótko mówiąc — sprawdzaj wszystko, co wyda Ci się dziwne. W tym właśnie może pomóc Ci analiza logów serwera.

Jeśli masz problem z niską aktywnością Googlebota, sprawdź, czy nikt nie ustawił tutaj limitu crawlowania dla danej domeny w Google Search Console. Jeśli nad projektem pracuje wiele osób, możesz nawet o tym nie wiedzieć. Warto się upewnić, że mamy tam zaznaczoną domyślną opcję. 

Równocześnie pamiętaj, że na aktywność Googlebota wpływa wiele czynników, takich jak chociażby jakość contentu czy szybkość strony, więc nie jest to coś, co da się szybko zmienić. Takie zmiany wymagają czasu i przemyślanej strategii.

Jednak analiza logów serwera może pomóc Ci lepiej zaplanować priorytetowe działania SEO.


Artykuł opracowała:

Weronika Sochacka z MBridge — Marketing Experts, gdzie w dziale SEO zajmuje się m.in. optymalizacją techniczną stron. Studiuje e-biznes w Szkole Głównej Handlowej w Warszawie. Prywatnie kocha koty, szczególnie jej własne.