Znaczenie danych w marketingu online 

Dane od lat napędzały performance marketing. To dzięki nim specjaliści od AdWords  prowadzili zaawansowane analizy i skutecznie ustawiali stawki w licytacji. Dzięki danym i precyzyjnemu ustawieniu kampanii mieliśmy realny wpływ na rynek, świadomie konkurowaliśmy i skalowaliśmy biznesy. Procesy prowadziliśmy ręcznie lub automatycznie, wykorzystując skrypty JS, jednak zawsze towarzyszyło nam poczucie pełnej kontroli. Znaliśmy naszego klienta, a narzędzia analityczne od Facebooka i Google dostarczały wglądu w jego zachowania, preferencje, ukryte i jawne potrzeby. Choć – w odniesieniu do Facebooka – dane behawioralne z Universal Analytics były mniej dokładne, to nadal umożliwiały tworzenie person i analizę z akceptowalną skutecznością. Jakość danych w Google Analytics pozwalała na dokładne modelowanie atrybucji kampanii perfo, a my, świadomi wartości tych informacji, optymalnie lokowaliśmy budżety. W myśl idei „Data Driven” – dane mówiły same za siebie, a my ich słuchaliśmy.

Dziś jednak złota era performance marketingu wydaje się mijać. Dlaczego? Być może to efekt przemian mikro- i makroekonomicznych, społecznych i technicznych. Przecież na świecie niewyobrażalnie szybko rośnie ilość informacji. Powinniśmy się raczej cieszyć i czerpać z tego profity. Cała technologia związana z pracą na danych jest tańsza i bardziej dostępna. Kiedyś drogie narzędzia chmurowe, hurtownie danych czy AI stały się dostępne dla dowolnej wielkości biznesu. Czy w takim razie nasze kampanie również są skuteczniejsze? 

Ile danych faktycznie mamy?

Podczas pracy na danych w Google Analytics zestawiam je z wynikami w narzędziach reklamowych takich jak Google Ads, Facebook Ads czy GSC. Rozbieżności między tymi systemami są powszechne i na ogół mieszczą się w akceptowalnych granicach. Zazwyczaj wynikają one z różnych metod przypisywania konwersji czy różnic w definicji kliknięć i sesji. Taki stan pojmowania rzeczy zaczął się jednak u mnie zmieniać. Zacząłem podważać te od lat utwierdzone przekonania. 

Zaniepokoił mnie bowiem fakt, że różnice te z roku na rok się pogłębiają. Rozpoczęła się wówczas moja kilkuletnia walka o przywrócenie utraconego ruchu. To była mrówcza praca. Eksperymentowałem z różnymi technologiami, narzędziami i podejściami. W efekcie moich prac udawało mi się zwiększyć liczbę sesji od 100 do ponad 200%. Co więcej, wyniki zrównywały się ze statystykami odwiedzin po stronie statystyk serwera. Skąd wynikają te różnice? Dzisiaj podzielę się z Wami swoją wiedzą. 

Dlaczego dane w narzędziach analitycznych są wybrakowane?

Zacznijmy od identyfikacji źródeł problemów. Zauważyliśmy, że narzędzia analityczne mierzą już tylko część tego, co kiedyś. Skąd więc te braki? Przyczyny są głęboko osadzone w zmianach technologicznych i społecznych, a do głównych „winowajców” wybrakowanych danych należą:

  1. Ustawienia prywatności w przeglądarkach i systemach operacyjnych
    Popularne przeglądarki i systemy operacyjne coraz skuteczniej chronią prywatność użytkowników. Funkcje takie jak Intelligent Tracking Prevention (ITP) od Apple czy domyślne blokowanie cookies w Firefoxie i podobne rozwiązania u innych gigantów stają się standardem. Blokują one nie tylko śledzenie w narzędziach reklamy, ale również narzędzia analityczne czy całe GTM. Prowadzi to do utraty danych nawet bez udziału adblockerów.
  2. Systemy blokujące reklamy
    Popularność adblocków to prawdziwe wyzwanie dla marketerów. Blokery nie tylko eliminują widoczność reklam, ale też skutecznie ograniczają funkcje analityczne, wyłączając skrypty śledzące czy całe GTM. Użytkownicy coraz częściej korzystają z tych narzędzi, a Polacy na tle całego świata są tu liderem. Szacuje się, że ponad połowa użytkowników ma zainstalowane tego typu blokady na swoich urządzeniach. 
  3. Platformy zarządzania zgodami (CMP) i tryb podstawowy cookies
    W odpowiedzi na regulacje prywatności (RODO, GDPR) strony internetowe implementują platformy CMP. Niestety te zainstalowane w trybie podstawowym mogą ograniczyć zbieranie informacji. Co warte zauważenia, skrypty CMP instalowane na GTM często są blokowane przez ustawienia prywatności (pkt 1) czy AdBlocki (pkt 2) i mogą nie wyświetlić się użytkownikowi. 
  4. Problemy techniczne przy wdrażaniu narzędzi analitycznych
    Błędy w tagach, kolizje skryptów czy niestosowanie się do wytycznych Google to kolejne przyczyny utraty danych. 

Podczas gdy mamy ograniczony wpływ na ustawienia prywatności i blokery reklam, mamy realne możliwości, by poprawić dane poprzez właściwe wdrożenie technologii analitycznych i CMP. Rozwiązaniem naszych problemów jest zastosowanie bardziej zaawansowanych technologii, które pozwolą na odkrycie zablokowanego ruchu. 

Czy potrzebuję wszystkich danych?

Jednak czy warto walczyć o każdą sesję w GA4? W statystyce od dawna wiadomo, że ilość nie świadczy o jakości. W badaniach nie musimy analizować całej populacji, aby wyciągnąć trafne i wartościowe wnioski. Wystarczy więc mała próba, o ile ta jest reprezentatywna – jest to warunek konieczny. W teorii wybrakowane dane w GA4 mogą być ok i nie zawsze trzeba się tym przejmować. Warto jednak pamiętać, że takie podejście ma swoje granice, a w niektórych sytuacjach pełniejszy obraz jest niezbędny – i to właśnie podkreślam w dalszej części artykułu.

Jak przechytrzyć AdBlocki i poprawić jakość danych w marketingu

Przejdźmy do sedna – jak odzyskać utracony ruch? Poznaj 4 metody i moje wnioski z wielu przeprowadzonych wdrożeń. 

  1. Server-Side Google Tag Manager (sGTM)
    W 2019 roku, gdy zaczynałem swoje prace nad odzyskiwaniem utraconego ruchu, rynek był ubogi w technologie do śledzenia po stronie serwera. Jednym z pierwszych było sGTM (Google Tag Manager Server Side), które początkowo wydawało się idealnym rozwiązaniem do tego celu. Wdrożenie sGTM szybko okazało się kosztowne i nieskuteczne. Liczba zdarzeń w GA4 nie tylko nie wzrosła – wręcz spadła o kilka procent. Pomimo swojego szerokiego zastosowania nie jest to rozwiązanie dedykowane do odzyskiwania ruchu. Sprawdzi się jako element uzupełniający stack technologiczno-analityczny. Do rzeczywistego odzyskania danych wymagałby napisania własnego klienta i zaawansowanych konfiguracji, co w praktyce oznacza, że dla wielu firm będzie to zbyt czasochłonne i drogie.
  2. Backona Clever Analytics
    Kolejnym testowanym przeze mnie narzędziem było Clever Analytics od Backona. Narzędzie wyróżnia się łatwością wdrożenia i to bezpośrednio w GTM. Wyniki odzyskiwanego ruchu są zadowalające i wynoszą średnio od 20 do 30%. Choć wynik jest zauważalny, Clever Analytics sprawdza się raczej jako opcja dodatkowa.
  3. CloudFlare CDN i Zaraz
    Największą rewolucję w jakości danych przyniosły prace nad aplikacjami w  CloudFlare. Dzięki zmianie ścieżki wywoływania skryptów, dedykowanym datalayerom oraz zachowaniu tych samych DNS dla domeny CloudFlare umożliwia śledzenie ruchu z dokładnością bliską rzeczywistej liczbie odwiedzających – niemal identycznej z danymi z serwera. Narzędzie jest dostępne do testowania bezpłatnie i stanowi szczególnie atrakcyjną opcję dla małych firm, które mogą zmieścić się w bezpłatnych limitach. Mocno rekomenduję to rozwiązanie. Wyniki są bezkonkurencyjne, nie pozostawiają żadnych złudzeń. Wzrosty często przekraczają 100%, nierzadko 200%.
  4. Stape
    Ostatnim testowanym rozwiązaniem była aplikacja Stape, osiągająca zbliżone wyniki do CloudFlare. W praktyce jednak Stape często okazuje się droższy i bardziej czasochłonny we wdrożeniu. Niemniej,w przypadku niektórych kampanii pozwala na zbliżoną efektywność do CloudFlare.

Podsumowując, w moich testach to CloudFlare i Stape okazały się najskuteczniejszymi narzędziami. Jeśli więc chcesz odzyskać utraconych ruch, sprawdź, co oferuje CloudFlare lub Stape. 

Po co nam więcej danych w narzędziach analitycznych?

Czy posiadanie większej ilości danych w narzędziach analitycznych jest kluczowe dla skuteczniejszego zarządzania kampaniami? Przecież statystycy powiedzą, że wystarczy tylko próbka danych. Zacznijmy od tego, że dodatkowe dane umożliwiają przede wszystkim na lepsze targetowanie i rozszerzenie zasięgu w remarketingu. Natomiast więcej sygnałów dla narzędzi optymalizacyjnych opartych na AI pozwala na zwiększenie ich efektywności. Większa próba wpływa na mniejszy błąd statystyczny, a w niektórych przypadkach – na reprezentatywność.

Podczas prac nad analityką server-side (SST) zauważyłem, że korzyści wynikają nie tylko z samego wzrostu informacji, lecz przede wszystkim z możliwości analizy odzyskanego ruchu. Zdarzało się tak, że odzysk ruchu przekraczał 150%, co jednocześnie prowadziło do proporcjonalnego wzrostu we wszystkich kluczowych wskaźnikach (czyli wszystkie urządzenia, źródła, medium itd. wzrastały o ok. 150% z niewielkimi odchyleniami od tej wartości). Jednak nie było tak zawsze. Część wdrożeń cechowały duże, a niekiedy olbrzymie anomalie – na przykład ruch z desktopu wzrastał o 300%, a źródła z RTB i display o 800%. Czasem pojawiały się także nowe, niespodziewane źródła ruchu czy technologie np. ruch ze Smart TV. 

Analizując te przypadki, doszedłem do dwóch kluczowych wniosków. Witryny prowadzące intensywne działania wielokanałowe – obejmujące różnorodne formy inbound i display – mogą mieć problemy z reprezentatywnością danych. W takich witrynach występowały największe anomalie (w odniesieniu do średniego odzyskanego ruchu). Z tego wniosek, że w takich sytuacjach zwiększenie liczby danych podnosi jakość całej próby. Natomiast witryny, które bazowały na tradycyjnych kampaniach SEM, zwykle nie miały tych problemów. W takich przypadkach nawet wybrakowane dane były jednorodne i w większym stopniu nadające się do dalszej analizy.

Czym jest reprezentatywność?

Przyjrzyjmy się jeszcze bliżej pojęciu reprezentatywności. Przecież nie każdy jest statystykiem. Mówiąc najprościej, reprezentatywna próba to taka, która odzwierciedla całość populacji, będąc jednocześnie jednorodną i losowo dobraną. Najlepszym przykładem jest sondaż przedwyborczy. Zróbmy taki przykład, że pytamy o preferencje wyborcze grupę osób wychodzących w niedzielę z kościoła w Zakopanem. Czy ta próba reprezentuje wszystkich Polaków? Czy ich preferencje wyborcze odnosimy do całego kraju? Analogicznie moglibyśmy zapytać o to samo uczestników marszu równości. Czy ta próba reprezentuje wszystkich Polaków? Jeśli chcemy przeprowadzić badania przedwyborcze, które najlepiej odzwierciedlają preferencje Polaków, to nie musimy pytać ich wszystkich o zdanie (nawet nie powinniśmy). Oczywiście wystarczy ich część, ale ta część musi być reprezentatywna. Inaczej takie dane nie nadają się do analizy. 

Czy dane w GA4 są reprezentatywne?

Użytkownicy GA4 mogą z góry zakładać, że mają dostęp do większości danych – w praktyce nigdy tak nie jest. Ktoś pomyśli: Ale co z tego? W myśl zasad można przyjąć, że częściowy dostęp do danych nie jest wadą – GA4 nie jest przecież narzędziem księgowym. Takie podejście dominowało przez lata. Powolny odpływ użytkowników w ostatnich latach i anomalie z nim związane mogły być bardzo trudne do uchwycenia. Bo czy zaakceptujemy fakt, że mamy połowę sesji z Facebook Ads, blisko 90% z Google Ads i tylko 10% z afiliacji? Jak na tej podstawie przeprowadzimy proces modelowania atrybucji? Jakie decyzje o lokowaniu budżetów podejmiemy?

Moje doświadczenie pokazuje, że reprezentatywność danych w GA4 jest zagrożona szczególnie w przypadku dużych kampanii display, video, afiliacji, inboud, social media itp. W takich witrynach – nawet przy idealnym rozpoznaniu użytkowników przez user_id -– analiza atrybucji i zachowań użytkowników staje się mniej dokładna i podatna na błędy. Niestety nie dowiemy się, jak faktycznie wygląda nasz ruch i jaka jest skala problemu – dopóki nad nim nie popracujemy. A najlepszym sposobem na uzyskanie odpowiedzi jest wdrożenie analityki przez CloudFlare lub Stape.

Brak reprezentatywności danych – dlaczego to problem?

W świecie data-driven jakość danych to absolutna podstawa. Jeśli mamy śmieci na wejściu, uzyskamy śmieci na wyjściu. Nawet najlepsze algorytmy i narzędzia optymalizacji będą niewiele warte, jeśli bazują na próbie niereprezentatywnej, która nie odzwierciedla rzeczywistego obrazu użytkowników.

Załóżmy przykład: duża drogeria internetowa inwestuje sporo w zaawansowane narzędzia analityczne, dane przechowuje w hurtowni danych, a na ich podstawie zespół ekonometrystów tworzy modele atrybucji, łańcuchy Markowa i marketing mix modeling. Na tej podstawie właściciel drogerii podejmuje decyzje o relokacji budżetów reklamowych. Problem w tym, że dane opierają się głównie na GA4, które nie doszacowuje ruchu z RTB, social media czy afiliacji. W efekcie zachodzi zjawisko tzw. “echo chamber”, czyli  algorytmy niepoprawnie faworyzują Google Ads. Niestety te inwestycje nie wyciągają ROI firmy, ponieważ analizy nie uwzględniają w pełni źródeł, które rzeczywiście generują wartość. W rezultacie ROI spada, stawki CPC rosną, a i cała marka traci na widoczności. Klient, mimo rosnących inwestycji w dane i raporty, wciąż nie rozumie, co naprawdę działa, bo brak jest osoby, która weźmie odpowiedzialność za jakość danych i poprawność ich zbierania.

Z kolei mamy przykład drugiego klienta, który również intensywnie korzysta z danych, lecz inwestuje je świadomie i mierzalnie. Jego dane zbierane są nie tylko za pomocą GA4, ale też poprzez inne technologie, jak server-side tracking, user_id, ankiety, piksele trackujące, social listening – wszystko to zapewnia mu jakość i pełniejszy obraz odbiorców. Dzięki tym danym analityk buduje precyzyjne modele predykcyjne i łańcuchy Markowa, co przekłada się na optymalną strategię budżetową. Klient przesuwa inwestycje na kanały o większym potencjale. W rezultacie jego decyzje inwestycyjne prowadzą do stałych wzrostów ROI. Ten klient korzysta z faktu, że konkurencja nie wie, jak podejść do współczesnych technologii typu data-driven, a jego kampanie napędzane AI działają dużo lepiej. Takie podejście buduje mu trwałą przewagę konkurencyjną.

Różnica między dwoma podejściami

W praktyce pierwszy klient, aby działać skutecznie, podejmuje wiele decyzji na podstawie intuicji. Nie do końca wierzy agencji i jej raportom. To niestety z powodu braku danych “którym możne zaufać”. GA4 działa u niego tylko do pewnego stopnia, raczej tam nie zagląda, ponieważ jest to obarczone dużym ryzykiem. Drugi klient opiera się na pełnych, rzetelnych danych, co pozwala mu lepiej rozumieć zachowania użytkowników i oceniać wpływ różnych kanałów na sprzedaż. Drugi klient ufa swoim danym. Wnioski? Inwestycja w ilość to czasami lepsza jakość danych. 

Kiedyś to się robiło marketing online

W marketingu online od zawsze mieliśmy problem z crossowaniem platform i urządzeń. Nigdy też nie mieliśmy dokładnej informacji o wpływie display & video na sprzedaż (z poziomu Google Analytics). W pewien sposób tę jakość poprawiały systemy klasy DMP. Mamy również inne metody pomiaru ich skuteczności jak np. marketing mix modeling czy badania inkrementalne i w tej dziedzinie niewiele się zmieniło. 

Natomiast dawniej performance marketing opierał się na stosunkowo prostej strukturze – inwestowaliśmy w kampanie outbound, bazując na danych z atrybucji i precyzyjnych prognozach. Dzięki temu dowoziliśmy wyniki, a nasze budżety były alokowane optymalnie. Obecnie – w dobie powszechnego wykorzystania AI w optymalizacji stawek, przy wybrakowanych danych i ewentualnych problemach z ich jakością -– kampanie mogą działać z gorszą skutecznością. 

Czy warto inwestować w Stape lub Cloudflare?

Jeśli realizujesz wielokanałowe działania komunikacji marketingowej, narzędzia takie jak Stape czy Cloudflare znacząco poprawią ilość i mogą podnieść jakość pozyskiwanych danych. W efekcie umożliwiają lepsze segmentowanie, analizę źródeł ruchu, analizę zachowań na stronie i analizę użytkowników. Finalnie chodzi nam o to, aby lepiej zarządzać lejkiem sprzedażowym i trafnie ocenić poszczególne punkty styku.

Dla firm działających w mniejszej skali dodatkowe narzędzia mogą zwiększyć liczbę sesji i sygnałów, lecz realna wartość pojawia się w przypadku bardziej złożonych struktur marketingowych. Czy inwestycja w Stape lub CloudFlare się zwraca? Ostatecznie zależy to  od charakteru i skali działań marketingowych. Paradoksalnie na tych rozwiązaniach powinno zależeć największym graczom na rynku, lecz oni zazwyczaj mogą mieć tak trywialne problemy jak konfiguracja DNS. Mali natomiast mogą nie wykorzystać w pełni potencjału i to pomimo szybkiego i taniego wdrożenia tych technologii. 

Podsumowanie

Współczesna analiza danych w marketingu staje się bardziej wymagająca. Nie wystarczy już prosty kod śledzący umieszczony na stronie. Dzisiejszy rekomendowany stack technologiczny to kody śledzące wywoływane z poziomu serwera, server side, konwersje rozszerzone, CMPv2, hurtownia danych, raporty z poziomu BI, własne modele atrybucji i analizy z hurtowni danych. Aby wszystko to wdrożyć, administrować i wykorzystywać,  potrzebny jest cały zespół specjalistów od IT, inżynierii danych, marketingu i analityki. Przed wdrożeniem mogą hamować finanse i wiedza, ale również prawnicy czy procesy w organizacji. 

Natomiast obecna dynamika rynku i zmieniające się oczekiwania konsumentów wymagają elastyczności i gotowości do eksperymentowania z nowymi narzędziami. Warto spojrzeć na te inwestycje jako na krok w stronę większej precyzji, lepszego rozumienia użytkowników oraz większej skuteczności działań. 

Czy warto? Dla tych, którzy szukają przewagi konkurencyjnej, narzędzia analityczne nowej generacji będą gamechangerem. 


Autor artykułu

Adrian Andrzejczyk – ekspert od analizy danych i marketingu online andrzejczyk.com.pl

Absolwent Wyższej Szkoły Informatyki i Zarządzania i Uniwersytetu Ekonomicznego w Krakowie. Pracował dla największych agencji marketingowych. Zrealizował ponad 200 projektów z zakresu SEO, SEM i analityki. Uczestniczył w projektach wygrywających międzynarodowe konkursy branżowe. Jest certyfikowanym specjalistą Tibco Statistica, Google Ads, DoubleClick, Google Analytics, PiwikPro. Swoją wiedzą dzieli się w social mediach na YouTube oraz Linkedin. Autor książek – SEO marketing. Bądź widoczny w internecie (Onepress 2022), Data Driven Marketing – O logicznym podejściu do podejmowania decyzji (Onepress 2024).

Leave a Comment

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>
*