Close

Kontrola nasazení GTM a GA na webu pomocí Open Refine

1. 10. 2019

U jednoho klienta, se mi stalo, že jsme nasadili Google Analytics přes Google Tag Manager. Po několika týdnech jsem ale začal náhodně zjišťovat, že na některých stránkách GTM není, někde zůstal původní GA kód a že uprostřed nákupního procesu nebyl kód žádný.

A tak mne napadlo na základě školení od Filipa Podstavce vyřešit kontrolu nasazení Analytics a Tag Manageru v Open Refine.

Upozornění: Řešení popsané níže je prototypem. Takže nezaručuji, že bude fungovat dokonale a na všechny weby. Pokud tě napadne vylepšení, dej mi vědět.

Princip kontroly

Celý princip lze shrnout do tří fází:

  1. získání URL všech stránek webu,
  2. stažení zdrojových kódů,
  3. vyhledání GTM- nebo UA- ve zdrojáku.

Získání URL všech stránek webu

Pokud máš pro web dobrou sitemapu, můžeš ji rovnou otevřít v Refine a vytahat si z ní URL adresy.

Jenže na sitemapu se ne vždy dá spolehnout a tak jsem připravil vlastní crawler přímo v Refine. Ten funguje následovně.

Princip crawleru

  1. na vstupu zadáš homepage,
  2. stáhne si zdroják homepage,
  3. ve zdrojáku najde všechny odkazy (atribut href),
  4. vyhodí odkazy směřující na jinou doménu,
  5. vyhodí odkazy na obrázky, pdfka, excely…,
  6. odsekne z URL parametry za ? i #,
  7. odstraní duplicity.

A pak se proces opakuje. Opět se stáhnou zdrojáky všech nově objevených URL z předchozího běhu, v nich se najdou odkazy, ty se vyčistí, odstraní se duplicity a již prošlé URL.

Jak crawler spustit v Open Refine

Ze všeho nejdříve si založ nový projekt a to tak, aby ve sloupci Homepage byla domovská stránka kontrolovaného webu.

Založení projektu v Refine
Založení projektu v Refine

Je potřeba dodržet, aby v adrese homepage nebylo na konci lomítko a aby se sloupec jmenoval Homepage.

Poté klikni vlevo na záložku Undo / Redo, stiskni tlačítko Apply a do pole vlož níže uvedený skript a potvrď Perform Operations.

Vložení skriptu do Undo / Redo
Vložení skriptu do Undo / Redo

Proběhne první iterace, která proskenuje homepage a založí příslušné sloupce.

Pro druhou iteraci vlož stejným způsobem následující kód.

Tento kód spouštěj opakovaně, dokud se ti ve sloupci Nove URL objevují nové záznamy.

Ve výsledku dostaneš takovýto výstup.

Výsledek crawleru
Výsledek crawleru

Tím získáš URL adresy všech dosažitelných stránek webu. Nyní přejdi k samotné kontrole, zda jsou na webu Analytics či Tag Manager.

Parsování zdrojáků

Tato část je už velmi primitivní. Skript stáhne zdrojáky všech URL, které se nacházejí ve sloupci Vsechny URL.

A v nich se podívá, zda nenajde řetězec začínající GTM- či UA-. A pokud jej najde, přidá konkrétní ID do sloupce GTM IDs či UA IDs.

Stačí nad výstupem z předchozího kroku spustit tento skript v Undo / Redo.

Zpracování výstupů

Výsledkem celého snažení je tabulka, ve které u všech URL adres vidíš nalezené ID Google Tag Manageru a Analytics.

Zpracování výstupů
Zpracování výstupů

Vizuálně pak zkontroluj, že je na všech stránkách GTM, že je správný či že jich tam není více. Práci ti usnadní facety.

Stejně tak odhalíš problémy s přebytečným nebo chybějícím kódem Analytics.

Ve sloupci GTM IDs vždy uvidíš konkrétní ID zmíněné dvakrát. To je proto, že se objevuje jak ve script tak noscript části GTM snippetu. Pokud ho tam vidíš jen jednou, znamená to, že GTM není implementovaný správně.

Omezení skriptu

Celé řešení není dokonalé a bezchybné. Jeho účelem je spíše ukázat směr. Přišel jsem minimálně na tato omezení:

  • nefunguje na nedosažitelné stránky webu (za přihlášením, nevede na ně interní odkaz…),
  • zahazuje parametry za otazníkem i hashem ,
  • stahuje html zdroják stránek, takže nezjistí skripty spouštěné přes GTM či jiným externím javascriptem.

Proto pokud máš nápad na vylepšení či ti něco nefunguje, ozvi se mi a rád to zapracuji.