URL duplicati in Google Analytics

Qualsiasi variazione ad un URL viene interpretata dai report di Google Analytics come un indirizzo distinto, anche se la pagina è effettivamente la stessa. Il caso classico e frequente è dato dai parametri appesi in queryString che non alterano il contenuto in fase di visualizzazione. Quello meno evidente può essere dato invece dalla presenza o meno dello slash finale, il trailing slash, che genera a tutti gli effetti una duplicazione dell’URL.

Questo comportamento non è necessariamente impattante dal punto di vista dell’utente, ma può generare incongruenze, oltre che dal punto di vista SEO (come le pagine duplicate), anche in fase di analisi all’interno dei report di Google Analytics.

Perché si verifica

Questo tipo di situazione può verificarsi quando non sono state definite regole di redirect a livello server e i partner affiliati per le campagne, membri del team per l’interlinking, altri siti e blog per la link building, ecc… utilizzano l’URL che punta al sito senza avere la sensibilità della sua conformazione desiderata.

Cosa succede in Google Analytics

Nel momento in cui è necessario analizzare le metriche relative ad uno specifico URL, come quello di una delle categorie principali, poiché per impostazione predefinita i primi risultati visibili in piattaforma sono i primi 10, può esserci la tendenza ad identificare e considerare la prima voce visualizzata di tale URL, quella più sostanziosa mostrata insieme alle altre pagine a maggiore traffico.
Tuttavia, i dati letti in questo modo possono spesso essere incompleti.
La Fig. 1 mostra un ipotetico path, appositamente filtrato, dove sono evidenziati due URL che riferiscono alla stessa identica pagina:

Fig. 1 – URL duplicati della stessa pagina in Google Analytics

Il secondo risultato mostrato in figura, senza applicare alcun filtro al report, si troverebbe disperso tra altri URL e, come è evidente, effettuando un’analisi considerando solo il primo dato, oltre a perdersi un buon 20% di visualizzazioni di pagina (dire di avere circa 100K visualizzazioni di pagina nell’intervallo di tempo anziché 80K fa un altro effetto, oltre ad essere più vicino alla realtà), avremo incongruenze a livello di altre metriche come il tempo in pagina e il bounce rate.

I valori totali sono ponderati per cui le variazioni nelle metriche saranno più o meno sensibili in base al grado di raccolta di queste due tipologie di URL nonché di comportamento dell’utenza in pagina. Ad ogni modo avere un dato pulito e affidabile, garantisce analisi basate su una situazione più solida rendendo le estrazioni riproducibili e confrontabili.

Soluzione

Indipendentemente dal fatto che sia preferibile la versione dell’URL con o senza lo slash finale è importante assicurarsi di gestire queste stringhe in modo coerente.

Per poter ottenere questo comportamento è possibile agire lato server con la gestione di redirect 301 verso la versione preferita, nonché da interfaccia di Google Analytics tramite l’applicazione di filtri.
Ad esempio, nel caso in cui non si desideri avere lo slash finale, potremo applicare un filtro avanzato che recupera l’URL con il trailing slash e lo sostituisce con la stessa stringa al netto del carattere finale, Fig. 2:

Fig. 2 – Filtro avanzato per rimuovere il trailing slash dagli URL

Lo stesso risultato può essere ottenuto tramite una variabile JavaScript personalizzata in Google Tag Manager. In questo caso è necessario gestire l’URL aggiungendo o rimuovendo lo slash finale e andando a sovrascrivere tale valore a quello effettivo della pagina con il parametro page all’interno del tag di Google Analytics.

Nota

Non esiste una versione migliore dell’altra, quello che tuttavia è importante considerare è non diventare noi stessi i generatori del problema.

Intendo dire che, poiché durante le fasi di impostazione e adeguamento di Account Analytics molte configurazioni le possiamo recuperare da altri setup funzionanti, prima di applicare una modifica impattante come quella della gestione del trailing slash, è buona norma verificare in Google Analytics come sono stati raccolti i dati fino a quel momento.
Senza questo controllo potremo andare a creare incongruenze che si si manifesteranno al momento del confronto con il dato storico.