Sådan trækker du rådata ud af Adobe Analytics, så de kan bruges til ML- og AI-analyse

28 Aug 2019

Her er situationen: Du vil gerne køre maskinlærings-algoritmer på dine Adobe Analytics-data, og måske endda kombinere disse data med data fra andre kilder. Men de data, Adobe stiller til rådighed for dig, er slet ikke finkornede nok til at gøre tricket. Eller det vil sige: det er de ikke pr. default. Men med lidt Adobe-massage kan der gøres meget. Bare følg guiden i dette whitepaper.

Forleden stod en af vores kunder med et problem. Page load – hastigheden siderne loadede på hans website – var uacceptabel høj. Han var bange for, hvordan det påvirkede besøgende, deres brugerrejser og i sidste ende hans salg.

For at hjælpe ham med at finde ud af, om der var nogen påvirkning, og hvad der i givet fald kunne gøres ved det, kiggede jeg på hans Adobe Analytics-installation, der lagrede al aktivitet fra alle brugere på hans site. Disse data ville helt sikkert være i stand til at fortælle os, hvilke brugere der faktisk oplevede det forsinkede pageload, og også hvordan pageloadet påvirkede konverteringen af de enkelte brugere. I særdeleshed ønskede vi at bruge ML og AI til at analysere den enorme mængde data, som Adobe-systemet rummer (jeg havde øjnene på open source XGBoost til dette job).

Adobe-data er ikke finkornet nok (i det mindste ikke pr. default)

For at klare tricks som disse skal du have data for at være så finkornede som muligt. Det vil i praksis sige, at data i det mindste skal kunne trækkes på individuelt brugerniveau. Selvom brugerfladen i Adobe Analytics Workspace er alsidig, er Adobe-data altid aggregeret. Det er ikke enkelt-brugerobservationer du får ud, men opsummering af adfærd for mange forskellige brugere som f.eks. sidevisninger for en given side, bounce- og konverteringsrater. Som udgangspunkt giver Adobe dig derfor ikke de data, du har brug for, for at kunne lave analyser fra den enkelte brugers perspektiv.

Data Warehouse er din redningsmand

Heldigvis giver Adobe dig mulighed for at trække de enorme mængder data, der er nødvendige, ud. Ja faktisk er der hele to forskellige måder at gøre det på:

Den første tilgang er Data Warehouse. Her kan du vælge mellem alle breakdowns (dimensioner), metrics og segmenter for et hvilket som helst foruddefineret dataområde. Disse data er allerede forbehandlet og samlet af Adobe.
Den anden metode er at bruge datafeeds. Her får du delvist processerede data, som er blevet sendt til Adobe. Sammenlignet med Data Warehouse er dette meget granulære hit-level data.

Jeg valgte at bruge den første metode – Data Warehouse-metoden – til at hjælpe min kunde. I resten af dette white paper fortæller jeg, hvordan jeg gjorde.

Levering med det samme. Ingen størrelses-begrænsninger: Træk Data Warehouse-data fra Adobe Analytics API med R og RSiteCatalyst

Jeg bedst kan lide at trække data ud af Adobe Data Warehouse ved eksportere dem med Adobe Analytics API og det statistiske programmeringssoftware, R. Det er hurtigt, og det giver dig meget granulære datasæt med høj volumen. Men det kræver at du kan kode. (Hvis du ikke er R-fan eller kodenørd, er der en anden – lidt mere begrænset – måde at få fat i dataene. Det kan du læse om i næste afsnit).

Jeg foretrækker selv at bruge RSiteCatalyst-pakken til dataudtrækket. Det giver dig mulighed for at requeste store mængder data uden brug af JSON. (Hvis du bedre kan lide JSON kan du også tilgå Adobe Analytics API’et via JSON med f.eks. Postman). R kan installeres på Linux, Windows og Mac OS X fra cran.r-project.org. Hvis du vil følge i mit fodspor med R, anbefaler jeg, at du også downloader RStudio fra rstudio.com. På den måde får du et brugervenligt og integreret udviklingsmiljø.

Efter at have installeret R og RStudio skal du sikre dig, at din brugerkonto har adgang til webservices. Bagefter skal du, for at kunne udnytte RSiteCatalyst, identificere dig med dit brugernavn og password (secret) i Adobe Analytics:

Gå til Admin. Klik på “Admin” i Adobe Analytics.
Download gratis whitepaper og se hvordan
Gå til “Analytics Users & Assets”. Klik videre “Analytics Users & Assets” sektionen.
Download gratis whitepaper og se hvordan
Find dig selv. Brug søgefeltet til at finde dig selv.
Download gratis whitepaper og se hvordan
Connect til API’et. Klik på dit “USER ID”. Dette åbner et view med de detaljer, der er forbundet med din brugerkonto. Under “Web Service Credentials” overskriften står de credentials du skal bruge for at connecte til API’et. “User Name” er din email-adresse efterfulgt af virksomhedsnavnet. “Shared Secret” er en streng på 32 karakterer.
Download gratis whitepaper og se hvordan
Nu hvor du har fundet dine credentials, kan du forbinde til API’et med R ved at bruge scriptet herunder, der installerer og loader RSiteCatalyst i R.
Download gratis whitepaper og se hvordan
Request report suites data frame. Nu hvor der er skabt forbindelse til API’et kan du begynde at sende forespørgsler. Start med at requeste en data frame som indeholder den report suite du vil udtrække data fra.
Download gratis whitepaper og se hvordan

Gem som vector. Nu kan du åbne en data frame som indeolder report suite ID’et under “rsid” headeren. Report suiten som du vil eksportere data fra, kan nu gemmes som en character vector.
Download gratis whitepaper og se hvordan

Request elements, metrics og segment data frames. Du har nu defineret hvilke report suite der skal eksporteres data fra. Næste skridt er at requeste data frames som indeholder alle de relevante elementer (dimensions), metrics, segmenter, props og eVars.
Download gratis whitepaper og se hvordan

Tilknyt ID’er. Hverken Analytics Visitor Id eller the Experience Cloud ID er indholdt i elements data framen. Derfor skal vi tilknytte disse dimentsioner til elements data framen.
Download gratis whitepaper og se hvordan

Specificer headers. Nu kan vi tilgå data frames og specificere hvilke items vi vil bruge i rapporten. Det kræver, at der refereres til alle items med deres værdi i “id” headersne. Herunder specificerer vi de headere der skal bruges for at kunne reequeste antallet af page views og average time spent on page, brudt ned på visitor ID, page name og device.
Download gratis whitepaper og se hvordan

Få navnene til at korrespondere. Som nævnt, har“id” headers ikke altid meningsfulde navne. “Evar1”, f.eks., repræsenteter page name. Heldigvis har “id” headeren også en korresponderende “name” header. En reference data frame der indeholder de korresponderende navne, kan skabes med denne snippet.
Download gratis whitepaper og se hvordan
Ovenstående er også nyttigt, når eksporten skal have meningsfulde headere.

Eksporter data. Nu er vi klar til at eksportere data med “QueueDataWarehouse” forespørgslen. Herunder inputter vi ni argumenter I funktionen:

id – report suite id stored in the character vector.
from – start date for the report (YYYY-MM-DD).
to – end date for the report (YYYY-MM-DD).
metrics – metrics specified in the “used_metrics” object.
elements – elements specified in the “used_elements” object.
granularity – time granularity of the report (year/month/week/day/hour), default to “day”.
seconds – how long to wait between attempts.
attempts – number of API attempts before stopping.
enqueueOnly – only enqueue the report, don’t get the data. Returns report id, which you can later use to get the data.
Som default fortsætter funktionen med at løbe i ti minutter før den stopper (120 attempts adskilt af 5 sekunders pauser). Min erfaringer er, at disse defaults skal justeres opad for at kunne klare request for større eksporter.

Det er også muligt simpelthen at sætte rapporten i kø uden faktisk at modtage data ved at sætte “enqueueOnly” til ”true”.

Når denne snippet køres, vil der blive requested en rapport med prædefinerede metrics og elementer og det opjusterede antal forsøg og pauser.
Download gratis whitepaper og se hvordan

Gør headerne meningsfulde. Nu kan du mappe meningsfulde header navne til eksport data framen. Bemærk, at “datetime” altid er i første kolonne.
Download gratis whitepaper og se hvordan

Excel. Hvis du gerne vil arbejde videre med data i excel, giver R dig en let made at eksportere data frames som .csv filer.
Download gratis whitepaper og se hvordan

Alt dette er, selvfølgelig, kun et eksempel på hvilken slags data du potentielt kan eksportere. I virkelighedens verden kan du eksportere data med en masse andre metrics og elementer, og transformere data så de passer til dit eget behov.

Ventetid og størrelsesbegrænsning: få resultaterne af dine Data Warehouse request pr email

Hvis du ikke har lyst til at kaste dig over R-programmering, er der en anden måde at få fat i dine granulære data. DIrekte i Adobe Analytics-interfacet kan du specificere dine rapportdetaljer og skrive din email og få data tilsendt. Hvis størrelsen på den mængde data du skal trække ud kan holdes under 10 MB og hvis du ikke har noget imod at vente lidt på at mailen med data kommer frem (det kan tage flere timer), er dette en fin metode.

Log into Adobe Analytics…
Hover over the “Tools” header and click on “Data Warehouse”.
Specify the “Request Name”. This is done in order for you to locate your request in the “Request Manager” afterwards.
…Download gratis whitepaper og se hvordan
Click “Request this Report” to start scheduling the report.

Nu skal du bare vente på at rapporten ankommer til din indbakke (hvilket, som noteret ovenfor, kan tage lidt tid).

Held og lykke med at finde “dine” sandheder

Jeg gik ad “R-vejen” for at hjælpe vores kunde med at undersøge hvor meget skade de lange loadtider på hans site egentligt gjorde. Jeg kunne også have brugte den anden metode – den med email. Men i mit tilfælde ville størrelsesbegrænsningen og ventetiden have været træls.

Hvis du selv vil lave noget tilsvarende af det jeg har gjort, er begge metoder fine – og hvis du gennemgået alle skridtene ovenfor, ender du med et fint, finkornet dataudtræk fra din Adobe Analytics. Et udtræk, som bare venter på, at du selv går i gang med din egen avancerede analyse, finder spændende mønstre i data og forudsiger hvilke handlinger fremtidige brugere af dit website med størst sandsynlighed vil udføre. Held og lykke med at finde “dine egne” sandheder.

in English