Webb, SEO & Tillväxt

Därför ska marknadsföring vara en experimentverkstad

Halva testen kommer att misslyckas, och det är poängen. En praktikers fall för att driva marknadsföring som en verkstad — där hypoteser, ytor, mått, tider och beslutsregler skrivs ner innan testet börjar, och där ledningen står ut med att höra 'ingen effekt'.

Carl-Gustav Öberg · 20 maj 2018 · 6 min · essay

Vi sitter en torsdag i maj och går igenom månadsrapporten. Siffrorna ser bra ut. Trafiken är upp, konverteringsgraden är stabil, kampanjen i mars producerade leads till en kostnad som ligger inom budget. Alla i rummet nickar. Nästa kvartals plan landar på bordet en halvtimme senare, och den lutar sig mot att samma kanaler ska få samma andel av budgeten plus en liten justering uppåt mot det som verkar fungera.

Det ingen säger högt är att vi inte vet om kampanjen i mars producerade dessa leads, eller om de hade kommit ändå. Vi vet inte om kanalmixen är optimal, vi vet inte om budskapet bär, vi vet inte om landningssidan tappar folk vid rubriken eller vid formuläret. Vi har inte testat något av det. Vi har en attribueringsmodell som tilldelar lead-värde till kanalerna utifrån antaganden vi inte heller har testat, och så bygger vi ett kvartals plan på den.

Det här är ett rätt vanligt rum att sitta i. Och det är inte ett rum där det saknas kompetenta personer. Det är ett rum där disciplinen att skilja antaganden från evidens aldrig har installerats.

Det organisatoriska först — för det är där det krockar

Jag vill ta det som är svårast först, för det är där de flesta byrå- och marknadsavdelningar fastnar.

Hälften av era hypoteser kommer att visa sig vara fel. Det betyder att kontrollvarianten vinner, eller att testet inte visar någon signifikant skillnad, eller att variantens effekt är så liten att den inte motiverar att rulla ut. Det är inte ett resultat av dåligt testdesign. Det är ett resultat av att man har börjat testa saker som faktiskt var oklara — och hade de varit klara från början hade testet ju inte behövts.

Det är fint i datan. Det är sällan fint i mötet. Marknadsföraren som föreslog testet känner sig misslyckad. Den seniora personen som godkände det letar efter en formell brist i metoden snarare än att acceptera att hypotesen helt enkelt inte stämde. Byråpartnern slutar tyst att föreslå tester, för misslyckandefrekvensen får hela leveransen att se svag ut.

Den organisatoriska förutsättningen — och det är den svåraste delen, inte statistiken — är att bygga en kultur där ett test som motbevisar en hypotes är ett lyckat test. Teamet som kör fyra tester och får tre nej har sparat sig själv från att göra tre saker som inte funkade. Teamet som kör noll tester gör fortfarande de där tre sakerna, betalar för dem och rapporterar om dem som om de funkade.

Klarar inte ledningen det, dör experimentprogrammet stilla i sitt tredje kvartal. Oavsett hur skarpt designen är.

Det minsta meningsfulla testet

När den biten är på plats är resten hantverk. Ett test som är värt att köra har fem delar nedskrivna innan det börjar:

Hypotesen. Inte “jag tror att den nya landningssidan presterar bättre”. Det är en önskan. “Jag tror att den nya landningssidan konverterar demo-förfrågningar 20 procent högre än den nuvarande, för att rubriken nu pekar ut köparens roll i stället för att beskriva produkten.” Det är en hypotes. Den har en riktning, en storlek, och en uttalad mekanism.

Ytan. Var testet körs. Vilken sida, vilken målgrupp, vilken placering. Med tillräcklig detalj för att en kollega som inte var med när det började kan hitta tillbaka.

Måttet. Ett primärt. Högst två skyddande mått. Om det primära är leads, skyddar de andra mot att lead-kvaliteten faller eller att andra delar av tratten kannibaliseras.

Tiden. Bestämd i förväg, inte i pågående drift. “Tills vi når signifikans” är hur team slutar med att läsa dashboarden varje morgon och stänga testet den dag siffran råkar se rätt ut.

Beslutsregeln. Den här missar de flesta. Om det primära måttet rör sig minst X och de skyddande måtten håller, så rullar vi varianten. Annars behåller vi kontrollvarianten. Skrivet i klartext, inte i p-värden.

Ett test utan beslutsregel är inte ett test. Det är något som producerar ett diagram, varpå någon senior bestämmer vad diagrammet betyder.

Vad som är billigt att testa

I princip allt som lever på en sida, i en annonsuppsättning eller i en sekvens, och som kan visas för halva publiken utan att den andra halvan märker något. Rubriker. Bilder. Annonstexter. Ämnesrader i mejl. CTA-placering. Formulärlängd. Prissidans uppställning. Målgruppsdefinitioner i Facebook och Google. Budstrategier i auktionsbaserade kanaler. Kadensen i ett nyhetsbrev. Ordningen i en aktiveringssekvens.

Det är billigt för att kostnaden av att ha fel är liten — en vecka av suboptimal prestation — och för att verktygen redan finns där. Google Optimize är gratis. Optimizely och VWO kostar pengar, men inte mer än vilket team som helst med en betald förvärvsbudget kan motivera. I Facebook Ads Manager och Google AdWords ligger A/B-testning för målgrupper och kreativ inbyggt. De flesta team använder det som rapportflik snarare än som testramverk.

Räkneexemplet: en mindre svensk B2B-sajt med fem tusen veckobesök och en procents konvertering till offertförfrågan. Det är femtio förfrågningar i veckan. För att upptäcka en tjugoprocentig relativ effekt på den basen behöver man köra testet i ungefär sex veckor med vanliga inställningar för styrka och konfidens. Det är en realistisk tidsbudget. Ett team som vänjer sig vid sex veckor per test kan landa två till fyra riktiga tester per kvartal, och det är tillräckligt för att över ett år ändra hur funktionen jobbar.

Vad som är dyrt att testa

Allt som kräver att kunden exponeras i månader innan beteendet hinner ändras. Varumärkeskampanjer. Långa B2B-tratten där konverteringen ligger nio månader efter första kontakten. Allt som rör attribueringsmodellen i sig. Allt som ligger högt upp i köparens resa där varje kohort är liten.

Det ärliga svaret för de här är att man inte testar dem på samma sätt. Man kör dem som kohortstudier över tid, med vetskapen att slutsatsen är svagare. Eller också testar man dem inte, och då är det viktigt att vara uttrycklig mot ledningen om att den här delen av budgeten är trosgrundad och mönsterigenkänningsgrundad — inte isolerat orsaksbevisad. Det är ingen skam i att vara uttrycklig om det. Det är däremot skam i att låtsas som att en attribueringsmodell har löst en kausal fråga den inte har löst.

Statistiken man behöver

Tillräckligt för att inte ge bort sig. Inte tillräckligt för att skriva en uppsats. Mer konkret:

Räkna ut hur stort urval ni behöver innan testet börjar. En power-kalkylator gör det på trettio sekunder. Använd den.

Stoppa inte testet i förtid bara för att kurvan ser bra ut på torsdag morgon. Att kika dagligen och stanna när det blixtrar grönt inflaterar falska positiva rakt igenom.

Statistisk signifikans är inte detsamma som praktisk signifikans. En lyft på två procent på ett mått som svänger tio procent vecka till vecka är brus.

Bestäm i förväg om ni testar i en eller två riktningar, och stå för det.

Det här är ungefär hela kursplanen. Det finns helgkurser som täcker det på fyra timmar. Vem som helst på en marknadsavdelning kan ta in det utan att bli statistiker.

Kadensen — det som skiljer team som testar från team som vant sig

När ramverket ligger handlar disciplinen inte längre om enskilda tester, utan om rytmen kring dem.

Ett litet team som driver experimentverkstaden bra har ett kort möte varje vecka där pågående tester följs upp mot sina skyddsmått (inte mot det primära måttet — det får man inte tjuvkika på). De har en månadsgenomgång där färdiga tester skrivs upp på en sida, med originalhypotes, resultat, beslut och vad teamet lärde sig som inte hängde på utfallet. De har en kvartalsplanering där testbackloggen rensas mot funktionens största öppna frågor.

Kadensen är skillnaden mellan ett team som råkar köra ett A/B-test då och då, och ett team som har internaliserat experimentet som sätt att jobba. Det enskilda testet är en taktik. Kadensen är disciplinen.

Avslutningsvis

Anledningen till att marknadsföringen historiskt har stått emot det här är inte att marknadsförare är ointelligenta eller origorösa. Det är att återkopplingsslingorna i marknadsföring är långa och stökiga, och att frestelsen att byta ut kausal evidens mot attribueringsberättelser är enorm, och att den politiska kostnaden av att köra ett test som motbevisar en seniorperson är inte trivial.

Det är riktiga hinder. Det är inte argument mot praktiken. Det är argument för att bygga upp praktiken försiktigt, börja med billiga tester, samla en intern evidensbas, och förtjäna rätten att ställa svårare frågor senare.

Sitter du på en marknadsavdelning eller en byrå nu och inte har någon testkadens, är platsen att börja på ett billigt test nästa vecka — uppskrivet enligt formen ovan, med beslutsregeln på papper innan varianten går live. Det första kommer att kännas som administrativt overhead. Det femte kommer att kännas som sättet ni jobbar.

Hör gärna av er — vad körs det egentligen för testkadens på era marknadsavdelningar? Jag är genuint nyfiken på vad som funkar och vad som har dött tyst i tredje kvartalet.

Skrivet av Carl-Gustav Öberg

Jag är Carl-Gustav Öberg, grundare av Forge Nord. Jag bygger AI-system, driver infrastruktur, och skriver om vad jag lär mig på vägen.