Wat is survivalanalyse in marketing en hoe bepaal je correct de klant- en abonnementsduur?

Hoe bereken je klantduur zonder actieve relaties over het hoofd te zien? Veel organisaties kiezen voor simpele berekeningen, maar die geven vaak een vertekend beeld. In deze blog ontdek je hoe survivalanalyse – met tools als Kaplan-Meier-plots en Cox-modellen – je helpt om nauwkeurige inzichten te krijgen. Aan de hand van een Kaggle-case laten we zien hoe je churn voorspelt en klantwaarde analyseert. Til je analyses naar een hoger niveau met R en slimme data-analysetechnieken!

 

data analyse, survival, ai gegenereerd, onderzoek

Een van de meest voorkomende vragen die aan een data-analist worden gesteld, is hoe de duur van klantrelaties, abonnementen of polissen correct kan worden bepaald. Marketeers hebben deze informatie nodig voor business cases om de waarde van klanten over hun hele levensduur te bepalen. Bovendien wordt de duur vaak gebruikt om cross-selling kansen, churn rates, en andere statistieken te analyseren. In de praktijk zien we vaak dat de duur eenvoudig wordt berekend door de einddatum af te trekken van de begindatum. Deze benadering kan echter leiden tot een vertekend beeld, omdat het geen rekening houdt met klanten, abonnementen of polissen die nog actief zijn.

In dit artikel leggen we uit hoe we dit probleem kunnen aanpakken. Zo maken we gebruik van een analysetechniek die veel wordt gebruikt in medisch onderzoek, namelijk survivalanalyse. Ook zullen we laten zien hoe we te werk gaan aan de hand van een Kaggle Playground-case. Daarbij maken we gebruik van gegevens van de eerste competitie van 2024, gericht op het voorspellen van churn bij een bank. Deze dataset gebruiken we om de levensduur te bepalen met behulp van een Kaplan-Meier-plot, een Cox Hazard-model en een Random Forest-model. Voor onze oplossing hebben we gebruikgemaakt van R.

 

Essentie van Survivalanalyse

Survivalanalyse is een statistische methode die wordt gebruikt voor gegevens die informatie bevatten over de tijd tot het optreden van een bepaalde gebeurtenis, zie voorbeeld in het figuur hiernaast. Deze gebeurtenis kan variëren van overlijden tot terugval, herstel of een ander duidelijk gedefinieerd eindpunt. Het wordt vaak gebruikt in situaties waarin de tijd wordt gemeten in jaren, maanden of weken, vanaf het begin van de follow-up van een patiënt tot aan het optreden van de gebeurtenis. In een survivalanalyse wordt ervan uitgegaan dat er maar één type risico is en dat een gebeurtenis per individu hoogstens één keer kan optreden. Als er sprake is van meerdere risico’s of herhalingen van een gebeurtenis, zijn meer geavanceerde analysetechnieken nodig, zoals recurrent event-analyse of competing riskanalyse.

Een belangrijk concept bij het analyseren van tijd-tot-gebeurtenisgegevens is gecensureerde waarnemingen. Dit treedt op wanneer de volledige tijd tot het optreden van de gebeurtenis niet bekend is voor alle individuen in een studie. Dit kan gebeuren omdat de gebeurtenis nog niet heeft plaatsgevonden voor sommige individuen op het moment dat de studie eindigt, of omdat sommige individuen uit de studie verdwijnen voordat de gebeurtenis plaatsvindt.

survivalanalyse, bepaling klantduur, bepaling abonnementsduur

Uitwerking Survivalanalyse

Naast churn (variabele Exited) bevat de dataset ook de volgende kenmerken: CreditScore, Geography, Geslacht, Leeftijd, Duur (Tenure), Balance, Aantal afgenomen producten, Heeft kaart, Is actief lid en Geschat inkomen.

Om in termen van survival analyse te blijven: we hebben in dit geval de beschikking over een tijd/duur variabele (Tenure) en een event (Exited). Van de klanten is 21% gechurnd. Als we de duur zouden bepalen op basis van de relaties die zijn uitgestroomd (Exited=1), kom je op een gemiddelde duur van 4,1 jaar. Als we een density plot maken, zie het figuur hiernaast, dan kunnen we afleiden dat de verdeling verre van normaal is. In dit geval is het verstandiger om naar de mediaan te kijken, die bedraagt 5 jaar.

Een groot gedeelte van de klanten is nog niet uitgestroomd en wordt nu niet meegenomen in de analyse. Dit roept de vraag op of de berekende mediaan logisch is. Het figuur hiernaast toont duidelijk dat de verdeling tussen wel en niet gechurnde klanten aanzienlijk verschilt.

Hoe tackelen we dit probleem? Survival analyse via Kaplan-Meier plots kan ons helpen. Kaplan-Meier plots geven ons een beter inzicht in de overlevingstijden, inclusief de nog niet gechurnde klanten.

Verdeling, tenure, grafiek

Kaplan-Meier procedure

De basisgedachte achter de Kaplan-Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere klanten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van ‘survivors’) combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patiënten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een ‘life table’ en een ‘survival curve’.

Uit de grafiek hiernaast kunnen we afleiden dat na 5 perioden, grofweg 87% nog steeds klant is en slechts 13% is op dat moment uitgestroomd. Daarnaast is meer dan 50% nog steeds klant na 10 perioden. Dit roept de vraag op of de waarde van 5 een goede schatting van de levensduur is.

 

We hebben nu de uitstroom en verwachte levensduur bepaald voor de gehele klantenbasis. Maar je kunt deze ook verbijzonderen naar verschillende factoren. In het figuur hiernaast wordt een verbijzondering weergegeven naar land en actief lidmaatschap. Alle factoren laten duidelijke verschillen zien.

De Kaplan-Meier procedure helpt ons niet alleen om een nauwkeuriger beeld van de klantduur te krijgen, maar laat ook zien hoe verschillende factoren de overlevingstijd beïnvloeden. Dit biedt waardevolle inzichten voor het ontwikkelen van effectievere strategieën om churn te verminderen en klantrelaties te verlengen.

grafieken, gegevens, data, analyseren

Hazard Plots

Tot nu toe hebben we alleen gekeken naar het algemene beeld. We hebben echter niet kunnen vaststellen of de kans op uitstroom stijgt of daalt naarmate de tijd verstrijkt. Hier kan de Hazard curve uitkomst bieden. Deze curve kan grofweg worden omschreven als de afgeleide van de survival curve. Zie het figuur hiernaast.

Wanneer we kijken naar de cumulatieve Hazard en de Hazard zelf, zien we dat de kans op uitstroom toeneemt naarmate de tijd verloopt. In de praktijk zie je vaak een omgekeerde relatie, waarbij de kans op uitstroom daalt naarmate de tijd vordert.

Hazard plot, cumm. hazard

Cox Hazard modellen

We hebben gekeken naar de relatie tussen individuele factoren en de kans op uitstroom in de tijd. Kaplan-Meier plots geven hierbij een eenvoudige, overzichtelijke weergave. Om echter de effecten van meerdere factoren tegelijkertijd te meten, zijn andere methoden nodig. Proportionele Cox Hazard regressiemodellen bieden de mogelijkheid om meerdere factoren afzonderlijk te beoordelen, zoals in het figuur hiernaast te zien is.

Een voordeel van het Cox-model boven een Kaplan-Meier analyse is dat het niet alleen antwoord geeft op de vraag “is er een effect”, maar ook op “hoe groot is het effect” van een bepaalde voorspeller. Het Cox-model geeft de grootte van een effect weer met behulp van hazard ratio’s (HR).

 

Laten we eens kijken naar de resultaten van een Cox Hazard regressie op de bankchurn dataset. De resultaten van het model zijn hiernaast te zien.

Uit de resultaten blijkt dat alle factoren significant zijn. Een hogere credit score, geslacht (man), jongere klanten, bezit van een creditcard en actief lidmaatschap dragen bij aan een langere levensduur van de klant. Daarentegen zorgen lagere credit scores, oudere klanten en het bezit van meer dan één product voor een kortere levensduur. Op basis van de hazard ratio’s (Exp(coef)) kunnen we aan de hand van de baseline de gemiddelde levensduur bepalen.

Cox hazard modellen

Door het scoren van de testset hebben we de ROC-curve en de AUC van het Cox-model bepaald. De AUC bedraagt in dit geval 0,77, wat wijst op een redelijk goede voorspellende kracht van het model.

Het Cox-model maakt een belangrijke aanname: de proportional hazards assumptie. Dit houdt in dat de HR’s constant zijn in de tijd, wat betekent dat het relatieve verschil in hazard veroorzaakt door verschillende waardes van een voorspeller gelijk blijft in de tijd. Vaak is dit echter niet het geval. Voor de eenvoud en dit voorbeeld gaan we ervan uit dat de hazards constant zijn in de tijd. Om te testen of de proportional hazards assumptie geldt voor dit model, hebben we Aalen’s regressiemodel getest. De uitkomsten van de richtingen van de parameters worden hiernaast weergegeven.

 

De vooronderstelling van een proportionele hazard voldoet dus niet voor deze dataset. Het is verstandiger om modellen te gebruiken waarbij een tijdsafhankelijke component is inbegrepen. Dit vereist wel dat de onafhankelijke variabelen mee bewegen in de tijd.

grafieken, gegevens, data, analyseren

Random Forest model

Tot slot gaan we een survival model opstellen met behulp van een random forest. In tegenstelling tot een regressiemodel is de random forest beter in staat om interacties en niet-lineaire effecten inzichtelijk te maken. Het is dan ook een goed alternatief voor de Cox regressie. Voor het bepalen van de optimale hyperparameters maken we in dit geval gebruik van de standaardinstellingen van het pakket Ranger. De uitkomst van de analyse is een groot aantal survival curves die we kunnen middelen. Het figuur hiernaast geeft een overzicht van de individuele respondent survival curves. De zwarte curve vertegenwoordigt de gemiddelde curve. Op basis van de zwarte curve kunnen we vervolgens de levensduur opnieuw bepalen, welke in dit geval rond de 8,5 jaar ligt.

Door te kijken naar de importance (“belangrijkheid”) van de verschillende factoren krijgen we inzicht in de bijdrage die elke factor levert aan toekomstige veranderingen. De belangrijkste voorspellers zijn het aantal producten en de leeftijd van de klant. Via het scoren van de testset hebben we de ROC-curve en de AUC van het random forest model bepaald. De AUC bedraagt in dit geval 0,79, wat iets beter is dan het Cox regressiemodel.

respondent survival curves, grafiek, data

Conclusie

Het bepalen van de levensverwachting of duur van een klant, abonnement of polis is een van de meest gestelde vragen aan een analist. Het berekenen hiervan op basis van de einddatum verminderd met de begindatum voor uitgestroomde klanten kan echter leiden tot een aanzienlijke vertekening, zoals ook bleek tijdens de uitwerking van deze case.

We hebben drie veelgebruikte methoden toegepast op de bankchurn dataset om de survival curve (en dus ook de duur) van de klant te bepalen. Dit zijn de Kaplan-Meier methode, Cox Hazard regressie en het Random Forest model. De uitkomsten van de verschillende methoden worden hieronder weergegeven.

Voor deze dataset blijkt dat het Random Forest model (8,5 jaar) de langste gemiddelde levensduur voorspelt, in vergelijking met de Kaplan-Meier curve (8,4 jaar) en de Cox regressie (7,2 jaar). Dit verschilt duidelijk van de naïeve bepaling van de duur (5 jaar).

Een voordeel van zowel de Cox regressie als het Random Forest model is dat op basis van deze analyses ook nieuwe cases kunnen worden geschat. In het geval van Kaplan-Meier ga je uit van het gemiddelde.

Deze modellen helpen marketeers om de levensduur van klanten nauwkeuriger te voorspellen, wat leidt tot effectievere klantbehoudstrategieën en gerichtere marketingcampagnes. Hierdoor kunnen middelen efficiënter worden ingezet en kan de klanttevredenheid en -loyaliteit worden verhoogd.

 

Ben je benieuwd naar de technische details van onze analyses of heb je vragen hierover? Laat het mij gerust weten of neem contact met ons op voor meer info!

 

Model, survival, time

Meer weten over dit onderwerp?

 

Annemijn de Vries

Consultant Data Science & Analytics

a.devries@dataconsultinggroup.nl

Consultant Data Science & Analytics

Op zoek naar enthousiaste en ervaren data modelling experts? Onze consultants staan voor je klaar!

Werk datagedreven en laat je data voor je werken

Ben je benieuwd hoe we jouw organisatie kunnen helpen met data science en de inzet van predictive modelling? Neem vandaag nog contact met ons op, we helpen je graag.

Ik wil meer informatie

Kies een datum en tijd die jou het beste uitkomt.

Heb je een specifieke vraag?

Neem gerust contact met ons op.

Bel ons

+31639341622

Op werkdagen bereikbaar van 8:30 uur tot 17:30 uur

Mail ons

info@dataconsultinggroup.nl

Doorgaans kan je binnen 24 uur een reactie verwachten

WhatsApp ons

+31639341622

Op werkdagen bereikbaar van 8:30 uur tot 17:30 uur

Bel of mail ons
Luc Claassens, Managing partner, mede-oprichter