Publicatie

Publicatie datum

Analyse van uitstroomredenen op basis van topic modellering. Deelrapport 1: Machine learning als methode om verborgen thema’s te ontdekken in grote hoeveelheden open antwoorden.

Schaaijk, A. van, Kooten, D. van. Analyse van uitstroomredenen op basis van topic modellering. Deelrapport 1: Machine learning als methode om verborgen thema’s te ontdekken in grote hoeveelheden open antwoorden. Utrecht: Nivel, 2024. 35 p.
Download de PDF
In het landelijk uitstroomonderzoek van RegioPlus en Presearch wordt vertrekkende werknemers in een open antwoordveld gevraagd naar toelichting bij hun vertrek. Om deze open antwoorden systematisch te analyseren wordt een methode ontwikkeld die in dit rapport wordt toegelicht.
Het onderzoek omvat twee fasen: de ontwikkeling van de analysemethode in fase 1 en de analyse van profielen van vertrekkende medewerkers in relatie tot uitstroom- en preventietopics in fase 2.
In de eerste fase van dit onderzoek ligt de nadruk op de ontwikkeling van de methode en een vergelijking met de bestaande uitstroomthema’s. Onderzoeksvragen richten zich op het identificeren van topics en het vergelijken van open antwoorden met beantwoorde multiple-choice-vragen over uitstroomredenen.

De onderzoeksmethode start met data-voorbereiding, een woordfrequentieanalyse en het creëren van een document-term-matrix. Door vervolgens Latent Dirichlet Allocation (LDA) (een vorm van topic modellering), toe te passen kan meer inzicht verkregen worden in de uitstroom van medewerkers. Deze techniek maakt het mogelijk maken om in grote hoeveelheden tekst verborgen verbanden te ontdekken. Topics werden door LDA ingedeeld op een basis waarbij woorden die vaak samen worden genoemd gezien worden als bij elkaar horend. Het proces maakt gebruik van LDAvis voor een interactieve visualisatie, waarbij de relevantie van termen binnen topics kan worden aangepast met behulp van een slider. In het onderzoek waren de antwoorden van 1671 respondenten bruikbaar voor de topicmodellering van uitstroomredenen en 1226 voor preventiemogelijkheden. De analyse omvatte het identificeren van topics en de meest voorkomende woorden, en richt zich op zowel uitstroomredenen als preventiemogelijkheden, met het identificeren van respectievelijk 11 en 6 topics. Ondanks dat uit deze fase nog geen concrete uitkomsten naar voren komen, geeft de ontwikkeling van de methode een beeld van wat de open antwoordanalyse kan opleveren.

De congruentieanalyse analyseerde in hoeverre de uitstroomtopics overeenkwamen met thema's uit de multiple-choice-vragen. De vergelijking tussen LDA-geïdentificeerde topics en de door respondenten geselecteerde uitstroomthema's toonde enige overeenkomst, maar ook verschillen. Omdat respondenten vaak meerdere thema’s benoemden in hun open antwoord was het scharen van dit antwoord onder 1 topic ingewikkeld. Hierdoor ontstond er overlap tussen de verschillende topics. De inhoudsanalyse onthulde dat bepaalde subredenen en nuances werden gemist in de uitstroomredenen in de vragenlijst, zoals het niet nakomen van afspraken over doorgroeien. Dit alles heeft geresulteerd in zowel meerdere overwegingen ter aanpassing van de vragenlijst, als een verbetering van de methode in fase 2.
Zo komen verschillende vertrekredenen naar voren die mogelijk niet terug te vinden zijn in de multiple-choice vragen in de vragenlijst van het uitstroomonderzoek. Daarnaast is een vaakgenoemde reden als verhuizing niet terug te vinden als hoofdthema waardoor deze moeilijker vindbaar is voor respondenten. Voor veel voorkomende thema’s is het verstandig om deze op te nemen als hoofdthema. Enkele suggesties hiervan betreffen: Reistijd, Werksfeer, Werktijden en Waardering.

In Fase 2 is meer data beschikbaar waardoor meer topics kunnen worden gevormd. Zo komen thema’s die vaak samen worden genoemd in een onderscheidend topic terecht. Om de methode te verbeteren wordt de suggestie gedaan om de document-term matrix (DTM) te integreren in deze analyse. Dit biedt de mogelijkheid om op basis van vaak voorkomende woorden en woordcombinaties meerdere thema’s toe te kennen wanneer respondenten ook meerdere redenen opgeven in hun antwoord. Op deze wijze kunnen ook bepaalde woorden die synoniemen van elkaar zijn samengevoegd worden zoals fysiek en lichamelijk, en loon en salaris zodat deze binnen hetzelfde thema vallen.

Ten slotte toonde de relatieanalyse tussen uitstroom- en preventietopics behoorlijke overlap. Ook hier werd dit bemoeilijk door de aard van de open antwoorden. Verbeteringen in de methode, waardoor er minder overlap tussen topics ontstaat, dragen bij aan het verbeteren van de zichtbaarheid van de relatie tussen uitstroomredenen en preventiemogelijkheden. Dit zal resulteren in meer inzicht in welke preventiemaatregelen effectief zijn bij de verschillende uitstroomredenen.

De LDA-methode in het onderzoek biedt diepgaand inzicht in uitstroomredenen, met toegevoegde waarde van de multiple-choice antwoorden. De ontwikkelde methode is bruikbaar, maar behoeft nog wel verbetering voor de volgende fase. Ondanks dat aanpassingen nodig zijn, heeft de huidige analyse al belangrijke inzichten opgeleverd over de uitstroom in de zorg- en welzijnssector. Een voorbeeld hiervan is dat uitstroom vaak niet het gevolg is van een enkele oorzaak, maar vaak meerdere redenen kent. De volgende fase richt zich op het koppelen van uitstroom- en preventietopics aan persoonskenmerken en het ontdekken van associaties. Ondanks de complexiteit van individuele antwoorden, biedt de LDA-methode een beter begrip van de uitstroom, waardoor preventieve acties gerichter kunnen worden ondernomen. In fase 2 wordt dit duidelijker vormgegeven waarbij concrete aanbevelingen voor de preventie van uitstroom worden gedaan.