4.1.1. Inter-beoordelaarsbetrouwbaarheid op TO en T1 (> 0,7 is ruim voldoende tot goed)
De vraagstelling luidde: hoe groot is de inter-beoordelaarsbetrouwbaarheid (IBB) op T0 respectievelijk T1 op organisatieniveau? Neemt de IBB toe op T1 en is het verschil met T0 significant?
Uit de onderstaande tabel, waarbij ICC staat voor Inter Class Correlation, blijkt:
De IBB is al hoog op T0 (> 0,7), maar wordt toch nog significant hoger op T1 voor de interventiegroep bij Pi4 (0,85) en Pi5 (> 0,9), niet bij Pi3.
De IBB van de controlegroep blijft op T1 nagenoeg gelijk aan T0.
Op T1 is de IBB van Pi3 lager dan die van Pi4 en Pi5.
Op T1 heeft de UWV-interventiegroep de hoogste IBB voor Pi3 (0,821) en Pi5 (0,940), Dariuz voor Pi4 (0,942) met nagenoeg ex aequo voor de UWV-interventiegroep (0,914).
Zie voor verdere toelichting sheet 22 van de Wetenschappelijke verantwoording uitvoering efficacy pilot en resultatenanalyse. PowerPointpresentatie AKC, Dr. Ton Schellart MBA, mei 2014.
Conclusie
De scores van alle beoordelaars op de meetvariabelen Pi3, Pi4 en Pi5 komen goed overeen. Een score van 1,0 staat gelijk aan volledig gelijke scores van alle beoordelaars. De scores van de UWV-interventiegroep , Dariuz en VTA van boven de 0,8 en zelfs boven de 0,9 bij UWV en Dariuz, tonen aan dat op inter-beoordelaarsbetrouwbaarheid hoog gescoord wordt. De toename van de inter-beoordelaarsbetrouwbaarheid bij de tweede meting toont aan dat toepassing van de basissystematiek uniformerend werkt bij loonwaardebepaling.
4.1.2. Resultaten in termen van de mate van overeenstemming met de gouden standaard (juiste lonwaarde) (+/- 10%) (hoe hoger hoe beter)
De vraagstelling luidde: wat is de mate van overeenstemming tussen de scores en de gouden standaard (+/- 10%) op T0 en T1? Neemt deze overeenstemming toe op T1 en is het verschil met T0 significant?
Onderstaande tabel laat zien dat:
de overeenstemming met de gouden standaard (+/- 10%) bij de interventiegroep op T1 significant hoger is dan op T0;
de overeenstemming met de gouden standaard (+/- 10%) bij de controlegroep op T1 niet significant verschilt van T0;
op T1 de grootste overeenstemming met de gouden standaard (+/- 10%) door Dariuz wordt bereikt voor Pi3 (74%) en nagenoeg ex aequo voor de UWV-interventiegroep (73,8%);
op T1 de UWV-interventiegroep de grootste overeenstemming heeft bereikt met de gouden standaard (+/- 10%) voor Pi4 (68%) en Pi5 (53%).
Zie voor verdere toelichting sheet 27 van de Wetenschappelijke verantwoording uitvoering efficacy pilot en resultatenanalyse. PowerPointpresentatie AKC, Dr. Ton Schellart MBA, mei 2014.
Conclusie
De validiteit van de loonwaardebepaling neemt bij toepassing van de basissystematiek significant toe. De validiteit kan nog verder worden aangescherpt. Dariuz en UWV zijn dichter bij het doel dan VTA. Zij zitten dus op de goede weg.
4.1.3. Resultaten afstand t.o.v. gouden standaard (hoe lager, hoe beter)
Wat is de afstand tussen de scores en de gouden standaard op T0 en T1? Neemt deze afstand af op T1 en is het verschil met T0 significant?
De afstand tussen de loonwaardescores en de gouden standaard is bij de interventiegroep op T1 lager dan op T0.
De afstand tussen de loonwaardescores en de gouden standaard is bij de controlegroep op T1 niet significant verschillend van T0.
Op T1 is de afstand tussen de loonwaardescores en de gouden standaard het laagst bij de UWV-interventiegroep voor Pi3 (6%), voor Pi4 (10%) en Pi5 (13,5%). Dariuz scoort op Pi4 nagenoeg gelijk als de UWV-interventiegroep.
Zie voor verdere toelichting sheet 29 van de Wetenschappelijke verantwoording uitvoering efficacy pilot en resultatenanalyse. PowerPointpresentatie AKC, Dr. Ton Schellart MBA, mei 2014.
Conclusie
De prestatie in procenten in vergelijking tot de normprestatie (Pi4) wordt door UWV en Dariuz in vrijwel gelijke mate vastgesteld ten opzichte van de gouden standaard: beide organisaties zitten gemiddeld circa 10% van de gouden standaard (juiste normprestatie) af. Als de prestatie wordt doorberekend naar een geldbedrag (Pi5) zit UWV gemiddeld 13,5% van de gouden standaard (juiste loonwaarde) af, Dariuz 18,6% en VTA 26,0%.
1 . In onderzoek naar inter-beoordelaarsbetrouwbaarheid wordt een IBB van 0.7 of hoger bij professionals al als een goede score gezien, omdat professionals een bepaalde beleidsruimte hebben voor de wijze waarop zij hun werk uitvoeren. Immers, niet ieder aspect van een door een professional te beoordelen situatie kan worden gestandaardiseerd.