Cursus toegepaste statistiek en data-analyse (5 dagen)

Inleiding

Tridata, Instituut voor toegepaste statistiek en data-analyse, biedt een vijfdaagse statistische cursus aan, waarin een uitgebreid palet aan statistische kennis en -vaardigheden aan bod komen. De toepasbaarheid van deze kennis en vaardigheden staat hierbij centraal. Voor zowel cursisten met basiskennis als ook meer ervaren cursisten biedt de cursus toegepaste statistiek en data-analyse dan ook de unieke mogelijkheid om binnen een zeer korte periode fundamentele en zeer waardevolle onderzoeksvaardigheden eigen te maken.

Inhoud

In deze cursus wordt ingegaan op het onderzoeksproces dat een cursist doorloopt. De cursist krijgt bruikbare handvatten aangereikt, waardoor de hij/zij na deze cursus gefundeerde uitspraken kan doen. Er wordt stilgestaan bij het verschil tussen beschrijvende en verklarende statistiek en er wordt aandacht besteed aan het correct formuleren en het operationaliseren van een onderzoeksvraag. De cursist krijgt inzicht in de wijze waarop de vertaling van de onderzoeksvraag naar analyses kan worden gemaakt. In rap tempo wordt kennisgemaakt met het computerprogramma SPSS, waarbij in de daaropvolgende dagen veelvuldig zal worden geoefend met data. In de cursus wordt gebruik gemaakt van Excel en SPSS.

Eindtermen

Na afronding van deze cursus:
- heeft de cursist kennis en inzicht in het verloop van het onderzoeksproces;
- heeft de cursist inzicht in statistische methoden en basis en geavanceerde technieken;
- is de cursist in staat de keuze voor een specifieke analyse adequaat te kunnen verantwoorden;
- heeft de cursist grondige kennis van de achtergrond van de behandelde statistische analyses;
- is de cursist in staat analyses verantwoord toe te passen op concrete onderzoeksvragen, alsmede
de hieruit voortkomende resultaten zelfstandig te kunnen interpreteren
- heeft de cursist concrete methoden in handen voor het eigen onderzoek

Cursusinhoud

In deze cursus wordt gewerkt met korte informatieblokken, afgewisseld met praktijkopdrachten.

Dag 1: Wat is statistiek, wanneer en hoe kan het worden gebruikt (basisbegrippen statistiek)
Statistiek in bredere context
Waarom wordt statistiek gebruikt
Steekproef
Standaard deviatie
Soorten steekproeven
Oefenen sd
Beschrijvende statistiek en data-inspectie
Het proces
Inferentiële en descriptieve statistiek
Descriptieve maten, centrummaten, spreidingsmaten
Scoreverdelingen, kansverdeling en betrouwbaarheidsinterval
Scheefheid en gepiektheid
Meetniveaus
Data-inspectie (missende waarden en extreme waarden)
Boxplots
Scatterplots 

Dag 2: Wanneer wordt gekozen voor welke analysemethode (statistische toets, algemeen)
Begrijpend leren lezen; keuzebepaling statistische analyse
Hypotheses testen
Betrouwbaarheidsintervallen
Significantie
Criteria voor meetkwaliteit (validiteit en betrouwbaarheid)
Verschil parametrische en non-parametrische tests

Dag 3: Analyse toegelicht, meer in de diepte (t-test, ANOVA)
Onderzoeksvraag bij T-test
Verschillende soorten T-test toegelicht
One-sample t-test
Dependent sample t-test
Independent sample t-test
Analyseren in excel en/of  SPSS
Interpretatie t-test
Onderzoeksvraag bij univariate variantie-analyse (ANOVA)
Univariate variantie-analyse (ANOVA) toegelicht
Post-hoc analyse
Analyse ANOVA in excel en/of SPSS
Intepretatie ANOVA

Dag 4: Analyse toegelicht (twee weg variantie-analyse, MANOVA)
Onderzoeksvraag bij twee weg variantie-analyse
Tweeweg variantie-analyse toegelicht
Analyseren in excel en/of SPSS
Interpretatie tweeweg-variantie analyse
Onderzoeksvraag bij MANOVA
MANOVA toegelicht
Analyseren in excel en/of SPSS
Interpretatie MANOVA

Dag 5: Analyse toegelicht (Correlatie en regressie-analyse)
Het verband tussen variabelen
Het bereik van correlatie
Verschillende soorten correlaties
Causaliteit en correlatie
Analyses waarmee voorspellingen gedaan kunnen worden
Regressieanalyse
Het regressiemodel
R square
F-toets
Verschillende methodes (blockwise, stepwise, forces entry)
Interpretatie regressie
Analyses uitvoeren op de eigen dataset en de uitkosten interpreteren en rapporteren

Doelgroep

De statistiek toegepaste statistiek en data-analyse wordt afgestemd informatieanalisten, data analisten, business analisten, adviseurs en iedereen die zich bezighoudt met het vastleggen en het analyseren van informatiebehoeften binnen een organisatie.

Docent

Dr. S.(Selene) Fagel studeerde Neuropsychologie aan de Universiteit Utrecht en was werkzaam als onderzoeksmedewerker bij Altrecht en het VU Medisch Centrum.
Mevrouw dr. Fagel was tevens verbonden aan de Vrije Universiteit (VU) als postdoc. In 2013 promoveerde zij aan de universiteit van Leiden op een proefschrift getiteld 'Childhood psychopathology & development of adult schizotypal symptoms'. Zij heeft ruime ervaring in het geven van onderwijs en het verzorgen van trainingen in o.a. statistiek en data-analyse. Zij is v.a. 2008 verbonden aan Tridata als adviseur en trainer en als onderzoeker aan de Inspectie van Onderwijs. Mevrouw dr. Fagel is een van onze acht ervaren statistiek docenten.

In-company training

De statistiek cursus kan tevens als in-company training (op een locatie van uw keuze) worden gegeven. In overleg wordt het aantal deelnemers van uw organisatie bepaald en past Tridata de cursus aan uw specifieke wensen. Neemt u voor een maatwerkofferte contact op met Tridata.

 

Cursusdata Cursuslocatie
2, 9, 16, 23, 30 oktober 2017 Den Haag
20, 27 november, 4, 11, 18 december 2017 Den Haag
12, 19, 26 februari, 5, 12 maart 2018 Den Haag
Zie ook Tridata Statistical Bootcamp  

Kosten en inschrijving

De kosten van de cursus bedragen € 2495. De cursusprijs is vrijgesteld van BTW (BTW-tarief 0%) en is inclusief cursusmateriaal, deelnamecertificaat, koffie / thee, luxe lunches en inclusief boek.

Vervolgcursus

Cursus data-analyse

Uitgewerkte voorbeeld (met Excel) van een van de onderwerpen die tijdens de cursus aan bod zullen komen
Variantie-analyse uitvoeren in Excel

Variantie-analyse,een begrip uit de statistiek, vaak aangeduid als ANOVA, is een toetsingsprocedure om na te gaan of de populatiegemiddelden van twee of meer groepen van elkaar verschillen. 

A. Overzicht van ANOVA 
B. Stap-voor-stap instructies voor het uitvoeren van ANOVA in Excel 
C.Excel output interpreteren

A. Overzicht van ANOVA

We willen vaak weten of de gemiddelden van twee normaal verdeelde populaties aan elkaar gelijk zijn. Bijvoorbeeld, verdienen vrouwen even veel als mannen? Dit is makkelijk te achterhalen door een onafhankelijke t-test voor twee steekproeven uit te voeren. Wanneer we nu willen weten of Friezen, Groningers en Limburgers gemiddelde hetzelfde verdienen dan kunnen we een variantie-analyse gebruiken, ook wel aangeduid als ANOVA (Engels: 'ANalysis Of VAriance'). Dit is een toetsingsprocedure om na te gaan of de populatiegemiddelden van twee of meer groepen van elkaar verschillen. Dit in tegenstelling tot een t-test waarbij we analyseren of twee steekproefgemiddeldes van elkaar verschillen.

Een eenvoudig voorbeeld zal de gedachtegang verduidelijken.
We vragen ons af of er tussen drie verschillende beroepsgroepen systematische verschillen zijn wat betreft werkgerelateerde stress. We vergelijken : OG makelaars, advocaten en effectenmakelaars. 
De onderzoeksvraag die je kunt beantwoorden met behulp van de ANOVA is de volgende: 
Is de werkgerelateerde stress gemiddeld genomen dezelfde voor de drie groepen, of zijn er systematische verschillen? 
Hieruit volgt direct de vraag of er ook tussen de drie groepen verschillen zijn. Of bijvoorbeeld de stress bij de makelaars anders is dan de stress bij de advocaten. 
Natuurlijk zullen de gemiddelden van de drie groepen niet precies aan elkaar gelijk zijn. We vragen ons daarom af of deze verschillen tussen de groepen vergelijkbaar zijn met, of veel groter zijn dan de verschillen binnen de groepen. Om dit te analyseren wordt middels steekproeven van de drie groepen de totale "variantie", die een maat is voor de spreiding van de geobseerveerde waarden, in twee componenten geanalyseerd , namelijk de variantie binnen de drie groepen en de variantie tussen de drie groepen. 
Het onderzoek ziet erals volgt uit:
De drie groepen (makelaars, advocaten en effectenmakelaars) kregen elk 15 vragen voorgelegd over de mate van stress die zij ondervonden tijdens hun werk. Deze 15 vragen werden op een vijf punts-schaal geevalueerd, waarbij een hoger getal een hogere mate van stress indiceert. De reacties zijn per beroepsgroep samengevoegd om tot een numerieke maat voor werkgerelateerde stress te komen. 
De gevonden resultaten zijn hieronder in het Excel-bestand weergegegeven.

B. Stap-voor-stap instructies voor het uitvoeren van ANOVA in Excel

 

OG makelaars advocaten effectenmakelaars
81 43 65
48 63 48
68 60 57
69 52 91
54 54 70
62 77 67
76 68 83
56 57 75
61 61 53
65 80 71
64 50 54
69 37 72
83 73 65
85 84 58
75 58 58

Het bovenstaande is een voorbeeld van one-way ANOVA, ook wel éénweg -variantie analyse. Er is sprake van één factor (stress), en drie niveaus (de drie groepen,: nl OG makelaars, advocaten en effectenmakelaars).

Stap 1: Formuleer de hypothesen 
H0: μ1 = μ2 = μ3
H1 : μ1 # μ2 # μ3

Waarbij 
H0 = nulhypothese
H1 = alternatieve hypothese
μ1 = het gemiddelde van groep 1, 
μ2 = het gemiddelde van groep 2,
μ3 = het gemiddelde van groep 3

De nulhypothese die men bij deze vraagstelling toetst is de volgende: Het gemiddelde van de populaties waaruit de steekproeven respectievelijk komen is gelijk. 
De alternatieve hypothese is: Er is een significant (statistisch merkbaar) verschil tussen de gemiddelden van de drie groepen. 
Als de nulhypothese waar is, dan zal de "variantie tussen de groepen (bijna) gelijk zijn aan de" variantie binnen de groepen. " 

De testgrootheid van de ANOVA is de F, waarbij F is gedefinieerd als de verhouding van de twee varianties (tussen en binnen de groepen). 

Stap 2: Kies een kritische waarde (α) van bijvoorbeeld 0.05 of 0.10 voor de test. 

Stap 3: Bereken de F-statistiek met behulp van Excel data-analyse. 
Klik op Extra en kies DATA ANALYSE, volgens kiest u het juiste type van ANOVA: 



Er zijn 3 soorten ANOVA in Excel. "Single factor" ANOVA is hetzelfde als "one-way" ANOVA. Dat is wat we hebben in dit voorbeeld, omdat we alleen één factor (stress) in ogenschouw nemen. Excel kan omgaan met een willekeurig aantal groepen, zolang ze maar in kolommen zijn weergegeven. Na het kiezen van "ANOVA: Single Factor" zie je het volgende:

In "Input Range" selecteert u het bereik A1:C16, incl. de labels op de eerste Rij. 
Labels in first Row aanvinken. 

Geef de kritische waarde (α) aan (standaard staat het op 0.05). 

Kies voor New Worksheet en klik vervolgend op OK waarna de volgende output verschijnt.

             
SUMMARY            
Groups Count Sum Average Variance    
OG makelaars 15 1016 67,73333 117,6381    
advocaten 15 917 61,13333 179,981    
effectenmakelaars 15 987 65,8 137,1714    
             
             
ANOVA            
Source of Variation SS df MS F P-value F crit
Between Groups 345,3778 2 172,6889 1,191532 0,313814 3,219938
Within Groups 6087,067 42 144,9302      
             
Total 6432,444 44        

C. Excel output interpreteren

Zoals we kunnen zien is het gemiddelde niveau van stress zoals ervaren bij makelaars (M=67,73) hoger dan die van beurshandelaren (M=65,8) of advocaten (M=61,33). Maar zijn deze verschillen statistisch significant? 
Volgens de testresultaten F = 1,19, α = 0.05, is de kritiek F waarde 3,219. Omdat de berekende waarde F (1,19) kleiner is dan de kritische waarde resulteert dit in p=.31, waardoor de nulhypothese niet verworpen wordt. 

Samengevat

De verschillen tussen de gemiddelden van de drie groepen waren niet significant (p=.31), waardoor de nulhypothese de mate van stress is gemiddelde genomen gelijk voor alle beroepsgroepen niet verworpen wordt.