Statistiek



De chi-kwadraattoets

Bij de begeleiding in 4 havo (aardrijkskunde) werd me om een uitleg over de chi-kwadraattoets gevraagd. Ik zal trachten deze vraag te reconstrueren en er via intermezzo's een onderbouwende uitleg aan te geven. De vraag was aldus:

Stel, je wilt weten of het percentage van de beroepsbevolking dat in een bepaalde sector werkt, in gebied A anders is dan in gebied B. In gebied A werkt 20% van de bevolking in de primaire sector, 50% in de secundaire sector en 30% in de tertiaire sector. Om te kijken of deze verhoudingen ook gelden voor gebied B, gebruik je de chi-kwadraattoets.

Zonder eerst aan de chi-kwadraattoets te denken moest ik me realiseren wat er in de tekst met deze termen bedoeld werd. Tijdens de industrialisatie kregen we een verschuiving in de beroepsbevolking ten koste van de primaire sector. De
primaire sector omvat de landbouw en de visserij, de
secundaire sector de industriële bedrijvigheid, de
tertiaire sector handel, diensten en vervoer, en de
quartaire sector hulpverlening, maatschappelijk werk e.d.

De CKT (chi-kwadraattoets) is een toets die je gebruikt om te vergelijken op benoemingsniveau (nominaal niveau, waarbij je iemand aanduidt met 'slager, katholiek, middenstand, etc.). In dat benoemingsrijtje passen ook personen uit de primaire, secundaire en tertiaire sector. (Zie verder bijlage 1)

Wanneer je een vergelijking maakt, ontdek je overeenkomsten en verschillen tussen aantallen in twee gebieden, populaties of categorieën.
Daar kun je zelf ook best een beetje over filosoferen of die verschillen toevallig zullen zijn of niet, maar de CKT is een zo goed wiskundig onderbouwd hulpmiddel dat je daarmee een veel precieser, betrouwbaarder beeld kunt krijgen.

Het is in dit soort gevallen enorm moeilijk je eigen idee of gevoel buiten te sluiten, zeker als je er bij betrokken bent. Misschien dat ik dat nog uitleg aan de hand van dit voorbeeld: "Ik zou minder graag in A (Almen) willen wonen dan in B (Barchem), gewoon omdat ik me in de primaire sector veel beter thuis voel. Mijn bakermat was immers het erve Nevenzel."

De CKT helpt je om te bepalen of deze verschillen op toeval berusten of niet, zonder dat je eigen ideeën daarbij een rol spelen. Je mag daarbij zelf het significantieniveau bepalen. Een toetsingsresultaat, waarbij besloten wordt dat H0 (zie hierna) moet worden verworpen, wordt significant genoemd.

Hoe bereken je de CKT, de c2-toets?
(c = de Gr. letter die als 'chi' wordt uitgesproken)

De berekening van de chi-kwadraattoets gaat als volgt:

  1. stel twee hypotheses op
  2. verzamel je gegevens
  3. zet de verwachte gegevens in dezelfde eenheden als de gevonden gegevens
  4. trek de verwachte aantallen af van de gevonden aantallen
  5. neem het kwadraat hiervan
  6. deel de uitkomst hiervan door het verwachte aantal

Wanneer je deze methode toepast op het voorbeeld, levert dit het volgende op:

  1. Elk onderzoek begint met het opstellen van de hypothesen (H). In dit geval luiden die als volgt:
    H0 Er is geen verschil tussen gebied A en B.
    H1 Er is  wel  verschil tussen gebied A en B.

  2. De verdeling van de gegevens uit Almen (A) verwacht je waarschijnlijk ook in Barchem (B).

     AlmenBarchem
    primair20%250
    secundair50%520
    tertiair30%230
    Om te kijken of die verdeling ook geldt in Barchem ga je in Barchem aan het tellen (bij algemene vraagstukken is vaak het gebruik van een statistisch jaarboek al voldoende). De gegevens van Almen en Barchem staan in de tabel.

     AlmenBarchem
    primair200250
    secundair500520
    tertiair300230
    Vervolgens moeten we de gegevens in dezelfde eenheden zetten. Het het verstandigst daar aantallen voor te kiezen en geen procenten. De tabel wordt dan zoals hiernaast.
    Op grond van H0 verwacht je in Barchem eenzelfde verdeling als in Almen. Je kunt nu de verwachte met de gemeten aantallen vergelijken.

    Voor jezelf had je bijv. kunnen zeggen dat er 5% verschil is in de primaire sector, 2% in de secundaire en 7% in de tertiaire sector, dus een gemiddeld verschil van 14/3 is 4,7%. Dit geringe verschil van 4,7% dat wijs je toe aan toevalligheden en je zegt dan: "Er is geen verschil tussen de sectoren in Almen en Barchem." Je hebt dan H0 geaccepteerd. Dat lijkt heel aardig, maar je hebt dan geen rekening gehouden met + en - verschillen, geen rekening gehouden met het feit dat bijv. 2% van 500 in werkelijkheid meer is dan 4% van 200 en dat soort zaken waar de chi-kwadraattoets wel rekening mee houdt. Dus laten we het nu goed doen.

  3. We maken een kolommetje waarin we verwacht (V) aftrekken van gemeten (G), dus G-V, een kolommetje voor (G-V)2 en een kolommetje voor (G-V)2/V plus dat we de totalen er nog onder schrijven.

Bestaansmid-
delen sector
A (V) B (G)G-V(G-V)2 (G-V)2/ V
primair20025050250012,5
secundair50052020  400  0,8
tertiair300230-70490016,3

totaal

1000

1000

  0

7800

29,6
Maar wat moet je met deze getallen? De uitkomst die je uit de chi-kwadraattoets hebt gekregen, is 29,6.Dit getal zegt je nog niks. Het krijgt pas betekenis door het feit dat wiskundigen daar een tabel, de c2-tabel voor hebben opgesteld.


vrijheids-  | significantie
graden      | 0,05       0,01
1 3.84 6.64 2 5.99 9.21 3 7.82 11.34 4 9.49 l3,28 5 11.O8 15.09 6 12.59 16.81 7 14.07 18.48 8 15.51 20.09 9 16.92 21.67 10 18.31 23.21 11 19.68 24.72 12 21.03 26.22 13 22.36 27.69 14 23.68 29.14 15 25.00 30.58 16 26.30 32.00 17 27.59 33.41 18 28.87 34.80 19 30.14 36.19 20 37.57 37.57 21 32.67 38.93 22 33.92 40.29 23 35.18 41.64 24 36.43 42.98 25 37.65 44.31 26 38.88 45.64 27 40.11 46.96 28 41.34 48.28 29 42.56 45.59 30 43.77 50.89 40 55.76 63.69 50 67.51 76.15 60 79.08 88.38 70 90.53 100.43 80 101,88 112.33 90 113.15 124.12 100 124.34 135.81
Voor de c2-tabel zie hiernaast.

In de tabel worden voor bepaalde significantieniveaus en vrijheidsgraden verschillende waarden aangegeven.
Onder significantieniveau verstaan we die grens waarbij we het nog toelaatbaar achten dat het toeval een rol speelt.
Als je soepel bent dan zet je de grens op 5% (= 0,05) en als je kritisch bent op 1% (0,01). Bij het vergelijken van een geneesmiddel kun je zelfs de grens zetten op 0,001.

Het aantal vrijheidsgraden (afgekort met 'Df' (degrees of freedom) of alleen 'd') is wat lastiger uit te leggen. Zo langs de neus weg gezegd is het aantal vrijheidsgraden het aantal vrije keuzes (VK) minus 1 ofwel Df = VK - 1. Een paar voorbeelden:

  1. We hebben hier 1000 mensen gesorteerd, waarvan we de gegevens in drie kaartenbakjes moeten zetten. De eerste groep (kaartjes) kunnen we in bakje 1, 2 of 3 zetten, elk bakje heeft evenveel kans genomen te worden, nl. 33 1/3 %. Als we het tweede stapeltje kaartjes willen plaatsen hebben we nog maar de keus uit twee bakjes. De kans dat het 2e stapeltje in het meest linkse bakje komt is 50 %. Voor het 3e bakje heb je 0% keus over, want daar moet het laatste stapeltje in. Dus eigenlijk heb je maar twee keer een vrije keus gehad.
  2. En soortgelijke situatie. Drie vrienden gaan met de auto naar een feest. Om te bepalen wie er terug gaat rijden maken ze gebruik van een trekking met drie lucifersstokjes waarvan er één is ingekort. Wie het kortste stokje trekt moet terugrijden.
    De eerste pakt een stokje en heeft 33 1/3 % kans het kleinste stokje te trekken.
    Als het kortste stokje dan niet getrokken is, dan heeft nummer twee dus een kans van 50% dat hij terug moet rijden.
    Wat nummer twee ook trekt, nummer drie weet dan altijd waar hij aan toe is. Nummer drie heeft geen 'vrije keus' meer.
  3. Een gastvrouw krijgt 7 bezoekers en ze heeft 8 verschillende gebakjes gekocht. Ze laat allen een keus ook al heeft de laatste nog maar keuze uit twee gebakjes. De gastvrouw zelf heeft geen keuzevrijheid meer; er blijft er immers maar één over. Het aantal vrijheidsgraden (zij het met afnemende vrijheid) is dus 8 - 1 = 7.
Welnu, wiskundigen die aan statistiek doen, die weten wat dat betekent. Wij zeggen gewoon: "Trek van het aantal mogelijkheden één af en je hebt het aantal vrijheidsgraden. Of we nu een regeltje eerder of later in de tabel moeten aflezen, what the heck!"

Terug naar ons voorbeeld. We kiezen voor een significantieniveau van 0,01 (we zijn nogal kritisch). Bij twee vrijheidsgraden (we hebben immers drie groepen) vinden we als bijbehorend getal in de tabel dat c2 niet groter mag zijn dan 9,21 als we H0 willen accepteren. We vonden c2 = 29,6 en dat betekent dat we H0 moeten verwerpen en uiteraard dus moeten kiezen voor H1.
De gevonden informatie is dus als volgt geanalyseerd:

H0 is verworpen en H1 is geaccepteerd
er is verschil tussen gebied A en B
Realiseer je dat bij analyse de vrijheidsgraad vastligt.
Het significantieniveau kun je kiezen.

De wiskundige schrijfwijze van de formule voor de c2-toets is

c 2 = S (G-V)2 / V

Hierin betekent S de som van al die verschillen die je op deze manier hebt uitgerekend. S is de Gr. hoofdletter S (gebruikt voor Som).


Bronnenboeken:


Bijlage 1.

Meetniveau's

In de statistiek onderscheiden we grofweg 4 niveau's, het
benoemings-niveau = nominaal niveau, het
rangorde-niveau = ordinaal niveau, het
verschil-niveau = interval niveau en het
verhoudingsniveau = ratio niveau.

Op nominaal niveau, wordt iets benoemd, bijv. je duidt iemand aan met 'slager, katholiek, middenstander, etc. In dat benoemingsrijtje passen ook personen uit de primaire, secundaire en tertiaire sector. Je mag slager, katholiek en middenstander best aangeven met resp. de nummertjes 1, 2 en 3, maar je mag daar nooit mee rekenen. Je kunt niet zeggen 1 + 2 = 3, want dan zeg je 'slager + katholiek = middenstander'.

Op ordinaal niveau wordt gesorteerd op grootte, belangrijkheid etc. zonder daarbij een bepaalde maat te gebruiken. Bijv. bij gym de langste voorop en de kortste leerling aan het eind; het rijtje in belangrijkheid bij het personeel op school rector (1), conrector(2), decaan (3), leraar (4); de volgorde van de meest verkochte producten zoals tarwe, gerst, rogge, haver of het IQ. Vooral deze laatste is een hele leuke, want je kunt wel zeggen dat de ene leerling meer sommetjes op kan lossen dan een andere leerling, maar je kunt niet zeggen dat ie dan bijv. 5x knapper is. Dus als je getallen voor de volgorde gebruikt, dan mag je er niet mee rekenen. Je krijgt dan kromme dingen als een decaan (3) = een leraar (4) - een rector (1).

Op interval niveau is het mogelijk om verhoudingen te bepalen voor de intervallen. We kunnen nu ook een vaste meeteenheid of maat gebruiken. Een mooi voorbeeld is de temperatuurschaal van Celsius. Je kunt bijv. wel zeggen dat het verschil (interval) tussen 30 en 60 graden Celsius 3x groter is dan tussen 20 en 30 graden, maar je kunt niet zeggen dat 80 graden 4x warmer is dan 20 graden. Dat komt omdat Celsius een willekeurig nulpunt heeft gekozen, nl. dat van smeltend ijs.

Op ratio niveau, het hoogste niveau, is het mogelijk met een vaste eenheid te meten en kunnen we ook gebruik maken van een natuurlijk nulpunt. Voorbeeld: Dit lokaal is 3x langer dan het andere, want je begint bijv. te meten aan de achterwand (= natuurlijk nulpunt) en meet vervolgens bij het ene lokaal 4 meter (vaste meeteenheid) en bij het andere lokaal 12 m.


Centrummaten en spreidingsmaten

Als je een aantal zaken hebt bekeken en daarbij aantallen, volgorde, etc. hebt bepaald, wil je daar ook graag een doorsnee-beeld of een gemiddelde van weten, maar ook hoe ver de aantallen e.d. elkaar ontlopen. Dat geven we aan met een centrummaat en een spreidingsmaat. Je voelt natuurlijk meteen aan dat dit soort maten voor elk meetniveau verschillend zullen zijn.
Opm.: Alle maten voor een lager niveau kun je ook bij een hoger niveau toepassen. Het geeft dan wel informatie-verlies.

Karakteristieke maten naar meetniveau

Meetniveau | nominaal ordinaal interval ratio
centrummaten | Mo Md x x
spreidingsmaten | d Q3-Q1 s s

**********

De modus - Mo. Voorbeeld:
Klasse        Aantal pers.

NH 26 Geref. 12 Kath. 40 overige 8 geen 14
Totaal 100
Je hebt aan de Barchemseweg een telling gedaan wat betreft de geloofsovertuiging. Je hebt volgende aantallen in de volgende klassen (groepen) gevonden (zie tabel).

Het vaststellen van de modus verloopt in twee stappen:

  1. bepaal het hoogste aantal in de verdeling (hier 40).
  2. geef de naam van de klasse met het hoogste aantal (modale klasse).
    Dus de modus is hier katholiek.
De spreidingsmaat d wordt berekend met de de formule
d = (r - rPmo) / (r - 1)
Hierin is r het aantal categorieën (hier 5) en Pmo (= proportie van het totaal aantal waarnemingen dat in de modeale klasse valt; hier 40/100 = 0,40).
d = (5 - 5(0,40)) / (5 - 1) = (5 - 2)/ 4 = 0,75
De maximale spreiding zou je hebben gehad als in elke klasse evenveel, dus 20% of de proportie 0,20 was gevallen.
d = (5 - 5(0,20)) / (5 - 1) = 1
en de minimale spreiding als alles, dus 100% of de proportie 1 in één klasse was gevallen
d = (5 - 5(1)) / (5 - 1) = 0.
Kortom de modale deviaties d liggen tussen 0 en 1.

**********


De mediaan (Md), dit is de middelste waarde, mits de waarden naar grootte zijn gerangschikt. Voorbeeld:

Klasse   Aantal = f   Som aantal = F.

50-54 5 5 55-59 7 12 60-64 3 15 65-69 8 23 70-74 11 34 75-79 7 41
Totaal 41

In twee klassen met in totaal 41 leerlingen heb ik een proefwerk gegeven met 79 meerkeuze-vragen. Na het nakijken van het proefwerk heb ik daar 6 categorieën (groepen of klassen) van gemaakt (zie tabel).
Afspraak:
Bij een oneven aantal meetwaarden nemen we als middelste waarde (n+1)/2, hier dus de 21-ste.
Bij een even aantal nemen we de waarde die ligt tussen n/2 en (n/2)+1.
Dit laatste kan ongelukkig uitkomen als de mediaan net in de buurt van de rand van de klasse (groep) valt. Het is daarom nodig goed de randen van de klasse af te spreken. De klasse waar hier de 21-ste waarneming in valt loopt van 64,5 tot 69,5. Van de 8 waarnemingen die binnen deze klasse liggen, zullen er 5 onder de mediaan liggen, 2 boven de mediaan, en één waarneming zal samenvallen met de mediaan.
De mediaan wordt berekend met de volgende formule:

Md = L + (n/2 - F)i/f
Hierin is:
L de exacte benedengrens van de klasse waarbinnen de mediaan valt;
F de cumulatieve frequentie (= somfrequentie) tot aan de mediane klasse;
f de frequentie van de klasse waarin de mediaan valt;
i de klassebreedte (interval) waarbinnen de mediaan valt.
In ons voorbeeld:
Md = 64,5 + (41/2 - 15)5/8 = 67,9.
In plaats van aantallen voor f en F kun je ook percentages invullen.

De interkwartielafstand (Q3 - Q1) is een spreidingsmaat op ordinaal niveau. Per verdeling kunnen 4 kwartielen Q1, Q2, Q3 en Q4 worden onderscheiden. Het eerste kwartiel is die waarde waar beneden 25 % van de waarnemingen ligt als de waarnemingen in volgorde van grootte worden geplaatst, het 2e waaronder 50 % van de waarnemingen ligt, etc. In formule:

Q1 = L + ((1/4)n - F)i/f
Q2 = L + ((1/2)n - F)i/f
Q3 = L + ((3/4)n - F)i/f
Q4 = L +        (n - F)i/f
waarin
L: exacte benedengrens van de klasse waarin Qi valt
F: cumulatieve frequentie tot en met de klasse juist onder de klasse waarin Qi valt
f: frequentie van de klasse waarin Qi valt
n: het totaal aantal waarnemingen
i: klassenbreedte van de klasse waarbinnen Qi valt.

De interkwartielafstand wordt gedefinieerd als:

Q = Q3 - Q1

 K       EG    f    F    F in %.

50-54 49,5-54,5 5 5 12 55-59 54,5-59,5 7 12 29 60-64 59,5-64,5 3 15 37 65-69 64,5-69,5 8 23 56 70-74 69,5-74,5 11 34 83 75-79 74,5-79,5 7 41 100 K = klasse; EG = exacte grenzen; f = freq.; F = cum. freq.

Let wel, dat er nog steeds geen vaste meeteenheid is. Het is niet mogelijk om het gewicht van elke meerkeuzevraag te kennen.

Q3 = 69,5 + ((3/4)41 - 23)5/11 = 73,02
Je doet dus net alsof de 11 waarnemingen binnen het traject 69,5-74,5 lineair verdeeld zijn.

Q1 = 54,5 + ((1/4)41 - 5)5/7 = 58,25

Q = Q3 - Q1 = 73,02 - 58,25 = 14,77

Naast de interkwartielafstand kunnen allerlei fractielafstanden worden bepaald en als beschrijvende maat worden gehanteerd. Bijv.

D = D9 - D1.
Het eerste deciel is dan het punt waaronder 10 % van de waarnemingen geordend naar grootte valt.
Zo kun je ook percentielen (honderdsten) gebruiken.
Kwartielen, decielen en percentielen worden fractielen genoemd.


**********


De centrummaat, het rekenkundig gemiddelde x, is in feite bij iedereen bekend. Voorbeeld:
Een leraar wil het gemiddelde weten van een klas over het hele jaar. Het was een klas van 26 leerlingen en hij heeft daar 8 repetities gegeven, die alle even zwaar tellen. Dan kan hij dus 26 x 8 = 208 cijfers bij elkaar optellen en de uitkomst delen door 208.
cijf.= x  aant.= f  prod.= f.x

drie 5 15 vier 20 80 vijf 30 150 zes 70 420 zeven 44 308 acht 30 240 negen 9 81
totaal 208 1294
Handig is dat niet, want dan moet hij (als hij een rekenmachine heeft) 208 cijfers intikken. Het is handiger het aantal drieën te tellen, vervolgens het aantal vieren etc. Dit zou het tabelletje hiernaast kunnen hebben opgeleverd:


s
S
()2



M.v.g. G. Nevenzel.

Overzicht van onderwerpen.