Ana səhifə

Leesbaarheidsonderzoek: oude problemen, nieuwe kansen


Yüklə 422 Kb.
səhifə2/3
tarix25.06.2016
ölçüsü422 Kb.
1   2   3

We selecteerden de meest veelbelovende T-Scan-predictoren als volgt. In elk van de zeven groepen werden eerst de predictoren gekozen die hoger dan .25 correleerden met de cloze-score, en niet hoger dan .80 correleerden met betere predictoren uit hun groep. De overblijvende predictoren werden gebruikt in een stapsgewijze regressie-analyse per groep. De predictoren die daarin een significante (en dus zelfstandige) bijdrage leverden, werden toegelaten tot de laatste ronde. Het ging hierbij om 18 predictoren. De onderlinge correlaties tussen die predictoren en hun correlatie met de cloze-score staan in Tabel 3.


(HIER ONGEVEER TABEL 3 INVOEGEN)
Bij deze voorselectie vielen een paar dingen op. Ten eerste scoren gelemmatiseerde varianten van predictoren hoger dan de oorspronkelijke versies. De TTR correleert eerst .55 met cloze-scores, in gelemmatiseerde vorm .59. De FREQ77 correleert eerst .55, de gelemmatiseerde variant .58. De argument-overlap-proportie correleert .56, in gelemmatiseerde vorm .58. Deze hogere correlaties tussen aparte predictoren enerzijds en het criterium anderzijds garanderen echter geen beter presterend regressie-model, omdat het in zo’n model gaat om het samenwerken van predictoren; voorlopig werken we verder met zowel gelemmatiseerde als ongelemmatiseerde varianten.

Ten tweede, en dat is minder goed nieuws, leveren afhankelijkheidslengtes geen betere voorspelling dan de zinslengte. Zo correleerde het gemiddelde van de langste lengte per zin .47 met de cloze, tegenover .59 voor het aantal zinnen per woord. Geen enkele afhankelijkheidslengte haalde de eindronde. Dat betekent dat we nog niet goed weten wat er nu moeilijk is aan lange zinnen. Immers, ook andere syntactische predictoren zoals D-Level en het aantal bijzinnen correleerden aanzienlijk lager met cloze-scores dan zinslengte. D-Level haalt echter wel de eindronde, waarschijnlijk omdat het net wat minder hoog correleert met zinslengte dan veel afhankelijkheidslengtes doen.

Ten derde is voor woordfrequenties het percentage frequente woorden een betere voorspeller dan de gemiddelde frequentie. Er zijn verschillende drempels gebruikt bij het vaststellen van de frequente woorden, en daarbij heeft Staphorsius al gevonden dat de voorspelling het beste is als de eerste 998 woorden als ‘bekend’ gezien worden.

Ten vierde is er weinig succes voor de coherentiekenmerken. Geen van de connectief-dichtheden haalt de drempel, en wat betreft referentiële coherentie haalt alleen een argument-overlap maat deze. Daarnaast is er de dichtheid van voornaamwoorden, die ook als een coherentiemaat kan worden gezien.

Ten slotte vallen in Tabel 3 de correlaties tussen de predictoren op. Zo correleert de proportie frequente woordlemma’s boven de .50 (of -.50) met de woordlengte in letters, met de type-token-ratio, met de argument-overlap-proportie, met de voornaamwoord-dichtheid en met de naam-dichtheid. En de type-token-ratio correleert niet alleen hoog met woordfrequentie maar ook met woordlengte en argument-overlap-proportie.
De 18 predictoren zijn gebruikt in een multipele regressie. Daarbij is eerst de stapsgewijze methode gekozen en daarna de achterwaartse methode. Voor het kleine aantal CLIB-predictoren maakt deze keuze geen verschil, maar bij een groter aantal predictoren biedt een achterwaartse methode meer zekerheid dat geen predictoren gemist worden (Field 2005, 161). In Tabel 4 blijkt dat de stapsgewijze methode leidt tot een verklaarde variantie van 70.3% met acht voorspellers. De achterwaartse regressie verklaart 72% van de variantie met elf voorspellers, waarvan er een marginaal significant is. Het weglaten van die voorspeller verandert weinig aan de verklaarde variantie.

In deze analyses is gebruik gemaakt van de oorspronkelijke, niet-gelemmatiseerde varianten van het percentage frequente woorden en de type-token-ratio. Opvallend is dat het gebruik van de gelemmatiseerde varianten van woordfrequentie en TTR de prestaties van het T-Scan model wat vermindert. Bij stapsgewijze regressie wordt dan 68.6% van de variantie verklaard, bij achterwaartse regressie 71.4%.


Tabel 4. Regressie-analyses T-Scan-predictoren




Staphorsius

B (SE)

T-Scan

stapsgewijze regressie:

B (SE)

T-Scan achterwaartse regressie:

B (SE)

Constante

47.14 (14.83)

4.05 (10.31)

260.54 (12.89)

Frequente woorden, proportie

45.17 (9.90)***

55.07 (10.01)***

57.46 (10.39)***

Woorden per letter

-7.31 (1.71)***

55.93 (31.66)#

168.97 (44.78)*

Zinnen per word


1.84 (0.22)***

1.69 (.020)***

1.35 (0.24)***

Type-token-ratio

-31.07 (9.31)***

-33.19 (8.56)***

-.34.98 (8.45)***










Passieven per clause










Gemiddeld D-Level










Woorden per morfeem







-62.22 (17.63)**

Nominalisaties, dichtheid




-0.19 (0.04)***

-0.18 (0.04)***

Lexical density










Voorzetsels, dichtheid










Aantal bijv. bep. per naamwoord







-.3.81 (1.75)*

Argument-overlap proportie










Voornaamwoorden, dichtheid




-0.08 (0.02)***

-0.08 (0.02)***

Adj. Concreetheid breed proportie







4.78 (2.47)#

Nom. concreetheid smal, proportie










Nom. Concreetheid breed, ratio




0.12 (0.06)*




Pers. Vnw.




0.10 (0.02)***

0.10 (0.02)***

Namen, dichtheid







0.05 (0.02)**













Multipele R

.801

.844

.856

R2

.642

.713

.733

Adjusted R2

.636

.703

.720

SE

5.77

5.21

5.06

F-waarde uiteindelijk model

F = 105.04***, df = 4

F = 71.42***,

df = 8


F = 56.58***,

df = 11


Legenda:

  • B= regressiegewicht; SE = standaard error

  • # = p < .10; * = p < .05; ** = p = < .01; *** = p < .001;

  • Multipele R = de correlatie tussen voorspelling en feitelijke score;

  • R2 = de verklaarde variantie, waartoe de multipele R wordt gekwadrateerd;

  • Adjusted R2 = verklaarde variantie gecorrigeerd voor het aantal predictoren.

Wat betreft de significante predictoren blijkt dat de Staphorsius-variabelen duidelijk aanwezig blijven in het nieuwe model. Nieuwe predictoren met een duidelijke meerwaarde zijn de dichtheid van nominalisaties (hoe meer hoe moeilijker), het aantal persoonlijke voornaamwoorden en het aantal voornaamwoorden. Daarbij is interessant dat het aantal voornaamwoorden gecorrigeerd voor persoonlijke voornaamwoorden, negatief correleert met de cloze. Persoonlijke voornaamwoorden maken de tekst makkelijker, maar de niet-persoonlijke voornaamwoorden kennelijk niet. Mogelijk interessante voorspellers voor vervolgonderzoek zijn ook:



  • Het aantal woorden per morfeem. De negatieve richting van het verband in de achterwaartse analyse is onverwacht. Bij gelijkblijvende woordlengte in letters is het kennelijk wat eenvoudiger wanneer het woord meer morfemen telt.

  • Het aantal bepalingen per naamwoordgroep.

  • De concreetheid van adjectieven en naamwoorden.

  • Het aantal namen in de tekst; de rol van dit kenmerk is nog onduidelijk. Op zich genomen correleert het negatief met de cloze, wellicht omdat namen minder frequent en voorspelbaar zijn. Maar gecorrigeerd voor woordfrequentie wordt het verband positief.

Wat betreft de niet-significante predictoren valt op dat argument-overlap geen bijdrage levert. Dat is waarschijnlijk het gevolg van de hoge correlaties met voornaamwoorden en persoonlijke voornaamwoorden (zie Tabel 3). Verder ontbreekt de D-Levelwaarde, kennelijk vanwege de toch nog hoge correlatie met zinslengte.


We concluderen voorlopig dat de voorspelling van de CLIB-predictoren zo’n 10% verbeterd kan worden. Dat is niet onaanzienlijk, omdat het model reeds krachtig was.

Verder vallen de hoge onderlinge correlaties tussen predictoren op. Dat roept de vraag op of cloze-scores ook voorspeld kunnen worden zonder de traditionele oppervlakkige variabelen woordlengte en zinslengte. Het voordeel van zo’n model zou zijn dat er niet de misleidende suggestie vanuit gaat dat korte woorden en zinnen tot betere teksten leiden. Een model zonder woordlengte en zinslengte blijkt nog steeds goed te presteren: in een stapsgewijze analyse wordt met negen voorspellers 67.7% van de variantie verklaard (achterwaartse regressie: 69.1% met tien voorspellers). De rol van woord- en zinslengte blijkt te kunnen worden overgenomen door variabelen als lexical density, argument-overlap en D-Levelwaarde, die eerst niet significant waren.


7 Multi-levelanalyse
De net gerapporteerde regressie-analyses overschatten de werkelijk verklaarde variantie in begripsscores. Dat komt doordat ze werken met geaggregeerde scores per tekst (239 in getal). Een analyse op individuele leerlingprestaties (7318 in getal) geeft een eerlijker beeld van de kracht van de predictoren. Immers, een leesbaarheidsformule pretendeert de prestatie van bepaalde lezers te voorspellen, niet de gemiddelde prestatie van alle lezers tegelijk. Dat is ook de manier waarop de leesbaarheidsformules in de praktijk worden gebruikt: ze wijzen teksten toe aan individuen.

Doen we zo’n individuele analyse met een klassieke regressie, dan blijkt nog slechts 20.7% van de variantie verklaard te worden door de CLIB-variabelen (was eerst 63.6%). Dat laat zien dat achter de gemiddelde tekstbegripsscores individuele verschillen schuilgaan waarop de tekstvariabelen geen vat hebben. Echter, een serieuze individuele analyse moet recht doen aan het feit dat de dataset verklarende variabelen op drie verschillende niveaus bevat: tekst, leerling en school. En aan het feit dat er behalve voorspellers op tekstniveau ook voorspellers zijn op leerlingniveau (bijvoorbeeld leesvaardigheid). Daarom is een multi-levelanalyse nodig.

De onderlinge verhouding tussen de variabelen tekst, leerling en school is complex, omdat het design van het onderzoek incompleet is: niet alle leerlingen hebben dezelfde teksten, en niet alle teksten hebben dezelfde leerlingen. Een tekst heeft tussen de 28 en 36 leerlingobservaties. Maar anderzijds heeft een en dezelfde leerling twee teksten. Verder hebben 43 scholen meegedaan aan het onderzoek, met aantallen leerlingen variërend tussen de 34 en 464. De grote scholen hebben een groot aantal (maar nooit alle) teksten, de kleine scholen slechts enkele.

Er zijn dus drie soorten variantie:



  • variantie tussen teksten, die eigenlijk het verschil tussen de beide teksten van dezelfde leerling weergeeft;

  • variantie tussen scholen, die deels ook variantie tussen teksten kan weergeven, omdat de teksten per school verschillen;

  • variantie tussen leerlingen, die ook weer voor het grootste deel verschillen tussen teksten weergeeft.

De data zijn geanalyseerd met een multi-level regressie-analyse die deze drie variantiebronnen apart houdt1. Als verklarende variabelen zijn dezelfde 18 voorspellers gebruikt als in de geaggregeerde analyses. Daarbij bleek dat de onderlinge afhankelijkheden tussen de voorspellers soms te groot waren om ze tegelijk te gebruiken; een van de voorspellers moet dan weggelaten worden. Daarbij is telkens gekozen voor de weglating die het sterkste model oplevert.

Naast de tekstkenmerken biedt deze analyse echter nieuwe voorspellers op leerlingniveau: het leerjaar en de leesvaardigheid. Gezien de snelle ontwikkeling van de leesvaardigheid tussen het 8ste en 12de jaar is te verwachten dat deze voorspellers belangrijk zijn. Leerjaar en leesvaardigheid zijn in het gefixeerde deel van het model opgenomen. We testen achtereenvolgens vier modellen, die steeds meer voorspellers bevatten (zie Tabel 5):



  • Eerst gebruiken we een model met alleen een constante; de error-varianties in die analyse geven aan hoeveel variantie maximaal verklaard zou kunnen worden.

  • Daarna volgt een model met de leerlingvariabelen leesvaardigheid en leerjaar. Dat laatste kenmerk is verwerkt door een dummy-variabele te maken voor de leerjaren 4, 5 en 6. Waarom laten we het model met leerlingkenmerken voorafgaan een model met tekstkenmerken? Ten eerste is het interessant de kracht van leerlingkenmerken en tekstkenmerken te vergelijken. Ten tweede mag van een leesbaarheidsvoorspelling worden verwachten dat hij op een bepaald leerlingniveau de prestatie op een tekst kan voorspellen.

  • Dan volgt een model met de klassieke Staphorsius-variabelen, om na te gaan wat die verbeteren aan de voorspelling met behulp van leerlingkenmerken.

  • En ten slotte een model met T-Scan-voorspellers, waaronder zich ook de Staphorsius-variabelen bevinden. Van het T-Scan model wordt bepaald of die wellicht nog een grotere verbetering van de voorspelling met behulp van leerlingkenmerken opleveren dan de Staphorsius-voorspellers. Dit laatste model beperken we tot de voorspellers die significant blijken. Welke voorspellers dat zijn staat in Tabel 6.


Tabel 5. De prestaties van vier modellen in de multi-levelanalyse

Model met:

1

Alleen constante

2

Ook

leerjaar en leesvaardigheid

3

Ook Staphorsius-kenmerken

4

Ook de andere significante T-Scan-kenmerken




S2

SE

S2

SE

S2

SE

S2

SE

Tekst

19.99

20.16

19.91

19.96

.73

.77

.06

.10

School

61.45

5.01

5.89

1.14

5.93

.98

5.93

.96

Leerlingen

204.70

3.54

171.47

2.93

131.54

2.25

125.97

2.16

Totaal

286.14




197.37




138.10




131.96




Totale reductie onverklaarde variantie








31.0%





30.0%





33.1%*




S2 = variantie; SE = standaard error

* bedoeld is: de reductie ten opzichte van model 2 (leerjaar en vaardigheid)


Tabel 6. De significante voorspellers in het uiteindelijke model

voorspellers

Β

SE

Constante

-13.03

4.69

Leerlingvariabelen







Leesvaardigheid

5.52

.12

Leerjaar_4

4.60

.48

Leerjaar_5

5.80

.51

Leerjaar_6

7.24

.55

Staphorsius-variabelen







Woorden per letter

70.09

12.10

Percentage frequente woorden

56.26

4.20

Type-token-ratio

-38.75

3.59

Zinnen per woord

1.96

.14

T-Scan-voorspellers







Voornaamwoord-dichtheid

-.086

.008

Nominalisatie-dichtheid

-.192

.017

Gemiddelde D-Levelwaarde

.59

.27

Persoonlijke voornaamwoorden-dichtheid

.090

.009

Naam-dichtheid

.025

.006

Tabel 5 laat zien dat de tekstvariantie binnen een leerling vrijwel volledig wordt verklaard door de tekstkenmerken. Dat geldt ook voor de schoolvariantie, die zoals gezegd voor een groot deel uit tekstvariantie bestaat. De leerlingvariantie, die veruit het grootst is, is echter aanzienlijk hardnekkiger. De eerste 31% ervan is te verklaren met leerlingkenmerken, en van wat overblijft verklaren de Staphorsius-tekstkenmerken 30% en de grotere set kenmerken in T-Scan 33.1%. Wederom verbetert T-Scan de CLIB dus met ongeveer 10%.

Tabel 6 laat zien welke tekstkenmerken het uiteindelijke model dragen. Over de opvallende richting van de voorspellers voornaamwoord-dichtheid (positief) en naam-dichtheid (negatief) is al eerder gesproken. Daar komt nu de eigenaardige rol van D-Levelwaarde bij: deze definitie van zinscomplexiteit, in de geaggregeerde regressie-analyse niet significant, correleert positief met de cloze. We hebben daarvoor geen goede verklaring.

Wij vinden de 30% of 33% verklaarde variantie geen slecht resultaat. Maar hij ligt wel ver van de 64% en de 70% die eerder bij de geaggregeerde analyses zijn gerapporteerd. De pretenties van leesbaarheidsformules moeten op dit punt aangepast worden. Zeker, wanneer we de verklaarde variantie bekijken als een effectgrootte is zij zeer aanzienlijk. Maar als we haar bezien als een voorspelling, komt zij tekort.


Ten slotte verkenden we interacties tussen predictoren en het niveau van de lezer. We hebben ons hierbij beperkt tot de vier CLIB-predictoren. Voor elk van die kenmerken bekeken we of de passing van het multi-level model beter wordt wanneer we het effect ervan niet voor alle lezers tegelijk schatten, maar een term opnemen voor elk leerjaar apart. Dat bleek niet het geval voor de woordkenmerken en de type-token-ratio, maar wel voor zinslengte. Tabel 7 vergelijkt de grootte van de termen die het zinslengte-effect per klas weergeven. Het effect van zinslengte neemt af naarmate leerlingen ouder worden. Het effect in groepen 5 en 6 is significant of marginaal significant groter dan dat in de groepen 7 en 8. Geen verschil was er tussen de opeenvolgende groepen 5 en 6, en tussen 7 en 8.
Tabel 7. Zinslengte-effecten in verschillende leerjaren

Effect van zinslengte voor:


Β (SE)

Contrast met groep 6

Contrast met

groep 7

Contrast met

groep 8

Groep 5

2.08 (0.15)

n.s.

Chi2 = 10.65***

df =1


Chi2 = 20.75***

df =1


Groep 6

1.84 (0.15)




Chi2 = 3.75#

df =1


Chi2 = 10.65***

df =1


Groep 7

1.48 (0.14)






n.s

Groep 8

1.23 (0.14)










1   2   3


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©atelim.com 2016
rəhbərliyinə müraciət