Ana səhifə

Leesbaarheidsonderzoek: oude problemen, nieuwe kansen


Yüklə 422 Kb.
səhifə1/3
tarix25.06.2016
ölçüsü422 Kb.
  1   2   3
Rogier Kraf & Henk Pander Maat
Leesbaarheidsonderzoek: oude problemen, nieuwe kansen
Abstract

In dit artikel schetsen we eerst kort de problemen met traditioneel leesbaarheidsonderzoek. Gewapend met betere taaltechnologie en beter

onderzoek naar taal- en tekstverwerking doen we een poging om een aantal van de problemen dichterbij een oplossing te brengen: we zoeken naar minder oppervlakkige en meer causaal verklarende predictoren, we proberen ook tekststructurele predictoren te creëren, we analyseren niet alleen gemiddelde maar ook individuele tekstbegripscores en verkennen interacties tussen tekst- en lezerskenmerken.

We beschrijven T-Scan, een Utrechtse toepassing die een groot aantal kenmerken uit een tekst haalt. Daarna laten we zien hoe T-Scan kan helpen om te voorspellen welke cloze-score basisschoolleerlingen halen op een tekst. In een heranalyse van bestaande leesbaarheidsdata blijkt dat de predicties van de enige Nederlandse leesbaarheidsformule, de Cito Leesvaardigheidsindex voor het Basisonderwijs, verbeterd kunnen worden door T-Scan op de teksten los te laten. Maar we stellen ook vast dat de variantie die door de leesbaarheidsonderzoek verklaard wordt, tot dusver zwaar is overschat. Daarnaast blijkt wederom dat de causale interpretatie van de predictoren problemen oplevert. Tot slot schetsen we enkele richtingen voor vernieuwend leesbaarheidsonderzoek.


1 Inleiding
De verhouding tussen taalbeheersers en leesbaarheidsonderzoekers is gespannen. Leesbaarheidsonderzoekers lijken niet bijster gefascineerd door taal of teksten: ze nemen een paar oppervlakkige tekstkenmerken en baseren daarop vergaande uitspraken over begrijpelijkheid. En het ergste is: ze worden door het grote publiek erg serieus genomen. Het idee dat je een thermometer in een tekst kunt steken om in een half minuutje vast te stellen of er verhoging is, blijft kennelijk onweerstaanbaar.

In dit artikel gaan we zowel in op de problemen van het leesbaarheidsonderzoek als op nieuwe kansen voor beter leesbaarheidsonderzoek. Eerst schetsen we kort de bekende problemen van het klassieke leesbaarheidsonderzoek. Daarna doen we verslag van een eerste poging tot vernieuwing in zulk onderzoek. Met behulp van een nieuwe toepassing genaamd T-Scan halen we een groot aantal kenmerken uit teksten. Daarna onderzoeken we de voorspellingen die met een uitgebreidere set predictoren mogelijk zijn. Daartoe doen we een heranalyse van bestaande leesbaarheidsdata, die zijn verzameld in het kader van onderzoek ten behoeve van Cito Leesvaardigheidsindex voor het Basisonderwijs (CLIB). Uiteindelijk maken we de balans op: hoewel de problemen met leesbaarheidsonderzoek voorlopig niet uit de weg geruimd zullen worden, zijn er zeker mogelijkheden voor vernieuwd leesbaarheidsonderzoek.


2 Het leesbaarheidsonderzoek en zijn problemen
Onder leesbaarheidsonderzoek verstaan we in dit artikel: onderzoek waarin met automatisch vastgestelde tekstkenmerken de begrijpelijkheid van een tekst voor een bepaalde groep lezers wordt voorspeld. Leesbaarheidsonderzoek is dus een vorm van begrijpelijkheidsonderzoek met twee bijzondere kenmerken: automatische tekstanalyse en het direct koppelen van tekstkenmerken aan het te verwachten begripsniveau, gegeven een bepaalde lezer.

Dit supersnelle begrijpelijkheidsonderzoek heeft twee belangrijke toepassingen. Bij leesbaarheidspredictie gaat het om het controleren van de passendheid van een tekst voor een bepaalde doelgroep. Bij leesbaarheidsverbetering gaat het om het verkrijgen van een basis om een tekst zodanig te verbeteren dat hij gaat passen bij die doelgroep. Deze toepassingen verschillen sterk. Voor predictie is het niet nodig om te kunnen verklaren waarom een tekst wel of niet past bij een lezer, voor verbetering natuurlijk wel. Predictie hoeft ook niet te gebeuren aan de hand van veranderlijke tekstkenmerken; het onderwerp (of de auteur) van de tekst kan een belangrijk kenmerk zijn bij leesbaarheidspredictie, maar een tekst kan niet verbeterd worden door het onderwerp ervan te veranderen. In dit artikel zullen we het verschil tussen onveranderlijke en veranderlijke tekstkenmerken in de gaten proberen te houden.

Het leesbaarheidsonderzoek wordt vooral geassocieerd met Amerikaans onderzoek in het midden van de vorige eeuw. Staphorsius (1994, 66-113) geeft een leerzaam overzicht van deze onderzoeksperiode, waarin onderzoekers als Dale & Chall (1948), Klare (1963) en Bormuth (1966) hoofdrollen spelen. Leesbaarheidsonderzoek lijkt sindsdien minder populair, al is het niet uitgestorven (zie Petrič 1992, Tuldava 1993 en Stenner 1996). Recent heeft het leesbaarheidsonderzoek een impuls gekregen vanuit de computationele taalkunde (Collins-Thompson & Callan 2005, Schwarm & Ostendorf 2006, Heilman e.a. 2007, Pitler & Nenkova 2008, Vor der Brück e.a. 2008). Computationele onderzoekers gebruiken vaak nieuwe voorspellers, zoals statistische taalmodellen, en andere methoden om naar het verband tussen tekstkenmerk en begrijpelijkheid te zoeken, met name het gebruik van software die zelf regelmatigheden in data opspoort (de zg. machine learning).

De receptie van het leesbaarheidsonderzoek is gemengd. Enerzijds hebben leesbaarheidsformules als predictie-instrument veel praktische invloed, vooral in het onderwijs. Anderzijds worden ze steevast bekritiseerd door onderzoekers op het terrein van tekstverwerking en tekstverbetering. We noemen hieronder zes bezwaren uit die literatuur. Vrijwel alle critici van leesbaarheidsformules noemen de eerste twee daarvan (Redish & Seltzer 1985, Anderson & Davison 1988, Redish 2000, Bailin & Grafstein 2001, Jansen & Lentz 2008). Bezwaar 3 wordt het eerst genoemd door Kintsch & Vipond 1979, bezwaar 4 wordt door Jansen & Woudstra 1979. Bezwaar 5, 6 en 7 zijn afkomstig uit Anderson & Davison (1988). Bezwaar 8 is bij ons weten nog niet eerder genoemd:





  1. De gebruikte voorspellers in leesbaarheidsformules zijn niet causaal relevant voor begripsproblemen, hoogstens correleren ze met de echte oorzaken. Zinslengte is bijvoorbeeld niet causaal gerelateerd aan zinscomplexiteit.

  2. Leesbaarheidsformules suggereren ten onrechte dat teksten verbeterd kunnen worden op het niveau van oppervlakkige kenmerken als zins- en woordlengte.

  3. Leesbaarheidsformules gaan geheel voorbij aan cruciale zinsoverstijgende tekstkenmerken als coherentierelaties en de globale tekstopbouw.

  4. Leesbaarheidsformules laten buiten beschouwing dat lezen een interactie is tussen een lezer en een tekst. Het effect van een tekstkenmerk kan verschillen naargelang voorkennis of vaardigheid van de lezer.

  5. Vaak wordt niet duidelijk voor welk type teksten leesbaarheidsformules geacht worden te gelden. Daarbij wordt ten onrechte voorbij gegaan aan verschillen tussen tekstgenres en leesdoelen.

  6. In leesbaarheidsonderzoek wordt gewerkt met gemiddelde begrijpelijkheidsscores. Daardoor wordt de variantie van de begripsscores systematisch onderschat.

  7. In leesbaarheidsonderzoek wordt vaak gewerkt met teksten die enorm verschillen in moeilijkheid. Daardoor wordt de verklarende kracht van de tekstkenmerken groter dan wanneer gelijkaardige teksten worden onderzocht.

  8. In leesbaarheidsonderzoek krijgen tekstkenmerken een globale score per tekst. Daardoor wordt de variantie binnen teksten systematisch onderschat; bovendien blijft onduidelijk waar zich eventuele problemen in de tekst bevinden.

Gezien de kracht van deze kritiek lijkt het overmoedig om verder te willen met leesbaarheidsonderzoek. Toch denken we dat beter leesbaarheidsonderzoek mogelijk is, en wel om twee redenen:




  • Er is sinds 1980 psycholinguïstisch en tekstverwerkingsonderzoek gedaan dat meer informatie oplevert over de effecten van bepaalde teksteigenschappen op de begrijpelijkheid van teksten; zie paragraaf 4. Hoewel voor succesvol voorspellen niet per se een causale relatie nodig is tussen de predictorvariabele en tekstbegrip, is causaal gericht tekstverwerkingsonderzoek op zijn minst een veelbelovende bron voor nieuwe predictoren. Daarnaast zijn ‘causaal geïnspireerde’ predictoren interessanter voor een tweede doel van leesbaarheidsanalyse: de diagnose van begrijpelijkheidsproblemen in teksten. Dat doel is in dit artikel ongeschikt, maar is op langere termijn zeker zo belangrijk als succesvolle predictie.

  • Causaal gericht tekstverwerkingsonderzoek wijst op de rol van een aantal tekstkenmerken die vroeger moeilijk automatisch aan te wijzen waren. Maar er is nu taaltechnologie voorhanden die het mogelijk maakt om op automatische wijze meer intelligente uitspraken te doen over teksteigenschappen.

In de rest van dit artikel doen we een eerste poging om deze twee bronnen in te zetten in nieuw leesbaarheidsonderzoek. We richten ons daarbij natuurlijk niet op alle problemen. Wel proberen we vooruitgang te boeken wat betreft probleem 1 en 2 (we trachten de causale relevantie van predictoren te vergroten), probleem 3 (we introduceren enkele tekststructurele predictoren), probleem 4 (we gaan op zoek naar interacties tussen tekstkenmerken en leesvaardigheid) en probleem 6 (we doen analyses op zowel gemiddelde als op individuele tekstbegripsscores).


De opbouw van het artikel is verder als volgt. In paragraaf 3 introduceren we een nieuwe toepassing voor leesbaarheidsanalyse. In paragraaf 4 geven we een kort overzicht van onderzoek naar zes groepen tekstkenmerken, en geven telkens aan hoe die kenmerken in de nieuwe toepassing verwerkt zijn. Onze bedoeling is met behulp van nieuwe tekstkenmerken een bredere basis te creëren voor leesbaarheidsanalyse. In de paragrafen 5 tot en met 7 doen we verslag van een predictiestudie met het nieuwe instrument op eerder verzamelde cloze-data.
3 De taaltechnologische basis voor T-Scan

Figuur 1: Schermafdruk van de T-Scan interface. Aan de rechterkant voert de gebruiker teksten in, terwijl aan de linkerkant de te extraheren predictoren geselecteerd kunnen worden
Onze toepassing heet T-Scan, een enigszins gepermuteerd acroniem voor Software voor ComplexiteitsAnalyse van Nederlandse Teksten. T-Scan is nog in ontwikkeling, maar een alfaversie ervan draait. Globaal kan de werking ervan als volgt omschreven worden. In een webomgeving (zie figuur 1) kan de gebruiker teksten invoeren en in een lijst met predictoren aangeven welke daarvan uit de teksten geëxtraheerd moeten worden. Met een druk op de startknop wordt vervolgens eerst het annotatie- en dan het extractieproces in gang gezet.

We annoteren onze teksten allereerst met taaltechnologische software. Daarbij gebruiken we de Tilburgse applicatie Tadpole (Van den Bosch e.a. 2007) om woordsoorten te benoemen en een morfologische analyse uit te voeren. De morfologische analyse geeft naast een splitsing van woorden in morfemen, ook informatie als persoon en getal van voornaamwoorden, en herkent namen in de tekst. Tadpole is een zogenaamde machine learner, een applicatie die leert door op data te trainen. In het geval van Tadpole komen de morfologische gegevens uit de CELEX-database.

Daarnaast worden de zinnen ontleed door de Alpino-parser van de Rijksuniversiteit Groningen (Malouf en Van Noord 2004). Aan de hand van een regelcomponent en een uitgebreid lexicon levert deze applicatie voor iedere zin een boom waarin naast constituentgroepen (bv. NP voor zelfstandig naamwoordsgroep) ook de relaties tussen de constituenten zelf zijn gelabeld: de zogenaamde dependentierelaties, zoals onderwerp-persoonsvorm en lidwoord-zelfstandig naamwoord.

Met Tadpole en Alpino kan T-Scan al een flink aantal nieuwe leesbaarheidspredictoren uit de tekst halen. Behalve computationele tools (applicaties dus) zijn er in de loop der jaren ook de nodige ‘resources’, dat wil zeggen databestanden beschikbaar gekomen. Naast de woordfrequentielijsten gebruikt T-Scan gegevens uit het Referentiebestand Nederlands (RBN). Het RBN is een lexicale database (omvang ca. 45.000 woordlemma’s) waarin voor ieder lemma een schat aan informatie terug te vinden is op de gebieden van orthografie, fonetiek, morfologie, syntaxis, semantiek en pragmatiek. T-Scan gebruikt op dit moment voornamelijk informatie uit dat laatste veld, bijvoorbeeld informatie over de concreetheid van zelfstandige en bijvoeglijke naamwoorden. Verder is van het RBN gebruik gemaakt voor het aanleggen van lijsten van verbindingswoorden.


4 Onderzoek naar leesbaarheidsvoorspellers; en onze implementatie ervan
4.1 Woordmoeilijkheid
Een woord is een koppeling van een vorm aan een bepaalde betekenis. Een moeilijk woord is een koppeling die onbekend of minder bekend is bij een lezer. Dat zal meestal komen doordat de vorm minder bekend is; veelal is de betekenis dat ook, maar dat hoeft niet. Het omgekeerde, een bekende vorm met een onbekende betekenis, is mogelijk maar lijkt veel minder vaak voor te komen (bv. een lezer weet niet dat een bank ook een financiële instelling kan zijn). Het voorspellen van woordmoeilijkheid gaat dan ook meestal uit van vorm- en niet van betekeniskenmerken. Bekende kenmerken zijn dan woordlengte en woordfrequentie.

Ons is niet veel psycholinguïstisch onderzoek naar woordlengte bekend. Oogbewegingsonderzoek laat wel zien dat mensen langer kijken naar lange woorden (zie bijvoorbeeld Kliegl e.a. 2004). Duidelijk is ook dat woordlengte het voor beginnende lezers moeilijker maakt woorden te decoderen, maar dat effect neemt af tijdens de basisschool (Aghababian & Nazir 2000, Bijeljac-Babic e.a. 2004). Of lange woorden ook minder goed begrepen worden is minder duidelijk, tenminste zolang men corrigeert voor de veelal lagere frequentie van langere woorden.

Het onderzoek naar woordfrequentie is overtuigender, zowel wat betreft proces- als wat betreft productmaten. Lezers herkennen frequente woorden sneller, kijken er minder lang naar, en lezen ze sneller voor (Rayner & Duffy 1986, Just & Carpenter 1987: 70-72, Brysbaert e.a. 2003, Kliegl e.a. 2004, Rayner e.a. 2004). Just en Carpenter verklaren het woordfrequentie-effect als volgt: frequente woorden zijn vaker gezien door de lezer, zodat hun niveau van basis-activatie hoger is. Daardoor is er bij het tegenkomen van die woorden minder tijd nodig voordat hun activatieniveau zo hoog is dat men de betekenis van het woord kan activeren.

Het is van enig belang aan welk corpus de frequenties ontleend worden. Burgess & Livesay (1998) laten zien dat het verband tussen woordfrequentie en voorleestijd sterker wordt bij een groter corpus, met name bij woorden met een lage of middelhoge frequentie.

Niet alleen zijn frequente woorden makkelijker te verwerken, ze worden ook beter begrepen, hoewel het onderzoek op dat punt schaarser is. Breland (1996) analyseert de verbanden tussen woordfrequenties en de rangordening van 123 woorden op basis van meerkeuzevragen naar de betekenis daarvan. Hij rapporteert correlaties tussen de .72 en .83. Ryder & Slater (1988) onderzoeken het verband tussen woordfrequenties en een woord-invultest (eerst de betekenis, dan het woord invullen) onder basisschoolleerlingen. Ze komen tot correlaties van .85 en .95 tussen de woordfrequenties en de percentages correcte antwoorden. Pander Maat (ongepubliceerd) vindt een correlatie van .70 tussen woordfrequentie en de zelfinschatting van Mbo-leerlingen wat betreft hun begrip van niet-gelede woorden. Daarbij werd de frequentie genomen van het woord in de informele componenten van het Corpus Gesproken Nederlands.

Het mechanisme achter deze frequentie-effecten op begrip is natuurlijk anders dan die achter de woordfrequentie-effecten op verwerking, hoewel de auteurs daarover niet expliciet zijn. Woordfrequentie lijkt een voorspeller van begrip te kunnen zijn doordat het de kans voorspelt dat het woord deel uitmaakt van het vocabulaire van een lezer, met andere woorden dat het is gekoppeld aan een stabiele semantische representatie.

In het onderzoek van Pander Maat viel verder op dat de correlatie tussen frequentie en begrip voor samenstellingen veel lager was, namelijk .31. De moeilijkheid van samenstellingen blijkt mede te worden bepaald door de frequenties van de deelwoorden (die zijn resp. .33 en .16), en daarnaast waarschijnlijk ook nog door de gebruikelijkheid van de betekeniscombinatie, een factor die vooralsnog niet automatisch te behandelen is (zie Gagné 2002).

Woordmoeilijkheid is van oudsher de sterkste voorspeller in leesbaarheidsonderzoek. Anderson & Davison (1988) verklaren dit hieruit dat moeilijke woorden grosso mode voorkomen in moeilijke teksten, in de zin van teksten die veel voorkennis vereisen. Dat geldt met name voor de ‘conceptueel’ moeilijke woorden die in gecomprimeerde vorm vakkennis uitdrukken, en minder voor de woorden die alleen qua vorm moeilijk zijn. Voorzover dus infrequente woorden conceptueel moeilijk zijn, hoort woordmoeilijkheid tot de minder veranderbare tekstkenmerken.


Welke predictoren biedt T-Scan qua woordmoeilijkheid? Allereerst is er natuurlijk de woordlengte, die we nu niet alleen meer kunnen uitdrukken in letters per woord, maar ook in morfemen per woord en (binnenkort toe te voegen) syllaben per woord.

Ook de door Staphorsius (1994) gebruikte frequentiematen zijn in T-Scan geïmplementeerd. Op dit moment maken we voor ons onderzoek gebruik van Staphorsius’ frequentielijst die gericht is op kinderteksten, andere lijsten zijn eenvoudig aan T-Scan te koppelen. Daarbij nemen we zowel de frequenties op woordvorm- als op lemmaniveau (dat wil zeggen dat verbogen vormen van een woord samen worden genomen).

Omdat is aangetoond dat namen, met name herhaalde namen, anders verwerkt worden dan andere woorden (Camblin e.a. 2007), biedt T-Scan de mogelijkheid namen te negeren bij het meten van woordlengte en woordfrequenties.

Enkele andere maten op het grensvlak van woordniveau en zinsbouw betreffen:



  • het aantal nominaliseringen op basis van werkwoorden en adjectieven

  • de aantallen voorkomens van negen woordsoorten (zelfstandig naamwoord, bijvoeglijk naamwoord, bijwoord, werkwoord, telwoord, voornaamwoord, lidwoord, voorzetsel, voegwoord). In de oudste leesbaarheidsformules gold het aandeel van voorzetsels op het totaal aantal woorden als een indicatie van moeilijkheid.

Tot slot van deze sectie wijzen we op verschillende berekeningswijzen voor predictoren (niet alleen voor woordmoeilijkheid, maar voor predictoren in het algemeen). We onderscheiden de volgende soorten grootheden:



  • Een dichtheid geeft aan hoe vaak een verschijnsel voorkomt op een vast aantal woorden (meestal 1000); bijvoorbeeld: het aantal passieven op 1000 woorden.

  • Een proportie geeft aan hoe vaak de leden van een klasse een bepaald kenmerk hebben; bijvoorbeeld: welk deel van de deelzinnen heeft het werkwoord in de lijdende vorm?

  • Een ratio deelt de proportie van een klasse met een bepaald kenmerk op de restproportie van de klassen; bijvoorbeeld: de lijdende vormen gedeeld op de bedrijvende vormen.

  • Een gemiddelde vat het niveau van een schaalvariabele samen; bijvoorbeeld: het aantal letters per woord, of het aantal woorden per letter.

Verder zijn bepaalde transformaties mogelijk van een predictor. De literatuur over woordmoeilijkheid laat zien dat woordfrequenties geen lineair, maar eerder een logaritmisch verband hebben met woordbegrip (Just & Carpenter 1987, 101-102): een woord met frequentie 1000 is niet tien keer zo makkelijk als een woord met frequentie 100; uitgaande van een logaritme met grondtal 10 verhouden de begripsniveaus zich als 3 (log 1000) staat tot 2 (log 100).

Verder is het soms nuttig om de reciprook-transformatie toe te passen, dat wil zeggen een breuk om te keren. Zo vond Staphorsius (1994) dat begripsscores bij gemiddelde zinslengtes van resp. 10, 20, 30, 40 woorden niet omgekeerd evenredig zijn (lineair afnenemen) met het stijgende aantal woorden per zin, als wel evenredig is met het dalende aantal zinnen per woord: 0.10, 0.05, 0.033, 0.025; een curve die ‘afvlakt’ dus. Het toevoegen van woorden aan de zinslengte heeft minder effect op begrip naarmate de zin langer wordt.


    1. Zinscomplexiteit

Leesbaarheidsformules gebruiken meestal de zinslengte als benadering voor zinscomplexiteit. Echter, psycholinguïstisch onderzoek heeft inmiddels interessantere maten opgeleverd, die meer aansluiten bij factoren die een zin daadwerkelijk moeilijk te verwerken maken. Een belangrijke kandidaat is de lengte van de syntactische afhankelijkheden in een zin (Gibson 2000, Temperley 2007). Die lengte is bijvoorbeeld wat zogenaamde ‘tangconstructies’ moeilijk maakt.

Een andere optie vormt het gebruik van een rangorde van zinsconstructies op basis van complexiteit. Dat soort classificaties is veelal het product van taalontwikkelingsonderzoek (zie Cheung & Kemper 1992). In onderzoek van Kemper e.a. (1993) blijkt van deze lijsten de D-Levelschaal van Rosenberg en Abbeduto (1987) het sterkste verband met leesbaarheid te vertonen. In de door ons gebruikte vorm begint die schaal met enkelvoudige zinnen, en eindigt met zinnen waarin meerdere soorten bijzinnen voorkomen, dus bijvoorbeeld zowel betrekkelijke als bijwoordelijke bijzinnen.

Andere syntactische kenmerken die met moeilijkheid worden geassocieerd, hoewel over de verklaringen nog wordt gediscussieerd, zijn lijdende vormen (Ferreira 2003, Ferreira & Stacey 2001) en negaties (Kaup e.a. 2007).

Ten slotte is er een nieuwe onderzoeksstroom die complexiteit verklaart uit de voorspelbaarheid van een tekstvoortzetting: hoe verrassender de voortzetting, hoe moeilijker de tekst. Het blijkt dat voorspelbaarheid vaak een sterker verband vertoont met verwerkingssnelheid dan afhankelijkheidslengte (Konieczny 2000, Konieczny & Döring 2003, Demberg & Keller 2008).
Op de voorspelbaarheidsfactor na zijn alle bovengenoemde aspecten van zinscomplexiteit in de huidige versie van T-Scan aanwezig. De door de Alpino-parser geleverde dependentiebomen zijn bijzonder geschikt om de lengtes van syntactische afhankelijkheden te kunnen meten. Een groot aantal typen afhankelijkheidsafstanden is gedefinieerd, van afstand tussen onderwerp en persoonsvorm tot afstanden tussen de twee delen van een circumpositie (door… heen). De invloed van deze afstandstypen kan afzonderlijk bekeken worden of opgeteld als totale afhankelijkheidslengte. Ook kunnen kleine lengtes genegeerd worden; we weten niet of ook deze kleine afstanden een kritieke belasting van het werkgeheugen veroorzaken.

De D-Levelschaal van Rosenberg en Abbeduto (1987) is in licht aangepaste vorm geïmplementeerd. Een probleem aan de originele maat was o.a. dat niet iedere zin een score op de complexiteitsschaal kreeg, wat voor een applicatie wel noodzakelijk is. Wij hebben ons voornamelijk gebaseerd op de revisie van Covington e.a. (2006), die de originele schaal uitgebreid hebben van 7 naar 8 niveaus en bepaalde grammaticale constructies aan een ander niveau hebben toegekend.




    1. Informatiedichtheid

Informatiedichte teksten zijn moeilijker. Die intuïtie is in leesbaarheidsonderzoek vooral geoperationaliseerd met behulp van de type-token-ratio (TTR), de verhouding tussen het aantal verschillende woorden en het totaal aantal woorden in een tekst (zie Renkema 1983 voor een bespreking van problemen en varianten van de TTR). Hoe hoger de TTR, hoe moeilijker de tekst geacht wordt. Dickes & Steiwer (1977) en Staphorsius (1994) presenteren leesbaarheidsformules met TTR als een van de voorspellers. Experimentele steun voor de rol van de TTR komt van Kintsch e.a. (1975). Zij laten zien dat, bij een gelijk aantal proposities, een tekst met meer verschillende concepten langzamer gelezen en minder goed onthouden wordt.

Interessant is dat naar de TTR ook waarderingsonderzoek gedaan is. Zo tonen Bradac e.a. (1977) niet alleen aan dat teksten met een lagere TTR niet alleen beter begrepen worden, maar ook dat de schrijvers ervan minder competent gevonden worden. Daarmee is direct een schaduwzijde van tekstvereenvoudiging getoond.

Kintsch & Keenan (1973) presenteren ook een andere definitie van informatiedichtheid, namelijk het aantal proposities op een gegeven aantal woorden. Het blijkt dat de leestijd eerder afhangt van het aantal proposities dan van het aantal gelezen woorden. Kemper e.a. (1993) vinden een negatief verband tussen propositionele dichtheid en de goedscore op begripsvragen over de tekst.


In T-Scan wordt naast de TTR (op woordvormniveau en op lemmaniveau) de zogenaamde lexical density berekend (Halliday 1985), dat wil zeggen het aantal inhoudswoorden per clause.

We zijn er nog niet in geslaagd om de propositionele dichtheid van een tekst betrouwbaar vast te stellen. We hebben geprobeerd om naast het hoofdwerkwoord allerlei bepalingen te tellen, maar dat leidt tot overschatting voor zinnen met veel korte en weinig informatieve bijwoordelijke elementen als hou daar eens even snel mee op. Brown e.a. (2008) hebben voor het Engels al een soortgelijke methode toegepast, maar gebruikten een aantal regels om overtelling te voorkomen. Dat lijkt voor het Nederlands ook nodig.

Ten slotte worden enkele maten berekend die er syntactisch uitzien, maar eigenlijk informatiedichtheid betreffen:


  • het aantal bijwoordelijke bepalingen per clause en per zin;

  • het aantal bijvoeglijke bepalingen per naamwoordgroep.

Beide soorten modificaties voegen proposities toe aan een zin zonder veel woorden toe te voegen, en verhogen daarmee de propositionele dichtheid.
4.4 Coherentiekenmerken
Het onderzoek naar de relatie tussen tekststructurele kenmerken en leesbaarheid heeft zich veelal gericht op de rol van expliciete markeringen van met name causale coherentierelaties. Die maken dat de volgende zin sneller wordt gelezen (Sanders & Noordman 2000), en verbeteren het begrip van de tekst (Degand & Sanders 2000, Land 2009).

Voor leesbaarheidsonderzoek levert dat nog niet direct iets op, omdat we nog niet automatisch kunnen vaststellen of een tekst een connectief zou moeten bevatten: het identificeren van ongemarkeerde coherentierelaties staat nog in de kinderschoenen. We kunnen dus ook niet vaststellen of een relatie ongemarkeerd blijft. Recent hebben Sanders & Staphorsius (2008) op basis van de CITO-leesbaarheidsdata (zie par. 5) een kleinschalig onderzoek gedaan naar het verband tussen coherentierelaties, markeringen daarvan en cloze-scores. Daarbij lijkt er een positieve relatie tussen causale relaties en causale markeringen enerzijds en cloze-scores anderzijds.

Wat betreft de referentiële structuur van teksten laten Britton e.a. (1991) zien dat het goed is voor het tekstbegrip wanneer centrale begrippen van zin op zin herhaald worden. Crossley e.a. (2006) rapporteren een positieve (zij het zwakke) bijdrage van argument-overlap aan cloze-scores.

T-Scan telt de connectieven in de teksten met behulp van een lijst met 248 verbindingswoorden, verdeeld in additieve, causale (waaronder conditionele), comparatieve, temporele en contrastieve connectieven. We vatten de connectieven op als indicatie voor de aanwezigheid van een bepaald soort relaties in de tekst, niet als indicatie voor de mate van markering daarvan. Meerduidige verbindingswoorden zijn buiten beschouwing gelaten (hiernaast kan bijvoorbeeld additief zijn, maar ook een plaats aanduiden; dan kan zowel causaal-conditioneel zijn als temporeel). De lijst bevat vooral bijwoorden en voegwoorden. Maar omdat we geïnteresseerd zijn in de aanwezigheid van bepaalde relaties in een tekst, hebben we in de lijst ook voorzetsels opgenomen die ondubbelzinnig verbonden zijn aan een bepaalde relatie (dankzij en gezien zijn bijvoorbeeld bij de causale markeringen gerekend).

Wat betreft referentiële coherentie wordt allereerst het aantal terugverwijzende woorden geteld, dat wil zeggen persoonlijke en bezittelijke voornaamwoorden in de derde persoon, en aanwijzende voornaamwoorden. Daarnaast wordt gekeken naar herhaalde argumenten in de zinnen, zowel op woordvorm- als op lemmaniveau. We beperken ons noodgedwongen tot expliciete herhaling omdat we in T-Scan nog geen automatische referentiële analyse hebben. Er wordt zowel gekeken naar herhalingen op korte afstand (argument komt eerder voor in de vorige zin) als die op wat langere afstand (argument komt eerder voor in de voorgaande 50 woorden).

Het onderzoek van Britton e.a. (1991) laat zien dat argument-overlap een goed veranderbaar tekstkenmerk is. Dat geldt ook voor markeringen van coherentierelaties (Land 2009). De coherentierelaties zelf daarentegen zijn sterk vervlochten met de tekstinhoud.


4.5 Concreetheid
Sadoski e.a. (2000) en Sadoski (2001) melden dat concrete teksten beter gewaardeerd en onthouden worden dan abstracte teksten. Het probleem met dit onderzoek is dat verschillende teksten over soortgelijke onderwerpen zijn gebruikt. Overtuigender, maar uniek in zijn soort, is in dit opzicht de studie van Wharton (1980), die een geschiedenistekst reviseerde op concreetheid en voor de concrete versie een betere begripsscore vond. Hij verving ongeveer 1 op de 8 woorden, op volgende manier:


Abstract

Concreet

England’s trade was the source of her economic strength, and to undermine it would be to destroy England’s power in war.

England’s trade was the sinew of her economic strength, and to shrivel it would be to cripple England’s power in war.

Dit voorbeeld laat beperkingen zien aan de veranderbaarheid van tekstconcreetheid. Wharton kan de proposities slechts gelijk houden door metaforische concrete woorden in te voegen. Bij het vergelijken van verschillende teksten met verschillende inhouden zal de maat voor woordconcreetheid eerder de concreetheid van het onderwerp dan van de stijl meten.


Concreetheid wordt in T-Scan benaderd via informatie uit het RBN. Voor de zelfstandige naamwoorden (29.300) en de adjectiva (6.300) in dit lexicon is een semantisch type gedefinieerd. Voor de nomina geven de blaadjes aan de boom in Figuur 2 de mogelijke typen weer.



Figuur 2: Overzicht van het semantisch typeveld voor zelfstandige naamwoorden in het Referentie Bestand Nederlands (bron: Referentie Bestand Nederlands Documentatie: http://www.inl.nl/images/stories/tstc/rbn_documentatie.pdf )
Woorden als water (substance), auto (artefact), tulp (concrother) vallen in Figuur 2 onder de noemer concreet, terwijl idee (nondynamic) en vergadering (dynamic) abstracte woorden zijn. Wij zien in T-Scan ook “animate” woorden zoals schilder (human) en regenworm (nonhuman) als concreet. Voor de woorden met de waarden “place”, “time”, “measure” en “institution” was het lastiger om een besluit te nemen. We hebben daarom een strikte vorm van concreetheid gedefinieerd waarbij we deze woorden niet meetellen, en daarnaast een bredere variant waarbij ze wel meedoen.

Voor adjectieven onderscheidt het RBN:



  1. adjectieven die samengaan met concrete nomina, bijvoorbeeld rond en vierkant;

  2. stofadjectiven als gouden en plastic;

  3. kleuradjectieven als: rood, blauw, etc.;

  4. adjectieven die een emotie of emotionele toestand uitdrukken, bijvoorbeeld blij, woedend of gek;

  5. adjectieven die afgeleid zijn van geografische namen, zoals Nederlands;

  6. tijdsaanduidende adjectieven als toenmalig en altijddurend;

  7. abstracte adjectieven, die niet tot de bovenstaande categorieën gerekend mogen worden.

Ook hier hebben we een strikte en een brede variant van concreetheid gedefinieerd. De eerste drie categorieën beschouwen we als concreet in strikte zin; bij de brede variant tellen de categorieën 1 tot en met 6 mee.

Een beperking van een lexicale database als het RBN is dat sommige woorden uit de te analyseren teksten er niet in voorkomen Voor het door ons geanalyseerde CITO-corpus (zie par. 5) woorden hebben we echter een redelijke dekkingsgraad gevonden: we vonden 81.6% van onze nomina, 94.1% van onze adjectieven en 96.4% van onze werkwoorden terug in het RBN. We zullen moeten bezien hoe sterk deze getallen gaan veranderen wanneer we teksten die gericht zijn op een volwassen publiek gaan analyseren.

Een tweede mogelijk probleem is dat aan een woordvorm meerdere betekenissen gekoppeld kunnen worden, en dus ook mogelijk andere semantische typen. Een exacte analyse van dit probleem ontbreekt nog, maar we schatten het effect minder zwaar in dan het dekkingsprobleem. Het RBN geeft overigens wel alternatieve waarden voor het semantisch type van een woord indien het ambigu is in zijn betekenis. We hebben nog geen technologie ingebouwd om woorden automatisch te desambigueren.
4.6 Persoonlijkheid
Een concrete tekst is ook vaak persoonlijk, in die zin dat in concrete teksten meer mensen of anderszins persoonlijke wezens voorkomen. Flesch (1948) stelde voor deze dimensie te vatten in zijn Human Interest Formula. Daarin kwamen drie kenmerken voor:


  • het aantal persoonlijke woorden, opgevat als woorden met een ‘natuurlijk’ geslacht (hij, zij, actrice, bakker) en daarnaast de woorden people en folks;

  • het aantal citaatzinnen;

  • het aantal vragen, bevelen, verzoeken aan de lezer en uitroepen.

Er is niet veel onderzoek naar het effect van dit persoonlijkheidskenmerk, en het weinige dat er is betreft tekstwaardering. Qureshi (1979) en Croll & Moskaluk (1977) vinden voor inleidende psychologieteksten substantiële correlaties tussen Flesch-scores en Human-Interest-oordelen van studenten; Qureshi (1989) vindt deze echter niet meer.
De relatie tussen leesbaarheid en Human Interest is dus nog niet evident; toch menen we dat het de moeite waard kan zijn om enkele ‘persoonlijkheids’-kenmerken uit de teksten te halen. In T-Scan kunnen we met behulp van onze annotatie en wederom het RBN nomina identificeren die verwijzen naar een persoon: woorden als bakker, wandelaar en egoïst dragen allen het label “human”. Daarnaast kunnen we uit onze annotatie eenvoudig de 3e-persoons persoonlijke en bezittelijke voornaamwoorden halen (we tellen alleen men niet mee als het gaat om persoonlijkheid). En ook namen konden we al herkennen. Op basis van een steekproef in het CITO-corpus (zie par. 5) nemen we aan dat alle namen regelmatig naar personen verwijzen. In de toekomst hopen we een module toe te voegen die namen kan verdelen in persoonsnamen, geografische namen en organisatienamen.

We tellen de menselijke nomina, de persoonlijke en bezittelijke voornaamwoorden en de namen bij elkaar op om het aantal persoonsverwijzingen in de tekst vast te stellen. Ook de emotionele adjectieven uit RBN kunnen iets zeggen over het persoonlijkheidsgehalte van een tekst.

Ten slotte de vragen en imperatieven. Vragen zijn vrij goed te herkennen aan het vraagteken en/of de aanwezigheid van een vragend voornaamwoord. We proberen het aantal imperatieven te bepalen door Tadpole en Alpino te combineren: bij persoonsvormen (herkend door Tadpole) die niet vergezeld worden door een onderwerp (herkend door Alpino) lijkt het doorgaans om een imperatief te gaan. Een uitzondering daarop vormt een telegramstijl-zin als “Kom zo naar je toe.
4.7 Overzicht
Tot slot een kort overzicht van de tekstkenmerken die in de huidige versie van T-Scan geïmplementeerd zijn.
Tabel 1. kort overzicht van T-Scan-predictoren

Groep

Voorbeelden

Woordmoeilijkheid

Woordlengte, woordfrequenties, lemmafrequenties, namen, nominaliseringen, woordsoorten

Zinscomplexiteit

Zinslengte, afhankelijkheidslengtes, D-Levelwaarde, lijdende vormen, ontkenningen

Informatiedichtheid

Type-token-ratio, lexical density, bijwoordelijke en bijvoeglijke bepalingen

Coherentie

Connectieven, terugverwijzende voornaamwoorden, argument-overlap tussen zinnen

Concreetheid

Concrete adjectieven en nomina (breed en strikt gedefinieerd)

Persoonlijkheid

Persoonsverwijzingen, emotionele adjectieven, vragen en imperatieven

Teruggrijpend op de probleemschets in paragraaf 2 hebben we in T-Scan vooral het volgende gedaan: we proberen de causale relevantie van onze predictoren vooral op het punt van zinscomplexiteit te verbeteren en we hebben enkele (nog eenvoudige) tekststructurele voorspellers toegevoegd. Meer algemeen hebben we meer aandacht besteed aan concreetheid en persoonlijkheid dan voorheen is gebeurd, en de informatiedichtheidsmaten uitgebreid (naast type-token-ratio hebben we nu ook lexical density en maten rond bepalingen). Al deze uitbreidingen zijn mogelijk geworden door de beschikbaarheid van nieuwe taaltechnologie.


5 Onze testcase: de CITO-leesbaarheidsdata
Laten we een serieuze leesbaarheidsformule definiëren als een formule die is gebaseerd op empirisch begrijpelijkheidsonderzoek van enige omvang, dat volgens de regels is gerapporteerd. In dat geval kent Nederland slechts éen serieuze leesbaarheidsformule: die van Staphorsius (Staphorsius 1994, Staphorsius & Krom 1985). Immers, de Flesch-Douma formule (Douma 1960) is niet gevalideerd, en de validatie van de formule achter het programma Texamen (Visser & Heij 2006) is, voorzover aanwezig, niet gepubliceerd, zodat niet vaststaat of hij aan elementaire eisen voldoet.

De formule van Staphorsius (1994) kent vier voorspellers:



  • GWL: de gemiddelde woordlengte in letters;

  • PFREQ77: het percentage hoogfrequente woorden. Dit is bepaald met een frequentielijst gebaseerd op basis van een corpus jeugdteksten, bestaande uit 240 zakelijke en 240 fictieteksten. De PFREQ77 is het percentage tekstwoorden dat voorkomt in de 998 meest frequente types; die types vormen samen ongeveer 77% van de tokens in de frequentielijst.

  • TTR: de type-token-ratio;

  • PZW: het percentage zinnen per woord.

De CLIB vormt samen met een voorspeller van technische leesbaarheid nog steeds de basis voor AVI-niveaus waarin leesstof voor het basisonderwijs sinds jaar en dag wordt ingeschaald.

De formule is het resultaat van uitgebreid empirisch onderzoek, dat in de jaren tachtig is uitgevoerd. In dat onderzoek verklaarden de CLIB-predictoren 72% van de variantie in cloze-scores. Het onderzoek richtte zich op basisschoolleerlingen en gebruikte 240 zakelijke teksten van rond de 300 woorden, die variëren op drie kenmerken:


  • leeftijdsniveau van de doelgroep (7-8 jaar, 9-10 jaar en 11-12 jaar)

  • bronnen (8 soorten, bijvoorbeeld jeugdtijdschriften, encyclopedieën, verschillende soorten schoolboeken)

  • onderwerpen (12 in getal: filosofie, sociale wetenschappen, economie, psychologie, natuur, gezondheid, hobby, landbouw, techniek, kunst, geschiedenis en geografie).

Elke tekst is als cloze-test voorgelegd aan 36 kinderen, die op basis van een eerder afgenomen test werden gekozen op 12 niveaus van begrijpend lezen. Elk kind maakte twee teksten. De cloze-testen werden ontworpen door deletie van ieder zevende woord, waarbij de titel en de eerste zin intact bleven. Verder werden eigennamen en getallen in cijfers ongemoeid gelaten. Er werden open plaatsen zonder antwoordalternatieven aangeboden. Alleen exact goede antwoorden werden goed gerekend.

Van de zeven mogelijke deletiepatronen (1e-8e woord, 2e-9e woord enzovoort) zijn er per tekst drie afgenomen; de correlaties tussen de drie cloze-vormen liggen tussen de .68 en de .72. Door de scores op de drie vormen te middelen, wordt de test voor een tekst met een factor 3 verlengd. Met de Spearman-Brown formule voor testverlenging komt de betrouwbaarheid dan uit op .875 (zie voor meer gegevens over de betrouwbaarheid en de validiteit van de cloze-toetsen Staphorsius 1994, 156-169).

Over de cloze-toets is wel opgemerkt dat hij geen valide meting is van tekstbegrip, omdat hij gevoelig is voor lokale vormen van redundantie. In dat geval zou het door elkaar gooien van de zinnen van een tekst geen invloed hebben op de cloze-score, en dit is wat Shahanan, Kamil & Tobin (1982) vinden. Staphorsius (1994) rapporteert echter een verbeterde replicatie van dit onderzoek waarin wel degelijk een effect van tekstvolgorde wordt gevonden. Verder meldt Jonz (1990) na een analyse van acht eerder gerapporteerde cloze-testen dat mechanische deleties tamelijk gespreid zijn in de omvang van de context waarop ze een beroep doen. Telkens zijn er zowel items die vooral lokaal opgelost kunnen worden als items die buiten de deelzin opgelost moeten worden. Ten slotte wijzen we op onderzoek van Kamalski (2007) dat laat zien dat cloze-testen niet alleen veel betrouwbaarder zijn dan begripsvragen, maar ook verrassend hoog correleren met metingen op situatiemodel-niveau. Kortom, het is niet zo duidelijk wat de cloze-test precies meet. Maar de methode kan zeker evenveel aanspraak maken op betrouwbaarheid en validiteit als de vaker gebruikte methode van begripsvragen.

De net beschreven leesbaarheidsdata zijn van grote waarde: niet alleen is een groot aantal teksten gebruikt, die volgens een weloverwogen steekproefmodel zijn geselecteerd, ook de afname van de cloze-testen en de selectie van proefpersonen is zeer zorgvuldig. Wij prijzen ons daarom gelukkig dat Gerrit Staphorsius bereid bleek om de data met ons te delen. Door technische problemen konden niet alle observaties achterhaald worden, maar wat resteert is zeer de moeite waard. We hebben de beschikking over de resultaten op leerlingniveau voor 239 teksten, die gemaakt zijn door tussen de 28 en 36 leerlingen per tekst. In totaal gaat het om 3659 leerlingen die elk 2 teksten gemaakt hebben.


6 Regressie-analyses op geaggregeerde tekstgegevens
In leesbaarheidsonderzoek worden begripsprestaties van verschillende lezers op een tekst meestal geaggregeerd tot éen tekstbegripsscore. Vervolgens worden de tekstkenmerken gerelateerd aan deze tekstscores. We analyseren onze data eerst op deze traditionele manier, en gaan na of de CLIB-predictie van de cloze-scores te verbeteren valt.

We begonnen met het herhalen van de analyse met de CLIB-predictoren, omdat niet alle data nog beschikbaar zijn. Een regressiemodel met type-token-ratio, woordlengte, woordfrequentie en zinslengte heeft een R van .801 en- een Adjusted R2 van .636 (zie Tabel 4). Dat betekent dat nu nog 63.6% van de variantie in cloze-scores verklaard wordt. Staphorsius (1994) rapporteerde een R2 van .72. De teruglopende kracht van het model is waarschijnlijk te wijten aan het feit dat het evenwicht in de dataset verstoord is door de verloren gegane observaties. Oorspronkelijk had iedere tekst 12 maal 3 leerlingen van elk leesvaardigheidsniveau, waarbij elk van de 3 leerlingen een andere cloze-vorm kreeg voorgelegd. Omdat er voor een aantal teksten leerlingobservaties verdwenen, zijn er kleine onregelmatigheden in de vaardigheidsniveaus en de cloze-vormen ontstaan.


We gaan nu over tot onze poging de CLIB te verbeteren met T-Scan kenmerken. Wellicht ten overvloede zeggen we erbij dat die poging een verkennend karakter heeft: we proberen een groot aantal predictoren uit, zonder hypotheses over de kenmerken die wel en niet effecten zullen vertonen.

T-Scan produceert een groot aantal predictoren, die uiteenvallen in zes groepen, zie Tabel 2. De predictoren binnen de groepen kunnen globaal beschreven worden naar het tekstkenmerk dat centraal staat (bijvoorbeeld de lijdende vorm, of de woordfrequentie). Daarbinnen kunnen weer verschillende rekenkundige vormen onderscheiden worden (dichtheden, proporties e.d.); daarnaast zijn er kleine inhoudelijke variaties. Zo zijn er 33 woordmoeilijkheidspredictoren, waarvan er 22 teruggaan op woordfrequentie en woordlengte. De variaties bij woordfrequentie betreffen:



  • al of niet lemmatiseren

  • het al of niet meenemen van namen

  • het nemen van een gemiddelde woordfrequentie dan wel het percentage eenvoudige hoogfrequente tekstwoorden

  • en vervolgens het variëren van de frequentiedrempel waarboven een woord als hoogfrequent wordt beschouwd.

En bij woordlengte wordt gevarieerd op:

  • het al of niet meenemen van namen

  • het meten van lengtes in letters of in morfemen.

Van de 117 predictoren van zinscomplexiteit, hebben er 91 betrekking op allerlei afhankelijkheidslengtes (werkwoord-subject, werkwoord-object, werkwoord-voorzetselvoorwerp, lidwoord-naamwoord, enzovoort). De overige 26 kenmerken betreffen zinslengte, aantal deel- en bijzinnen, D-Level, ontkenningen, verschillende soorten hulpwerkwoorden, koppelwerkwoorden, lijdende vormen en werkwoordstijden.
Tabel 2. T-Scan-predictoren per groep

Groep

Aantal

tekstkenmerken

Aantal predictoren

Woordmoeilijkheid

(incl. woordsoorten)

13

33

Zinscomplexiteit

11

117

Informatiedichtheid

5

6

Coherentie

8

18

Concreetheid

4

12

Persoonlijkheid

13

21

Totaal

54

207
  1   2   3


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©atelim.com 2016
rəhbərliyinə müraciət