Het grote Advalvas Scriptieonderzoek

NIEUWS

Onderwijs  13 september 2016

Het grote Advalvas Scriptieonderzoek

Een 9 is geen 9 meer
reacties 13

[snel naar: Het onderzoek: aanpak en resultaten | Hoe onderzoek je kwaliteit? | Is die hoogleraar niet gewoon een oude mopperkont? | Weerwoord | Nu de andere faculteiten nog ]

Advalvas liet drie emeritus hoogleraren scripties opnieuw beoordelen. Het resultaat is verontrustend.

Dit was niet wat ze gedacht hadden. De drie hoogleraren die meewerkten aan een onderzoek van Advalvas kregen deze zomer een onverwachte mededeling. De kwaliteit van scripties bij Geesteswetenschappen blijkt de afgelopen jaren flink afgenomen te zijn. En het ergste is: dat hebben ze zelf bewezen.

Een koekjesfabriek. Dat is de universiteit volgens critici de afgelopen jaren geworden. Een leermachine waar studenten in een hoog tempo door geduwd worden zodat ze snel hun diploma halen. Maar is dat wel zo?

Ploeteren

Wat er ook aan de universiteit verandert, één ding blijft hetzelfde: de scriptie. De lakmoesproef waar elke student op ploetert. Wie wil weten hoe goed studenten en hun opleiders de afgelopen jaren hun werk deden, moet die scripties bestuderen. Alle scripties werden ooit met een 9 beloond Want of het nou 1998 of 2016 is, de kwaliteit van een scriptie moet in elk jaar hetzelfde zijn. Of liever nog: verbeterd zijn.

Daarom kregen drie emeritus hoogleraren begin dit jaar negen master- en doctoraalscripties uit hun vakgebied opgestuurd. Die letterenscripties kwamen uit drie verschillende perioden en werden ooit met een 9 beloond. De beoordelaars kennen alle drie het cijfer niet. De werken zijn geanonimiseerd en tijdloos gemaakt. Aan hen de taak om ze opnieuw te beoordelen.

Beter opgeleid

Vooraf zien de drie emeritus hoogleraren het optimistisch in. “Mijn eigen indruk is dat er in de afgelopen twintig jaar een verbetering van het niveau plaatsgevonden heeft”, meent emeritus hoogleraar Engelse letterkunde Peter de Voogd (Universiteit Utrecht).

“De staf is beter opgeleid en men wordt meer begeleid bij het schrijven van scripties. Toen ik zelf een proefschrift schreef, moest ik alles zelf bedenken. Hoe verdedig je een stelling, hoe zet je een onderzoek op? Als studenten nu binnenkomen bij hun studie, leren ze dat meteen.”

Meer schrijfervaring

Ook de Leidse emeritus hoogleraar geschiedenis Piet Emmer heeft hoge verwachtingen. “De oudere generatie studenten had geen enkele ervaring met schrijven. De hoogleraar moest bij wijze van spreken uitleggen wat een paragraaf was.” Emmer is na de beoordeling ook blij verrast door de kwaliteit van de scripties. De vier slechtste scripties zijn allemaal van na 2011 “Ik vond het niveau niet slecht, er zaten wel wat zessen bij, maar gemiddeld waren ze aardig.”

Zessen? Inderdaad. Zessen. De drie hoogleraren wisten vooraf niet dat de scripties die zij op hun bureau kregen, topproducties waren. Dit om hun oordeel niet te beïnvloeden. En dat is ook duidelijk niet gebeurd. Gemiddeld gaven ze een 7,5 voor de scripties. Waar het gemiddelde originele cijfer een 9,1 was.

Scriptieonderzoek Advalvas 2016Hoe jonger, hoe slechter

Ook maakten zij een ranglijst van de beoordeelde scripties, de beste bovenaan, de slechtste onderaan. Deze zijn tot één lijst samengevoegd. Dat is waar het spannend wordt. Want wie die ranglijst ziet kan maar één ding concluderen: de kwaliteit van de scripties is de afgelopen jaren straf afgenomen. In de bovenste helft van de ranglijst staat geen enkele scriptie van na 2006.

De alleroudste groep scoort het best, de middengroep (tot 2008) doet het middelmatig en de scripties van na 2008 worden het allerslechtst beoordeeld. De vier slechtste scripties zijn allemaal van na 2011. Het zijn de jongste scripties die het gemiddelde zo omlaag trekken.

Geen 9 meer

“Er zit een negatieve correlatie tussen de rangordes van kwaliteit en tijd”, zegt VU-hoogleraar onderwijskunde Martijn Meeter die de resultaten bestudeerde. “De beste scripties zaten significant vaker in de eerdere jaren.” Voor de wetenschappers onder ons: “rho=.572, p=.002”. Meeter noemt het onderzoek indrukwekkend en wetenschappelijk. Dat betekent dat er maar één conclusie valt te trekken. Een 9 is geen 9 meer.

Uitgehold vak

“Het is heel verschrikkelijk”, zegt emeritus hoogleraar Claudine Chavannes-Mazel (UvA) die de beoordeling bij kunstgeschiedenis deed. “Wat een teleurstelling. Dit wil je niet. Je wilt dat studenten steeds beter worden, daar zetten wij ons voor in.”

Het zijn de jongste scripties die het gemiddelde omlaag trekken

De onthulling dat de meest recente scripties er bekaaid afkomen, komt hard binnen bij de deelnemende hoogleraren. Géén van hen had bij het lezen de indruk dat de slechtere scripties jonger waren.

“Dit is duidelijke achteruitgang”, zegt De Voogd. “Ik vrees voor de verklaring. Dat het vak uitgehold is, komt waarschijnlijk doordat de systematische opbouw weg is. Ik mis de leeslijsten, tegenwoordig wordt daar veel minder tijd aan besteed.”

Duits kan niet meer

Scriptieonderzoek Advalvas 2016Chavannes-Mazel is het met hem eens. “Ik vind het onderwijs tegenwoordig inhoudelijk weleens wat dun. Je mag alleen maar artikelen in het Engels of Nederlands opgeven. Terwijl je als je je met de Middeleeuwen bezighoudt, je ook Frans en Duits moet kunnen. Anders sluit je een groot deel van de literatuur af.”

Piet Emmer meent dat de bezuinigingen in het hoger onderwijs effect hebben gehad op de kwaliteit ervan. “Er is steeds minder tijd voor diepgang en inhoud. De studie wordt met belastinggeld betaald. Dit is wat de maatschappij ervoor overheeft.”

Met dank aan de faculteit Geesteswetenschappen voor de toegang tot de database met scriptiecijfers. Dit onderzoek was niet mogelijk geweest zonder medewerking van de emeritus hoogleraren Claudine Chavannes-Mazel, Piet Emmer en Peter de Voogd, waarvoor hartelijk dank.

-----------

 

Hoe onderzoek je kwaliteit?

Drie emeritus hoogleraren van drie verschillende universiteiten krijgen eind 2015 een pakket opgestuurd. Daarin zitten negen scripties uit hun vakgebied: Engels, geschiedenis en kunstgeschiedenis. De scripties komen uit drie verschillende perioden. Negen zijn geschreven tussen 1998 en 2003, negen tussen 2004 en 2008 en negen tussen 2009 en 2014.

De scripties zijn geanonimiseerd en alle verwijzingen naar het tijdperk zijn onleesbaar gemaakt. Literatuurlijsten en bronnen zijn aangepast. De hoogleraar mag geen enkel idee hebben uit welke tijd de scriptie komt.

Deze scripties zijn geselecteerd op het feit dat ze een relatief vergelijkbaar onderwerp hebben. Dat is ook de reden waarom bij het onderzoek voor letterenscripties is gekozen: de scripties daar verouderen niet zo snel als bij geneeskunde of de exacte faculteit.

Gelijkwaardige scripties

Dat de onderzochte scripties tot 1998 teruggaan heeft een praktische reden. In dat jaar automatiseerde de letterenfaculteit haar studentenbestanden. Gegevens uit eerdere jaren zijn slecht toegankelijk. Bovendien waren de veranderingen in het hoger onderwijs toen al flink op gang gekomen. De prestatiebeurs was ingevoerd en opleidingen werden niet meer betaald voor de aanwezigheid van de student, maar naar zijn/haar resultaten. Het onderwijs van toen moet vergelijkbaar zijn met het onderwijs van nu. Universiteiten werden al massaal bezocht en trokken niet alleen meer de kleine groep elitestudenten uit de jaren zeventig.

De nieuwe beoordelaars geven de scriptie een cijfer en maken een ranglijst. Zij weten niet dat alle deelnemende scripties ooit met een 9 of hoger beoordeeld zijn. In theorie zou er geen ranglijst mogelijk moeten zijn omdat de scripties gelijkwaardig zijn. Uit onderwijskundig onderzoek blijkt echter dat docenten altijd op een curve beoordelen. Er is altijd één scriptie die het beste gevonden wordt en ééntje die het slechtste is. Toch zouden de cijfers opnieuw hoog moeten zijn. Maar dat gebeurde dus niet. De cijfers verschilden per vakgebied. Zo viel bij kunstgeschiedenis zowel een 9,5 als een 5 en gaf de historicus maximaal een 8,5 en minimaal een 6. Gemiddeld bleken alle drie de beoordelaars even streng.

----------

 

Is die hoogleraar niet gewoon een oude mopperkont?

Oscar MopperkontAlles leuk en aardig, maar zijn die lagere cijfers voor de meest recente scripties niet het gevolg van het feit dat de nieuwe beoordelaars, hm, oud zijn? Klagen over de teloorgang van het onderwijs is tenslotte al de hobby van ouderen sinds Socrates (469 v. Chr.) mopperde over de jeugd-van-tegenwoordig: ‘Ze geven de voorkeur aan kletspraatjes in plaats van training.’

Het kan een smaakverschil in onderwerpkeuze van de scriptie zijn waardoor ze de oudere scripties beter beoordeelden. Of een voorkeur voor de dikkere scripties uit de tijd dat studenten langer over hun afstuderen mochten doen. Om dat te voorkomen is er gekozen voor scripties met een tijdloos onderwerp. Bij bestudering blijkt dat de hoogleraren ook niet de voorkeur gaven aan de dikste werken. Sterker nog, bij één baksteen van een scriptie suggereert de hoogleraar een flinke redactieronde.

Ook zijn de beoordelaars gekozen omdat zij redelijk recent met pensioen gingen. Zo beoordeelden zij werk uit de tijd waarin zij zelf het onderwijs aan andere universiteiten vormgaven en de docenten-van-tegenwoordig opleidden.

----------

 

'We zijn niet zo goed in het laten uitblinken van de top’

Twee VU-onderwijsdeskundigen proberen de achteruitgang te verklaren.

vraagtekenEen beetje gek. Zo noemt hoogleraar onderwijskunde Martijn Meeter de resultaten van het onderzoek naar de kwaliteit van scripties door de jaren heen. Want als er één ding is waarin de afgelopen jaren flink geïnvesteerd werd, dan is het wel in het scriptieonderwijs. Studenten moeten schrijven, schrijven, schrijven. Wie in de masterfase terechtkomt, heeft al een bachelorthesis geschreven. Die laatste scriptie moet eigenlijk een eitje zijn.

“Het is raar dat studenten het sinds de jaren negentig niet beter zijn gaan doen”, zegt Meeter. “Als je bijvoorbeeld scripties uit de jaren zeventig leest, zie je dat die vaak beroerd geschreven zijn. Sinds die tijd is er veel verbeterd. En die vooruitgang zou doorgezet moeten zijn.”

Tegen trends in

Volgens Meeter gaan de resultaten tegen alle trends in. “Over het algemeen wordt het onderwijs in Nederland steeds beter. Dat gelooft niemand, maar dat blijkt uit allerlei onderzoeken. Zo daalt Nederland inderdaad in de Pisa-meting [internationaal vergelijkend onderzoek van Oeso, red.] voor het middelbaar onderwijs. 

Wat wil de universiteit precies: een titel voor elke vwo’er of excellente studenten prikkelen?

Maar dat komt niet doordat wij slechter worden, maar doordat andere landen sneller stijgen.”

Verantwoordelijk voor het onderwijs bij Geesteswetenschappen is Lieven Decock. Hij is niet blij met de resultaten van het onderzoek: “Dit oogt als een totale achteruitgang. Alle vooroordelen over het hoger onderwijs worden hiermee bevestigd.”

Gechoqueerd

Vooral de nieuwe cijfers die door de beoordelaars gegeven zijn, choqueren hem. “Dat er scripties onder de 7 terechtkomen, vind ik zorgwekkend. Het is niet aangenaam om te zien dat zelfs cijfers van studenten uit de researchmasters flink naar beneden bijgesteld worden.”

Decock denkt dat de toenemende massaliteit van het hoger onderwijs invloed heeft op de resultaten. “De meest plausibele hypothese is ook de meest zorgelijke. De scripties die onderzocht zijn, kwamen van de mensen die de besten van hun generatie zijn. Dat betekent dat we kwaliteiten van de meest beloftevolle intellecten niet meer volledig benutten.”

Topstudenten

Hij verwacht niet dat het universitaire onderwijs over de hele linie erop achteruit is gegaan. Vooral doordat er de laatste jaren juist veel in het onderwijs geïnvesteerd wordt met extra contacturen voor studenten en meer intensiverende werkvormen in de colleges: “Ik denk zelfs dat de onderste laag van de studenten verbeterd is.”

‘Vroeger kon je nog ongegeneerd een jaar over een scriptie doen. Dat kan nou echt niet meer’

Ook Meeter meent dat alleen de topstudenten slechter zijn geworden. “Het Nederlands onderwijs scoort vooral in het op niveau krijgen van de groep. Maar we zijn niet zo goed in het laten uitblinken van de top. Die studenten krijgen nu minder tijd om zich in hun interesses te verdiepen. Vroeger deden de beste studenten voor de lol er allemaal extra vakjes bij. Zelf heb ik zes jaar over mijn studie gedaan. In die tijd heb ik drie propedeuses en een doctoraal gehaald. Bovendien kon je vroeger nog ongegeneerd een jaar over een scriptie doen. Dat kan nou echt niet meer. Terwijl goed schrijven een kwestie van herschrijven is. Daar heb je tijd voor nodig.”

Minder uitdaging

Eind jaren negentig werden onderwijsevaluaties bij de toenmalige letterenfaculteit ingevoerd. Decock sluit niet uit dat die nivellerend gewerkt hebben. “Als je uitdagend onderwijs geeft, vinden studenten dat geweldig. Maar de grens tussen pittig en te moeilijk is heel dun. Een docent die over die grens gaat, wordt door een aantal studenten op handen gedragen. Maar het grootste deel van de groep is daar negatief over. Even sleuren aan het niveau van het college wordt afgestraft. En negatieve evaluaties worden in het jaargesprek van de docent besproken. Ze kunnen personele gevolgen hebben.”

Hij vraagt zich af of dat evaluatiesysteem dempend werkt op de kwaliteit van het onderwijs. “Het kan zijn dat heel uitdagende vakken uit het programma verdwenen.”

Elitair

Decock vindt het niet per definitie negatief dat het niveau van de colleges op de gemiddelde student aangepast wordt. “Je kunt heel elitair lesgeven en alle studenten met de maximale bagage naar buiten sturen. Dan vallen er ook veel mensen af. Of je kunt ervoor zorgen dat het gemiddelde cohort zo goed mogelijk uitstroomt. Dat zijn twee verschillende doelstellingen.”

Het gaat hierbij vooral om de vraag wat belangrijk in het hoger onderwijs is. Wat wil de universiteit precies? Een plek zijn waar elke vwo’er een titel kan halen? Of een prikkelende omgeving voor excellente studenten vormen? 

Minder geld

De toename van het aantal studenten is al het gevolg van duidelijke politieke keuzes die doorwerken in het universitaire beleid. Ook de bezuinigingen in het hoger onderwijs waren zulke maatschappelijke keuzes.

Toch verwacht Martijn Meeter niet dat een flinke kapitaalinjectie direct alle problemen oplost. “Twee keer zoveel geld levert niet twee keer zo goede studenten op.  Op de Nederlandse universiteiten hebben we steeds minder geld per student gekregen. Dat is telkens kreunend gedragen. Het is niet aangetoond dat de kwaliteit van het onderwijs daardoor omlaag ging. Tot nu toe.”

----------

 

Nu de andere faculteiten nog

Zijn de slechter scorende scripties vooral een probleem van de faculteit Geesteswetenschappen? Hoogleraar onderwijskunde Martijn Meeter denkt van niet. “Het zou kunnen dat andere studierichtingen andere resultaten laten zien. Alfa’s hebben een andere manier van schrijven en denken dan juristen en bèta’s. Maar eerlijk gezegd kan ik geen redenen bedenken waarom die studenten het wel beter zouden doen. Zij gaan op dezelfde manier door hun studie en moeten net zo snel hun scriptie schrijven.”

Er is maar één manier om erachter te komen of alle studenten slechter zijn gaan presteren. Hoogleraar Lieven Decock, portefeuillehouder onderwijs bij Geesteswetenschappen: “Het lijkt mij een heel goede zaak als dit beter onderzocht wordt. Deze resultaten lijken zo significant dat je precies wilt weten wat die achteruitgang veroorzaakt.” Hij hoopt dat zo’n onderzoek zich niet tot zijn faculteit beperkt. “Ik zou graag zien dat dit project herhaald wordt bij faculteiten van verschillende universiteiten. Als deze resultaten breed bevestigd worden, is het de vraag of het hele universitair systeem herzien moet worden. Of dat we vooral iets moeten ondernemen voor de allerbeste studenten.”

 

Dit artikel verscheen in Advalvas Magazine 2-2016.

Floor Bal
hits 5968

{ Lees de 13 reacties }

Voordat de universiteit de hele faculteit overhoop gaat halen, twee statistische opmerkingen:

- Door de beste scripties te selecteren krijg bijna per definitie een lager cijfer in de herbeoordeling. Regression to the mean. Als je de slechtste scripties zou beoordelen zou je zeker op een hoger gemiddelde uitkomen.

- Het verband is helemaal niet zo zeker als het lijkt. Ten eerste is het een heterogene steekproef, waardoor het best door één opleiding zou kunnen komen (de grafieken laten dit niet zien). Ten tweede lijkt de gegeven correlatie met tijd weinig robuust, ondanks de lage p (wat is het betrouwbaarheidsinterval?). Er zit een behoorlijke outlier tussen. De steekproefgrootte, 27 verdeeld over drie opleidingen, is echt niet zodanig dat je ferme uitspraken kunt doen. Van het replicatiedebacle in de psychologie weten we dat het onverstandig is om blind te varen op p-waarden.

(Voor de volledigheid: ik werk niet bij de VU)

Ter aanvulling op de reactie van dhr. Moons: het artikel maakt niet duidelijk of de inhoudelijke minimale criteria voor een afstudeerscriptie zijn veranderd in de bestudeerde periode.

Ter illustratie: het zou kunnen dat een scriptie uit 1998 ten minste 75 academische bronnen moest raadplegen, tegen 50 in 2011. Een scriptiebeoordelaar neemt dergelijke minimale vereisten als uitgangspunt bij het bepalen van een cijfer. Indien de minimale criteria tussen 1998 en 2014 zijn veranderd, dan vergelijk je de facto onvergelijkbare grootheden. Een 9 in 1998 weerspiegelt derhalve iets anders dan een 9 in 2014.

Overigens wel een interessant onderzoek, en goed dat dit gebeurt. Het laat mooi zien dat het werk van een scriptiebeoordelaar toch ook behoorlijk subjectief kan zijn.

Je kunt een eind komen met een beoordelingschema en kalibreersessies tussen beoordelaars, maar het blijft mensenwerk. En het gevaar van group think blijft dan ook aanwezig.

Interessant, ja. Maar jammer dat het meteen de Volkskrant haalt. Er zijn immers veel mitsen en maren te bedenken en de conclusies zijn zeer voorbarig, maar de reputatieschade is een feit...

Ik heb nog een andere verklaring. Bij normvindingssessies heb ik gemerkt, dat docenten strenger oordelen als ze weten dat anderen hun beoordelingen en het beoordeelde werk onder ogen krijgen. Een soort angst om een softie te lijken of ondeskundig te zijn?

Dat zou een aanvullende verklaring kunnen zijn voor de lagere beoordelingen, naast het 'regression to the mean' effect waar Jonas aan refereerde. Maar het is geen verklaring voor de grote variatie in beoordeling ...

Even iets ophelderen: het gaat hier niet om de lagere beoordelingen (dat was te verwachten). Het gaat om de trend.
Bij het blinde onderzoek werden oudere scripties beter beoordeeld dan nieuwe scripties. Ze gaan allemaal iets in het cijfer omlaag, maar bij de nieuwe scripties is dat effect veel sterker. Terwijl de beoordelaar niet wist uit welk jaar die scriptie kwam.
(En dat terwijl de onderwerpen niet trendgevoelig of makkelijk te dateren waren).

We weten dat er een grote spreiding zit in de beoordeling van dit soort producten, zowel tussen beoordelaars als binnen beoordelaars van zelfde werk. Beetje vroeg om van trend te spreken?

Ben wel benieuwd of er scriptiebeoordelingsformulieren zijn gebruikt. Destijds en/of nu. Daarmee proberen wij tegenwoordig enige objectiviteit te waarborgen.

Zeer interessant en uitdagend, wel enkele vaststellingen:
1/ hoe kan worden aangetoond dat de oudere hoogleraren nu op zelfde manier kijken dan toen ze zeg maar 25j jonger waren ("maturity")
2/ een scriptie moet inderdaad zeer goed blijven, maar 'zeer goed' verandert voortdurend: ca 25j terug hoofdzakelijk ruime literatuurstudies in UGent, laatste 5j korte empirische onderzoeken; ca 25j terug refereren naar voorgaande publicaties, laatste 5j refereren naar theorieën; ca 25j terug brede opbouw achtergrond scriptie, laatste 5j bijna onmiddellijk de onderzoeksvraag en de methodologische uitwerking ervan.

Pagina's

Reageren?

Houd je bij het onderwerp, en toon respect: commerciële uitingen, smaad, schelden en discrimineren zijn niet toegestaan. De redactie gaat niet in discussie over verwijderde reacties