5 maart 2011

Monk: OCR voor oude handschriften?


Gisteren postte Henny van Schie in Archief 2.0 een bericht over Monk. In het kort gezegd is Monk software waarmee gedigitaliseerde oude handschriften geautomatiseerd full text doorzoekbaar kunnen worden gemaakt, als de software maar wordt geleerd hoe het schrift moet worden gelezen.

OCR, maar dan anders
Probleem met handschriften is dat ze allemaal verschillend zijn. Door middel van crowdsourcing kan iedereen Monk (een monnik dus) helpen met leren lezen door het transcriberen van kleine stukjes tekst. Dat gaat woord voor woord (lijkt een beetje op reCAPTCHA) en dan met behulp van een spelelement (lijkt een beetje op Google Image Labeler). Op de website van Monk kun je ook zoeken of bladeren door de al verwerkte teksten en woorden. Het zoeken zal normaal gesproken steeds betere resultaten geven.

Bij het helpen met transcriberen krijg je steeds een woord of deel van een woord voorgelegd om te ontcijferen. Want het lijkt misschien op OCR, maar is het niet. Monk is namelijk nog niet in staat om individuele letters te ontcijferen en zit nog op het niveau van het onderscheiden van afzonderlijke woorden en woorddelen. Dat blijkt ook uit de voorgeschotelde woorden, want soms zijn die nogal onlogisch geplukt uit de scans.

Monnikje spelen
Er wordt ondertussen een score bijgehouden van de door jou ontcijferde stukjes tekst. Als je tot dezelfde uitkomst komt als een andere monnik, dan verdien je een punt en een smiley. Ik stuurde de link naar Monk meteen even rond op het BHIC om te testen hoe het werkte. Enkele collega's gingen direct enthousiast aan de slag. Het spelelement werkte in ieder geval, want allemaal wilde ze toch minstens de lijst met hoogste scores binnenkomen. En iedere collega moest daarvoor natuurlijk een puntje extra pakken!

Monk doet een suggestie voor de ontcijfering. Dat vond ik gek. Het doet afbreuk aan het spelelement, maar bovendien ben je eerder geneigd moeilijk leesbare letters te lezen zoals een andere speler dat al deed (en dat is ook de enige manier om een smiley te scoren). Een andere opmerking die ik als feedback kreeg van collega's was dat het vak met de gescande, originele tekst nogal klein was. Het is zo lastig om de context van de tekst te bepalen - bijvoorbeeld de taal - of letters met elkaar te vergelijken.

Je hoeft niet in te loggen, maar dat betekent wel dat je scores niet op alle computers of onder alle browsers bij elkaar worden opgeteld. Aan de ene kant jammer, maar aan de andere kant misschien wel goed. Nu blijft een score tot een sessie beperkt en heeft iedereen steeds weer een aardige kans om binnen een sessie een topscore te halen. Bij inloggen zouden er al snel enkele nerds opstaan die de hoogste regionen van de scorelijst weten te bezetten, omdat ze iedere pauze voor monnikje spelen. Maar goed, als die fanatiekelingen elkaar opjutten, dan kan het wel erg snel gaan natuurlijk. Misschien een combinatie dan, met twee scorelijstjes? Eentje voor de vaste kern van monniken (de nerds) en eentje voor de gasten (de crowds)?

Tijdelijk testen
Monk verkeert nog volop in een testfase, maar het is duidelijk waar het project toe leidt. Ik ben ontzettend benieuwd of deze techniek uiteindelijk op grote schaal toegepast kan worden. Het volgens een gestructureerd datamodel indiceren van archiefbronnen blijft belangrijk om ze vervolgens op een gerichte manier te kunnen doorzoeken. Maar als Monk hele lappen tekst tot op woordniveau kan ontsluiten, dan maken we een grote sprong voorwaarts wat archiefontsluiting betreft. Ik bied alvast onze honderden gescande schepenprotocollen aan voor wat monnikenwerk. ;-)

Nou, probeer het snel eens uit. De website is namelijk slechts tijdelijk in de lucht.

6 opmerkingen:

  1. Tsja, het spelelement schiet zijn doel volkomen voorbij, denk ik. Op een van de akten staat 1899 en een van de vorige gebruikers heeft dat gelezen als 1893. Je krijgt dus alleen maar punten als je dat ook invult. De correctie naar 1899 levert 0 punten op. De puntenjagers zullen dus lekker kiezen voor wat er al staat, waarmee de kans op vervuiling van de bestanden alleen maar toeneemt.
    Komt nog bij dat ik helemaal niet overtuigd ben van dit soort spelelementen, maar dat terzijde. Ik hoop dat ze bij de digitalisering van de militieregisters (initiatief van Stadsarchief Amsterdam) er niet zo'n populistische poppenkast van maken.

    BeantwoordenVerwijderen
  2. @Richard volgens mij is vooraf niet ingevuld wat een andere 'speler' heeft ingevuld, maar wat het programma er op basis van 'intelligent character recognition' in dacht te herkennen. In dat geval kun je dus prima punten krijgen voor een correctie, wanneer tenminste een andere deelnemer dezelfde correctie heeft doorgevoerd.

    Ik heb het gisteren ook een poosje gespeeld, en niet eens gezien hoeveel punten ik heb verzameld, het meehelpen om zo'n gaaf handschriftherkenningstool beter te maken vond ik al leuk genoeg.

    Wie weet wat we over een aantal jaren allemaal kunnen doorzoeken aan oud archiefmateriaal!

    BeantwoordenVerwijderen
  3. @Richard: Ik ben altijd wel enthousiast over dit soort spelelementjes. In ieder geval werken ze stimulerend. En in hoeverre eventueel 'punten jagen' leidt tot vermindering van de kwaliteit van het werk, dat zou proefondervindelijk moeten worden onderzocht.

    @Albert: Ik denk niet dat de suggesties altijd van Monk afkomstig zijn. Soms wel - dan zijn het hele gekke dingen - maar soms krijg je een prima suggestie.

    En dan is er vaak iets geks aan de hand: je ziet dan het woorddeel dat Monk je voorschotelt, in de scan zie je het héle woord... en dat staat er vervolgens ook als suggestie bij! Dat moet dan wel een suggestie van een andere monnik zijn (die dus niet gewoon alleen de letters transcribeert die Monk opgeeft, maar gewoon vanuit de scan het hele woord heeft ontcijferd).

    Hoe dan ook, een schitterend project. Iedere archivaris zou er eens wat pauzes aan moeten besteden. ;-)

    BeantwoordenVerwijderen
  4. Heel leuk spel. Ben alleen niet erg tevreden over de keuze van het "woord". Kreeg 2x achter elkaar een verkeerde uitsnede: 1x een half woord en 1x een superscript gecombineerd met een woord in de zin erboven. Zeker in het tweede geval is de bijdrage zinloos voor de herkenning, lijkt me.

    Maar de methode van presenteren (met de bron erbij) vind ik niet slecht, evenals het spelelement. Mijn 'probleem' ligt bij de woordkeuze als plaatje.

    Niettemin moet iedere archivistiekstudent, als vervangend tentamen paleografie, aantoonbaar ten minste 10 sessies bij de eerste 3 topscoorders hebben gezeten, voordat ze hun diploma krijgen ;-)

    BeantwoordenVerwijderen
  5. @Chido: Ja, de software is duidelijk nog aan het leren waar woorden beginnen en eindigen.

    Wat spelletjes Monk als vervangend tentamen Paleografie is een goed idee! Moet er wel weer eerst een tentamen Paleografie worden ingevoerd. ;-)

    BeantwoordenVerwijderen
  6. @Richard Keizer. Ik heb een presentatie over het project m.b.t. de militieregisters bijgewoond. En men denkt inderdaad ook aan het gebruik van een beloningssysteem.

    BeantwoordenVerwijderen