26 januari 2012

You Can Transcribe It! (En iets over broodkruimels)


Twee dagen geleden blogde ik nog dat het er aan zat te komen. En gisteren was het er ineens: de transcribeermodule van NARA.

Iedereen kan meehelpen, je hoeft jezelf niet te registreren en je kunt zelf kiezen wat je wilt gaan doen. Er zijn drie niveau's (beginner, intermediate en advanced) en verder kun je documenten selecteren op jaar en status (not yet started, partially transcribed en completed).

Makkelijk begin(nen)
De documenten variëren van een telegrammetje van president Abraham Lincoln aan zijn vrouw (een paar regels) tot het complete dagboek van Robert E. Peary, een Amerikaans ontdekkingsreiziger (105 pagina's).

De interface voor het transcriberen kan nog wat intuïtiever - vooral het bewegen door de afbeelding - maar het werkt allemaal erg makkelijk en eenvoudig hoor. Lastig vind ik alleen dat je nogal vaak stuit op pagina's die locked zijn. Dat wil zeggen dat iemand anders er al mee bezig is. Het zou fijn zijn als je dat al vóór de muisklik ergens aan kon zien. Of dat zo'n pagina gewoon wordt overgeslagen.

Uit de tips leid ik af dat er betrekkelijk lage eisen aan je werk worden gesteld, zeker als je dat bijvoorbeeld vergelijkt met de eisen die Transcribe Bentham stelt, een soortgelijk crowdsourcingsproject rond transcriberen van archiefdocumenten. Maar er wordt dan ook op een andere doelgroep gemikt.

Behapbaar
Het is een goede zet van NARA om overzichtelijke hoeveelheden documenten aan te bieden, in dit geval zo'n 300 stuks (in totaal zo'n 1.000 pagina's). Dat werkt waarschijnlijk beter dan zomaar een transcriptiemogelijkheid in je website plempen, zoals bijvoorbeeld het geval op gahetNA. Ik ben (nog steeds) benieuwd naar wat die laatste manier oplevert. Misschien dat ze daar ook met de module van NARA kunnen gaan werken? Die is immers gebouwd in Drupal.

Wat de manier van aanbieden betreft - in behapbare blokken - lijkt de module van NARA eigenlijk wel op Transcribe Bentham of de Tilburgse Charterbank. Verschil met die laatste twee is de laagdrempeligheid, maar samenhangend daarmee (bijvoorbeeld door het gebrek aan een inlog) dat er weinig aandacht is voor communityvorming. Via Twitter leerde ik dat dit mogelijk in de toekomst wel gaat komen.

Broodkruimels
Ik vind het prachtig. Maar aan de andere kant gaat het natuurlijk maar om kruimels. Pak ik als voorbeeld even Transcribe Bentham - een van de meest succesvolle transcriberen-via-crowdsourcen-projecten die ik ken, dan leer ik dat op dit moment (en we zijn sinds september 2010 onderweg) zo'n 45% van al de te transcriberen manuscripten daadwerkelijk is getranscribeerd. In aantallen: het betreft 2.561 van de in totaal 5.580 manuscripten. Dat is heel veel en goed werk. Tegelijkertijd zijn het eigenlijk peanuts.

Toegegeven, Transcribe Bentham stelt wel erg hoge eisen aan de transcripties, dus als je met wat minder genoegen neemt, dan gaat het een stuk sneller. Maar op de enorme aantallen papier die wij in onze depots opgeslagen hebben liggen, en waarvan grote delen al zijn gescand, zijn enkele duizenden transcripties betrekkelijk weinig.

Vooralsnog proef ik dan ook dat dit soort crowdsourcingsprojecten vooral goed uit te voeren zijn rond duidelijk afgebakende collecties of delen van collecties. Daar is sowieso makkelijker een project rond te bouwen. Voor het overige lijkt het me beter om vooral ook keihard te blijven investeren in OCR voor oude handschriften. Want dan gaan we pas écht meters maken met transcriberen.

Alle transcripties helpen
Maar tot slot een positieve noot (en da's ook de insteek van NARA): iedere transcriptie is er eentje. Iedere transcriptie maakt in ieder geval een klein stukje archief beter toegankelijk. En iedere transcriptie betekent ook een relatie tussen de archiefdienst en een klant.

En sinds gisteren is er al héél wat getranscribeerd in Amerika; het tonen van een voortgangsmetertje zou dat nog verder kunnen stimuleren.

Gerelateerd
- Alle gebruikersparticipatie nog aan toe (24 januari 2012)
- De transcribiwiki van Transcribe Bentham (29 september 2010)
- Monk: OCR voor oude handschriften (5 maart 2011)
- Thema: Crowsourcing

Afbeelding: NARAtions

Geen opmerkingen:

Een reactie plaatsen