29 september 2010

De transcribiwiki van Transcribe Bentham


Deze week besloot het BHIC op bescheiden schaal mee te doen met het Amsterdamse crowdsourcingsproject rond militieregisters. Belangrijkste voor onderzoekers is dat daarmee een hele mooie bron online beschikbaar gaat komen, leukste voor mij is dat we ervaring op gaan doen met crowdsourcen. Vandaar dat ik me nog eens extra aan het verdiepen ben in bestaande projecten, om daar weer van te leren.

Begin augustus schreef ik al over Transcribe Bentham, dat toen nog in voorbereiding was. Vanavond nam ik de proef op de som. Een maandje later ging dit project namelijk van start en vooralsnog niet zonder succes.

Transcribiwiki
Als platform is gekozen voor een wiki. Dat vond ik interessant, want zo'n anderhalf jaar geleden bedacht ik me ook al dat een wiki een interessante optie kan zijn om crowdsourcen en transcriberen te combineren. Hoe zou dat dus in de praktijk uitpakken?

Hart van het project is de Transcription Desk. Het aanmaken van een account loopt goed - ik kreeg registratienummer 181 toebedeeld - emailadres bevestigen en het (optioneel) aanpassen van wat instellingen ook. Het lijkt allemaal nog eenvoudig, zeker als je de sectie Getting Started doorneemt. Vervolgens kun je aan de slag. Ik koos - geheel in lijn met mijn vaardigheden en ambities - voor een willekeurig document uit de categorie Easy, wat de wat oudere manuscripten blijken te zijn.

Geen cake
Vanaf dat moment snap je dat de uitgebreide Transcription Guidelines noodzakelijk zijn om precies te begrijpen hoe ze de transcripties aangeleverd willen hebben. We zijn immers geen cake aan het bakken, we zijn manuscripten aan het verwerken die als basis gaan dienen voor wetenschappelijke publicaties. En hoe geef je in de transcriptie aan welke tekst doorgehaald is in het origineel? Hoe ga je om met afkortingen? Schrijf je afgebroken woorden weer aan elkaar? Laat je regels doorlopen en wat te doen met tussenvoegingen en aantekeningen in de marge? Hier zijn allemaal coderingen voor bedacht, omdat de bedoeling is dat een en ander later via een xml-document precies zoals in het origineel gebruikt kan worden.

Bij die codes begint het grote publiek af te vallen: een wiki bewerken is al lastig voor veel mensen als het nog maar platte tekst is, maar de coderingen die binnen dit project gelden maken het er nog een stuk moeilijker op - er is trouwens wel een knoppenbalkje voor gemaakt, zodat je ze niet uit het hoofd hoeft te leren. Het duurde naderhand ook even voordat de bewerkte pagina er weer netjes uitzag - een haakje vergeten en je halve wiki wordt weergegeven als onleesbare abracadabra.

Vervolgens ontbreekt in de voorbeeldweergave de oorspronkelijke tekst, maar na het wagen van een gokje - gewoon op 'opslaan' drukken als je niks anders meer kunt bedenken - blijkt die er in de werkelijke weergave gelukkig toch bij te worden gezet. Het resultaat van mijn noeste arbeid staat dus hier. Als je echt helemaal klaar bent, dan kun je dat de editors laten weten, maar daarvoor bevat mijn transcriptie nog te veel gaten, vind ik. Daar moet de crowd eerst maar eens wat aan doen. ;-)

Naast het gecodeer vond ik het ook lastig dat mijn bewerkingspagina anders dan op de video nĂ­et de scan van het oorspronkelijke manuscript te zien gaf - getest in Internet Explorer en Chrome. Werken in meerdere vensters is dan aan te raden.

Geen crowd
Nou goed, dit is duidelijk geen crowdsourcingsproject voor het grote publiek - dat beoogt het Amsterdamse project wel - maar een project waarmee gemikt wordt op de wat gevorderde onderzoeker, wereldwijd, die graag meehelpt met het ontcijferen van Bentham's manuscripten. Crowdsourcen op deze manier levert wel op dat tot dusver al 157 manuscripten (van de 1178) zijn getranscribeerd - die voortgang kan bijgehouden worden via de Benthamometer. Van over de hele wereld hebben na vandaag dus al 181 personen een account aangemaakt om mee te helpen en onder hen is ook een soort competitie aan de gang. Dat zal mensen die toch al enorm actief zijn, nog wel verder stimuleren.

De voortgangsmeter en die competitie zijn toch wel de gekende best practices, maar zelf vind ik het vooral ook interessant om te zien hoe de community rond het project verder wordt uitgebouwd, bijvoorbeeld via een discussieforum (waarop de activiteit overigens meevalt, maar goed, ze zijn dan ook nog geen maand onderweg).

In mijn blogpost over het Amsterdamse project noemde ik daarnaast al dat ik vind dat er verschillende mogelijkheden moeten komen waarop mensen kunnen selecteren wat ze willen indiceren: iets makkelijks, iets van hun regio, iets uit een bepaalde tijd, anders iets willekeurigs misschien? Bij Transcribe Bentham doen ze dit dus ook. Je kunt kiezen op onderwerp, moeilijkheidsgraad of periode en daarnaast kun je vrij bladeren door de manuscripten. Het blijkt dat de makkelijkste documenten het populairst zijn om te transcriberen. Niet gek ook.

Wat hebben we nu geleerd?
Dat een wiki prima te gebruiken is als platform om via crowdsourcen transcripties aangeleverd te krijgen. Voor indexen - zoals in Amsterdam - geldt dat natuurlijk niet. Eenvoud is troef. Verder een aantal vermoedens bevestigd gekregen: een voortgangsmeter en een lijstje met top-bijdragers zijn leuk en stimuleren de massa en het individu. Een forum is handig voor het beantwoorden van vragen tijdens het project en het onderling in contact brengen van de deelnemers - zoals altijd moet je zelf ook actief zijn op het forum. En het bieden van keuze langs verschillende wegen bij het selecteren van materiaal is aan te raden.

Mooi project, goede ervaring.

10 opmerkingen:

  1. Interessante post en project. Ik heb er nog niet goed naar gekeken, maar omdat er een wiki gebruikt wordt had het ook meteen mijn aandacht. Via jouw posts dan :)
    Op een lijstje zetten als referentie van hoe het ook kan!
    Nu nog ergens wat verloren uurtjes lenen...

    BeantwoordenVerwijderen
  2. Ziet er veelbelovens uit, alleen heb ik het idee dat ze de moeilijkheidgraag precies andersom hebben ingevuld. Ik heb op difficult geklikt en werd toen verwezen naar documenten die juist heel eenvoudig zouden zijn. Iki kon dat niet meteen controleren, omdat Zoomify het niet deed. Is dezelfde software die ook door de kaartenkamer van de UvA wordt gebruikt en daar heb ik nooit problemen.
    Ik zal er straks nog een keertje rustig naar kijken.

    BeantwoordenVerwijderen
  3. @Luud: Begin maar met het afmaken van mijn transcriptie. Dat zijn nog maar een paar woordjes. ;-)

    @Richard: In de moeilijkste categorie zitten, voor zover ik kan nagaan, nog geen documenten om te transcriberen - er worden er nog steeds toegevoegd. De moeilijkheidsgraad hangt samen met de datering van de manuscripten. De vroegste documenten zijn blijkbaar het makkelijkst, de jongste het moeilijkst om te lezen.

    En als ik de documenten uit de middelste categorie bekijk (niet de moeilijkste, maar ook niet de makkelijkste), dan lijkt dat zeker te kloppen.

    BeantwoordenVerwijderen
  4. Nou, ik heb het weer geprobeerd, maar loop weer vast op die Zoomify module. Via Flash lukt het wel, maar "cumbersome" zoals de Engelsen zeggen.
    Overigens zie ik dat er redelijk geprutst wordt bij de transcripties, mensen houden zich niet aan de regels. Dat levert meer werk op, om dat allemaal weer te corrigeren. Maar ik ben wellicht te ervaren dan wel veeleisend en kan geen begrip opbrengen voor het gestuntel van sommige beginners. Is ook een van de grootste euvels bij crowdsourcing, deelnemers die het wel goed bedoelen, maar de zaak onbedoeld toch verpesten. Ik ga nog wel een keertje kijken als ik wat meer ontspannen ben...

    BeantwoordenVerwijderen
  5. @Richard: De lat ligt inderdaad nogal hoog. Transcriberen is op zich al een aardig karwei, maar de exacte manier waarop dat in dit project moet gebeuren maakt het wel erg ingewikkeld. Inderdaad niet geschikt voor beginners.

    Toch begrijp ik dat er al bijna 160 documenten naar de zin van de projectleiders zijn verwerkt, dus dat lijkt me dan alsnog een succes. Voordeel is ook dat als de beginners al minstens een deel van die teksten gedaan krijgen, al dan niet met gestuntel, dat dan de ervaren jongens (en meisjes) de moeilijker delen voor hun rekening kunnen nemen, en een en ander in het juiste format kunnen gieten.

    Het Amsterdamse project is veel en veel laagdrempeliger, vooral door de type bron die centraal staat.

    BeantwoordenVerwijderen
  6. You're entirely correct about the difficulty of TranscribeBentham for novices. However, I think that that difficulty is not inherent to either crowdsourcing transcription nor using wikis to accomplish this. The difficulty in this case is a result of the Bentham texts themselves -- they are old enough to require some paleographic training to decipher the handwriting, and the frequent additions and deletions make the layout of the text complex to represent.

    The UCL team has taken on a very difficult task by starting with such a challenging corpus. However I wouldn't say that the project has had "niet zonder succes":

    1. They've achieved their proximate goal of building a MediaWiki-based transcription system that handles metadata to scholarly standards. Having attempted something similar in the past, I know that this is no simple task. Furthermore, although the amount of work produced by users has been small so far, they have real users doing real work. I have seen other transcription tools under development for twelve years without gaining a single user.

    2. They appear to have built a very flexible HTML/Javascript-based TEI editor in the process. This may be used by other projects in the future, even ones that deal with more straightforward text. This contribution--though only a small part of the project--should not be underrated, as there have been many other web-based projects that requested such a tool.

    3. Through their publicity campaign, Transcribe Bentham has established manuscript transcription tools as a category of software. As recently as last year, every transcription toolmaker I'd encountered had been operating in total isolation. Not only were they isolated into organizational silos (family historians vs. historical scientists vs. Wikipedians vs. humanities scholars, none of whom were aware the others were doing similar work), but most techies--including some digital humanities experts--assumed that OCR technology had essentially solved the problem of digitizing text. Thanks to Transcribe Bentham, now some of the people building these tools are in conversation with each other.

    Of course none of these translate directly to success if one only measures success by the quantity of Bentham papers transcribed. However, I think that you raise an interesting issue under "geen crowd": what does it mean to crowdsource from a small number of active users? This is something that was discussed at "What can the vulgus do? Crowd-sourcing for medievalists", in which "magistra" differentiated between crowd-sourcing by "mass volunteers" and "nerd-sourcing". As I wrote there, I'm convinced that nerd-sourcing works: over a thousand pages of the Julia Brumfield Diaries were transcribed by a single volunteer recruited from a very limited pool of potential volunteers. The challenge for the Transcribe Bentham project will be in finding those motivated nerds -- essentially a matter of community research and targeted marketing.

    BeantwoordenVerwijderen
  7. @Ben: Thank you for your comment!

    Being an archivist, I'm somewhat experienced in transcribing older documents. And being a Web 2.0 adapt, I'm also somewhat experienced in editing wikis. However I found Transcribe Bentham to be rather difficult to work on, because of the way the transcribing needs to take place. Specifically the need for precise coding makes it hard. It's a hurdle people need to take. (Though I believe someone who is really willing to participate, is also willing to take this hurdle.)

    "Niet zonder succes" should be translated as "not without succes", so actually as "succesful". Because I do find this project to be a succes. I gather from your comment that you thought to have read the opposite? (Thank you, Google Translate, I suppose. ;-))

    Your points 1 to 4 are good, extra information for me. Unlike yourself, I am not familiar with the world of online transcription projects by crowdsourcing via wikis. So your information gives me some good insight in that.

    And yes, of course you're absolutely right with what you're stating about the crowds and their sizes: size doesn't matter here for sure. If a 'crowd' of ten people world wide gets the job done, then that's a succes. Because indeed for some projects it will be a matter of finding just those few super-volunteers to become the 'crowd'.

    In the paragraph "Geen crowd" I stated that this is not a project for the general public, but a project that aims for the more serious researcher, world wide (nerd-sourcing). And as far as this project goes, their approach is succesful so far.

    In a project that my archives will participate in, we do aim for a broad public (mass-sourcing), but we also hope for that top layer of the public with super-volunteers (nerd-sourcing). A lot of people doing a bit, and a few people doing a lot.

    Like you said, we also need to do our community research and have targeted marketing.

    I'll explore the discussion you mentioned, and see what other comments were made. Thanks again!

    BeantwoordenVerwijderen
  8. "Niet zonder succes" should be translated as "not without succes", so actually as "succesful". Because I do find this project to be a succes. I gather from your comment that you thought to have read the opposite?

    Ouch! In this case the fault is mine, not Google's. Most of my Dutch is German minus the High-German consonant shift, and I mis-translated "zonder" as besonders, yielding "not particularly successful." I'd have fared better with Google, I suspect, and will be more careful in the future.

    I think that you and I are on the same page regarding the distribution of labor and expertise in crowd-sourcing projects. However, exactly how the dedicated volunteer-vs-casual contributor distiction works out is still a matter of debate. Indeed, nobody can yet agree whether the majority of value in Wikipedia is contributed by serious wikipedians or by casual editors.

    Can you point me to any English-language articles on your archive's project? I know that you've posted about it on your blog, but am now a bit less confident of my capability to read Dutch.

    BeantwoordenVerwijderen
  9. @Ben: My appologies to Google. ;-)

    As of yet, I dont know of any English-language articles about the militia records project. Perhaps when it gets started for real there will be. Right now the participants are known for the pilot, information is gathered about how many scans will come available and who (which company) will scan them, which features the software needs to have and such.

    BeantwoordenVerwijderen