Posts tonen met het label VeleHanden. Alle posts tonen
Posts tonen met het label VeleHanden. Alle posts tonen

3 april 2013

Iedereen z'n eigen VeleHanden? Open Source Indexing!


Gisteren wees Ben Brumfield me op Open Source Indexing. Wat een interessant project!

Historic documents often contain handwriting, old fonts, or other text formats that OCR software can't handle. We need humans--from volunteers to paid staff--to read the document images and transcribe what they see into databases which can be searched, analyzed, crawled, and used by researchers. Until now those efforts have required organizations either to outsource indexing to external partners or to cobble together their own off-line or on-site systems.
Our goal is to build a tool that can be used by libraries, archives, museums, historical sites, genealogy and heritage societies to run their own indexing projects, under their own control.

Iedereen z'n eigen VeleHanden? Zou prachtig zijn als dergelijke software voor iedereen beschikbaar komt (ze gebruiken een Apache-licentie voor vrije software)! Even los van het voordeel dat een gezamenlijk (nou ja, want commercieel geëxploiteerd) platform als VeleHanden biedt.

Scribe
Het project baseert zich op Scribe, de software die bijvoorbeeld door het door mij bewonderde Old Weather wordt gebruikt. Maar kijk anders eens naar dit nieuwe project van de New York Public Library, dat gegevens uit theater-, dans- en concertprogramma's laat transcriberen via Scribe. Vooral de manier van gidsen door het systeem spreekt mij nog altijd enorm aan.

Scribe wordt voor Open Source Indexing uitgebreid met onder andere mogelijkheden om direct door getranscribeerde gegevens te kunnen zoeken, bestaande transcripties te kunnen importeren en diverse rapportages.

Meedoen
Op dit moment wordt er vooral gebouwd voor (want betaald door) FreeUKGEN, een club die zoveel mogelijk genealogische data online toegankelijk wil krijgen. Maar er wordt gezocht naar een bredere toepasbaarheid van de software. Dus mocht je nog iets te indiceren hebben? Je kunt je aanmelden...

Prachtig toch?!

Aanbevolen leesvoer
Maak je eigen Metadata Game! En iets over 'critical play'
Volg die boot! Of wat je door crowdsourcing kunt laten zien
- Kaarten georefereren in New York

Afbeelding: plaatje van Ensemble, het op Scribe gebaseerde transcriptieproject van de NYPL

10 november 2011

VeleHanden de lucht in voor Militieregisters


Vorige week was ik in Amsterdam voor de laatste testersbijeenkomst en de lancering van www.velehanden.nl en www.militieregisters.nl. Vooral benieuwd was ik naar de laatste testresultaten en de ervaringen van de projectorganisatie gedurende het traject tot nu toe.

Met veel testers testen test
Vooral via een digitale nieuwsbrief van het Amsterdamse stadsarchief stroomden de verzoeken om te mogen testen binnen. Uiteindelijk werd na 150 aanmeldingen een streep getrokken. Het was gelukkig een bonte verzameling mensen geworden: ervaren genealogen, mensen zonder al te veel computervaardigheden, geïnteresseerden uit het buitenland en zo meer. Het meehelpen moest immers voor iedereen toegankelijk en haalbaar zijn.

In de resultaten van het project zag ik veel overeenkomsten met mijn eigen ervaringen op het BHIC. Bijvoorbeeld dat vanuit het buitenland mensen relatief actief meedoen met dit soort projecten. Bij VeleHanden werd een Australiër een van de topinvoerders - hoe verder je weg zit, hoe groter je belang natuurlijk, dat dit soort projecten een succes wordt. Op het BHIC zijn mensen van buiten Brabant bijvoorbeeld de grootste bijdragers op de forums.

Ook het ontstaan van een zelfredzame forumcommunity is een overeenkomst. Bij VeleHanden hielpen invoerders steeds meer elkaar met vragen en problemen, via het forum, waardoor de projectmedewerkers steeds minder zelf hoefden te reageren. Net als op het BHIC. Je moet er wel eerst in investeren, maar zodra er dan een actieve community is gegroeid, heb je daar dubbeldik gemak van. Persoonlijk vind ik het ook fijn dat het forum zo uitermate positief uit de test naar voren kwam - forums zijn ondergeschoven kindjes, geheel ten onrechte.

Voor de bouwers was het spannend om op zo'n massale manier feedback te krijgen. Een opdrachtgever is altijd relatief voorzichtig met het indienen van wensen. Dat geldt natuurlijk niet voor het publiek. Ongeveer de helft van alle testers gebruikte een of meerdere keren het forum, ongeveer tweederde van alle testers vulde een of twee vragenlijsten in. Erg veel feedback dus. De mooiste quote vond ik overigens van iedereen die vroeg: "kan dat veld 'gestandaardiseerd' niet weg?"

Maar tot slot viel vooral de snelheid van het indexeren enorm op. Normaal is testen immers slechts bedoeld om te kijken of de software zich goed houdt. Nu werd het testen door de testers tegelijkertijd aangegrepen om productie te maken. In strak tempo moesten door het archief nieuwe scans worden aangerukt om de testers van verse voorraad te voorzien. Ten tijde van de lancering waren al 200.000 namen te doorzoeken via de zoekmachine, waaronder flink wat bekende Nederlanders. En de snelheid van het indexeren bleek beslist niet ten koste van de kwaliteit te gaan.

Coupons
Inmiddels is ook bekend hoe je de vergaarde punten op VeleHanden.nl kunt verzilveren voor scans op Militieregisters.nl. Je moet daarvoor eerst een bepaald aantal punten omzetten naar een zogenoemde coupon. Zo'n coupon bestaat uit een tekenreeks van 32 tekens die je moet invullen wanneer je voor scans gaat 'betalen'. Zo'n coupon verloopt trouwens ook weer, maar je kunt de geldigheid ervan verlengen.

Het zag er allemaal erg omslachtig uit, maar er zullen vast technische redenen voor zijn om het op deze manier te doen. En wie weet heeft niemand er echt veel moeite mee. Voor een scan moet je 25 punten inleveren, dus voor iedere 25 geïndexeerde scans kun je er meteen eentje downloaden. (Na controle van je invoer krijg je zoals eerder verteld ook weer wat punten, maar goed, die krijg je dus pas na een tijdje.)

De website Militieregisters.nl zelf, met de uiteindelijke zoekmachine, ziet er trouwens prima uit. Mooi vind ik vooral de directe feedback die je krijgt terwijl je zoekt.

Kortom
De websites zijn nu live. Het is spannend om te zien hoe alle nieuwe gebruikers het gaan doen. De oude groep testers is inmiddels gebombardeerd tot een soort van supergebruikers, die in eerste instantie vooral bij het controleren van de invoer van andere gebruikers wordt ingezet, maar ook is opgeroepen om extra op het forum te letten.

Ik blijf het een schitterend project vinden. En ik ben onder de indruk geraakt van de manier waarop er is samengewerkt met de crowd, ondanks mijn aanvankelijke twijfels daarover. We kunnen er allemaal wat van leren, hoe ze in Amsterdam aan communitybuilding hebben gewerkt.

Hopelijk komen nu ook snel de scans van het BHIC online. Inmiddels kun je bij het indexeren, naast scans van Amsterdam, al scans uit Noord-Holland, Utrecht en Friesland voor je neus krijgen. Al meer dan 500 mensen helpen bij het indexeren. Afgelopen maandag werden zo bijna 5.000 scans geïndexeerd! De database wordt dus rijker en rijker gevuld en dan kan iedereen er zijn voordeel mee doen.

Binnenkort kom ik trouwens nog even terug op het gebruiken van scans als worst om vrijwilligers tot indexeren te motiveren. Ik had daar al twijfels over en die zijn alleen nog maar gesterkt.

Gerelateerd
- Mijn drie eerdere berichten over dit crowdsourcingsproject

Afbeelding: een kunstwerk getiteld "de handjes", gemaakt door Amsterdamse peuters