Posts tonen met het label Nerd-sourcing. Alle posts tonen
Posts tonen met het label Nerd-sourcing. Alle posts tonen
5 maart 2011
Monk: OCR voor oude handschriften?
Gisteren postte Henny van Schie in Archief 2.0 een bericht over Monk. In het kort gezegd is Monk software waarmee gedigitaliseerde oude handschriften geautomatiseerd full text doorzoekbaar kunnen worden gemaakt, als de software maar wordt geleerd hoe het schrift moet worden gelezen.
OCR, maar dan anders
Probleem met handschriften is dat ze allemaal verschillend zijn. Door middel van crowdsourcing kan iedereen Monk (een monnik dus) helpen met leren lezen door het transcriberen van kleine stukjes tekst. Dat gaat woord voor woord (lijkt een beetje op reCAPTCHA) en dan met behulp van een spelelement (lijkt een beetje op Google Image Labeler). Op de website van Monk kun je ook zoeken of bladeren door de al verwerkte teksten en woorden. Het zoeken zal normaal gesproken steeds betere resultaten geven.
Bij het helpen met transcriberen krijg je steeds een woord of deel van een woord voorgelegd om te ontcijferen. Want het lijkt misschien op OCR, maar is het niet. Monk is namelijk nog niet in staat om individuele letters te ontcijferen en zit nog op het niveau van het onderscheiden van afzonderlijke woorden en woorddelen. Dat blijkt ook uit de voorgeschotelde woorden, want soms zijn die nogal onlogisch geplukt uit de scans.
Monnikje spelen
Er wordt ondertussen een score bijgehouden van de door jou ontcijferde stukjes tekst. Als je tot dezelfde uitkomst komt als een andere monnik, dan verdien je een punt en een smiley. Ik stuurde de link naar Monk meteen even rond op het BHIC om te testen hoe het werkte. Enkele collega's gingen direct enthousiast aan de slag. Het spelelement werkte in ieder geval, want allemaal wilde ze toch minstens de lijst met hoogste scores binnenkomen. En iedere collega moest daarvoor natuurlijk een puntje extra pakken!
Monk doet een suggestie voor de ontcijfering. Dat vond ik gek. Het doet afbreuk aan het spelelement, maar bovendien ben je eerder geneigd moeilijk leesbare letters te lezen zoals een andere speler dat al deed (en dat is ook de enige manier om een smiley te scoren). Een andere opmerking die ik als feedback kreeg van collega's was dat het vak met de gescande, originele tekst nogal klein was. Het is zo lastig om de context van de tekst te bepalen - bijvoorbeeld de taal - of letters met elkaar te vergelijken.
Je hoeft niet in te loggen, maar dat betekent wel dat je scores niet op alle computers of onder alle browsers bij elkaar worden opgeteld. Aan de ene kant jammer, maar aan de andere kant misschien wel goed. Nu blijft een score tot een sessie beperkt en heeft iedereen steeds weer een aardige kans om binnen een sessie een topscore te halen. Bij inloggen zouden er al snel enkele nerds opstaan die de hoogste regionen van de scorelijst weten te bezetten, omdat ze iedere pauze voor monnikje spelen. Maar goed, als die fanatiekelingen elkaar opjutten, dan kan het wel erg snel gaan natuurlijk. Misschien een combinatie dan, met twee scorelijstjes? Eentje voor de vaste kern van monniken (de nerds) en eentje voor de gasten (de crowds)?
Tijdelijk testen
Monk verkeert nog volop in een testfase, maar het is duidelijk waar het project toe leidt. Ik ben ontzettend benieuwd of deze techniek uiteindelijk op grote schaal toegepast kan worden. Het volgens een gestructureerd datamodel indiceren van archiefbronnen blijft belangrijk om ze vervolgens op een gerichte manier te kunnen doorzoeken. Maar als Monk hele lappen tekst tot op woordniveau kan ontsluiten, dan maken we een grote sprong voorwaarts wat archiefontsluiting betreft. Ik bied alvast onze honderden gescande schepenprotocollen aan voor wat monnikenwerk. ;-)
Nou, probeer het snel eens uit. De website is namelijk slechts tijdelijk in de lucht.
Lees meer blogposts over
Crowdsourcing,
Monk,
Nerd-sourcing,
Transcriberen
26 januari 2011
Het beste komt van buiten
Een van de grote voordelen van sociale media is dat je je digitale klanten leert kennen. Ze ontstijgen het niveau van pageviews en klikpaden, krijgen een gezicht, interesses, vrienden, je kunt ze een berichtje sturen en zo meer. Online profielen bieden in beginsel misschien nog wel meer mogelijkheden dan het moment waarop een klant voor het eerst voor je balie staat.
Op het blog NARAtions verscheen vandaag - inmiddels gisteren - een interview met TVL1970. Achter dat profiel op Flickr gaat Tom schuil, een vrijgezelle vliegtuigfan en bovendien geïnteresseerd in mooie, oude foto's. Tom heeft eigenhandig meer dan 7.000 tags toegekend aan foto's van het NARA op Flickr: The Commons. Ik herhaal: meer dan 7.000 tags. Citizen Archivists noemen ze dat type mensen daar:
A tag on a photograph provides the opportunity to connect a photo (especially the people, places and experiences it captures) to the past and the future. (...) I fear the significance of many photographs is in danger of being lost as time marches on. Providing a tag, to me, is a means of historical preservation. Tags may not have an immediate impact, but I feel that in the digital age they are tangible signposts for those who might seek answers in these photos in the future.
Beter dan Tom kan ik het niet zeggen. Ook voorziet hij dat tagging een rol gaat spelen in toepassingen op het vlak van Augmented Reality:
Combine chronological and textual tagging with geotagging, and the possibilities for utilizing these images becomes exciting. Imagine standing somewhere placing your smartphone in front of you and having a window to the past as photos, images, and information are all overlaid upon your current view.
Mooi! En wat een mooi voorbeeld weer van nerd-sourcing!
Over nerds gesproken - is er een vriendelijke term die recht doet aan het belangrijke werk dat ze verrichten? - op het genealogisch forum van het BHIC zitten er ook een stel. Uit de cijfers over 2010 blijkt dat de topbijdrager maarliefst 201 berichten heeft gepost. En dat zijn vrijwel allemaal antwoorden op vragen van andere forumleden, vragen die anders misschien wel door een medewerker van het BHIC beantwoord hadden moeten worden. Nerd-sourcing in het inlichtingenwerk dus.
De bewuste dame komt niet eens uit Brabant, maar uit Gelderland. De nummer twee plaatste meer dan 120 berichten... en woont in Nieuw-Zeeland. Toch ook een eind buiten Brabant. Op plaats vijf, nog altijd goed voor meer dan 60 berichten, volgt een Engelsman. Eigenlijk ook logisch dat de actiefste forumleden zo vaak van buiten de provincie zijn. Zij profiteren immers het hardst van onze digitale dienstverlening, omdat ze daarop zelf ook veelal aangewezen zijn.
Dus als het om nerd-sourcing gaat, moet je het misschien gewoon ver weg zoeken.
Lees meer blogposts over
Augmented Reality,
Crowdsourcing,
Flickr,
Forums,
Inlichtingenwerk,
Nerd-sourcing,
Tagging
25 november 2010
Archiefontsluiting door nerd-sourcing
Ziek zijn heeft zo z'n voordelen: vandaag zag ik kans om door de scriptie Ontsluiting van series. Bijdragen aan digitale toegankelijkheid door archiefgebruikers van Erik Visscher te lezen:
Archivistische beschrijvingen van series als "ingekomen en minuten van uitgaande stukken" zeggen weinig over de inhoud van de documenten. Archivarissen kunnen echter niet alle series in archieven inhoudelijk ontsluiten. In deze scriptie staat de vraag centraal hoe gebruikers van archieven via internet kunnen bijdragen aan verbeterde toegankelijkheid van series met web 2.0-toepassingen. Het klassieke herkomstbeginsel is hierbij van belang. In de scriptie komen literatuuronderzoek, bestudering van praktijkvoorbeelden en experimenten aan bod.
Op een lekker vlotgeschreven manier behandelt Erik hoe archivarissen van in den beginne ("De Handleiding") tot nu hebben aangekeken tegen en zijn omgegaan met het toegankelijk maken van series archiefdocumenten. De inzet daarbij van gebruikers is erg vanzelfsprekend. Vrijwilligers zijn immers al van vroeger uit kind aan huis bij archivarissen en in een modern jasje gestoken noemen we dat tegenwoordig crowdsourcing. Vreemd dus dat er blijkbaar maar zo weinig literatuur over voorhanden is:
In de 'leeslijst' is (...) nauwelijks literatuur opgenomen over het benutten van bijdragen van archiefgebruikers, web 2.0 of niet. Het is echter niet nieuw dat archiefgebruikers kennis hebben. Archivarissen hadden al gedurende tientallen jaren kunnen nadenken hoe deze kennis zou kunnen bijdragen aan verbeterde toegankelijkheid, maar het is veelzeggend dat ze dit weinig hebben gedaan. Het duidt op een van oudsher geringe waardering door archivarissen voor bijdragen van gebruikers. (...) Onder invloed van web 2.0 staan gebruikersbijdragen nu wel, of althans: meer, in de belangstelling. (blz 30)
Nou goed, dat er geen teksten over gebruikersparticipatie in die 'leeslijst' (bedoeld wordt de zogezegde canon voor het archiefvak) te vinden zijn is niet goed, maar dat er helemaal geen teksten over te vinden zouden zijn, dat weet ik niet. En anders moeten we daar eens over na gaan denken. Ik heb de laatste tijd namelijk steeds vaker het gevoel dat dezelfde bronnen steeds herkauwd worden, terwijl andere bronnen steeds links blijven liggen. Dat laatste betreft dan vooral de bronnen die exclusief online voorhanden zijn, zoals weblogs. Punt van zorg en aandacht.
Terug naar de scriptie.
De weg die Erik zoekt is er, geïnspireerd door het project Polar Bear Expedition Digital Collections, wel eentje waarin de autoriteit van de archivaris niet verloren mag gaan. Talloze voorbeelden passeren de revue, maar eigenlijk zitten er slechts een paar aansprekende, succesvolle projecten tussen. En de vraag is dan ook meteen: waarom krijgen die zo weinig navolging?
Als voorbeeld noemt Erik de Virtuele Studiezaal van het Haags Gemeentearchief, die toch alweer een tijdje online staat en waarin iedere voorbijganger kan meehelpen met het indiceren van aktes van de burgerlijke stand. Het werkt allemaal wat lastig in Den Haag, maar het idee erachter verdient zeker navolging - zou willen dat we dit bij het BHIC deden!
Misschien speelt hier, net als bij de literatuur, mee dat onbekend ook onbemind maakt. Wederom iets om over na te denken... Een soort lijstje op Archief 2.0 of in de ArchiefWiki met goede literatuurverwijzingen en voorbeeldprojecten?
Terug weer naar de scriptie.
Het allerleukste is namelijk wanneer Erik zelf gaat experimenteren. Hij maakte een weblog waarop hij dag- en nachtrapporten van de Schiedamse politie publiceerde en gebruikte ook andere toepassingen, zoals Google Maps om locaties aan te duiden die in de rapporten voorkomen, of Delicious om te taggen. Een klein groepje gebruikers en archivarissen kreeg enkele opdrachten te verwerken bij deze rapporten, bijvoorbeeld om te beschrijven welke personen daarin voorkomen.
De experimenten hebben een hoog hobbykamergehalte en voor zover Erik er al conclusies aan kan verbinden is de vraag hoe waardevol deze zijn. Niet belangrijk voor nu. Ik kreeg in ieder geval een vrolijk gevoel bij het doorlezen van zijn verhaal over het opzetten van de experimenten. Vooral werd ik getriggerd door gebruiker 'Goof', die door Erik slechts terloops wordt genoemd. Goof heeft namelijk online wel talloze politierapporten zitten transcriberen door reacties op blogposts achter te laten. Erik had zijn testpersonen juist expliciet gevraagd niet de blog te gebruiken (want dan zouden ze kunnen 'afkijken' van elkaar) en weet ook niet wie er achter de naam 'Goof' schuilgaat is. Misschien is het niet eens een van de testpersonen.
In ieder geval doet Goof me terugdenken aan Ben Brumfield, die reageerde op mijn bespreking van het crowdsourcingsproject Transcribe Bentham en stelde:
what does it mean to crowdsource from a small number of active users? This is something that was discussed at "What can the vulgus do? Crowd-sourcing for medievalists", in which "magistra" differentiated between crowd-sourcing by "mass volunteers" and "nerd-sourcing". As I wrote there, I'm convinced that nerd-sourcing works: over a thousand pages of the Julia Brumfield Diaries were transcribed by a single volunteer recruited from a very limited pool of potential volunteers. The challenge for the Transcribe Bentham project will be in finding those motivated nerds -- essentially a matter of community research and targeted marketing.
Alwéér die nerd dus! Vooral opmerkelijk omdat zo'n zelfde nerd voor Erik reden was om de politierapporten als onderwerp van zijn experimenten te nemen:
In de studiezaal van het Gemeenearchief Schiedam is regelmatig een archiefgebruiker te vinden die nauwgezet de dag- en nachtrapporten van de politie onderzoekt. Deze persoon is met name op zoek naar personen die op bepaalde adressen woonden. In de archivistische beschrijving in de toegang is over hun namen of het adres niets terug te vinden. Juist daarom kan het werk van de onderzoeker vanuit het oogpunt van de ontsluiting interessant zijn. (blz. 31)
Wie kent er niet dergelijke studiezaalbezoekers? Met de tegenwoordige aandacht voor crowdsourcing vergeten we bijna dat andere goud wat vaak al binnen handbereik is: nerd-sourcing dus! Zo doen we als BHIC wel mee aan het Amsterdamse crowdsourcingsproject rond militieregisters, maar wil het daarnaast niet echt vlotten met het verwerken van de talloze digitale gegevens (indexen, regesten en transcripties) die al gewoon door onze bestaande studiezaalbezoekers zijn en nog steeds worden gemaakt. Massa's schepenprotocollen en notariële aktes zijn al digitaal ontsloten op namen, plaatsen, onderwerpen en data, en aan ons afgegeven, maar staan nog altijd niet online. En dan heb ik het nog niet eens over al het materiaal wat we wel aangeboden krijgen, maar simpelweg niet (meer) aannemen, omdat we er zogezegd geen raad mee weten.
Waar zijn we soms toch mee bezig...?
Gelukkig had ik dat laatste al op m'n lijstje staan voor als ik weer beter ben. Over beter worden gesproken... Misschien de laptop eens ontkoppelen?!
Lees meer blogposts over
Crowdsourcing,
Erik Visscher,
Gebruikersparticipatie,
Gemeentearchief Schiedam,
Nerd-sourcing
Abonneren op:
Posts (Atom)