Posts tonen met het label Ben Brumfield. Alle posts tonen
Posts tonen met het label Ben Brumfield. Alle posts tonen

30 april 2013

Itinera Nova in the world(s) of crowdsourcing and TEI

De komende blogs doen verslag van het colloquium "Tools, People and History" dat op 25 en 26 april plaatsvond in Leuven. Aanleiding was het project Itinera Nova van het Stadsarchief Leuven waarin het archief van de Leuvense schepenbank digitaal toegankelijk gemaakt wordt.

Ben Brumfield
Ben Brumfield heeft van crowdsourcing zijn specialisme gemaakt, volgt op zijn weblog alle initiatieven en relevante software en is betrokken bij de ontwikkeling van diverse platformen. Vanuit Amerika was hij daarom ingevlogen om Itinera Nova in internationaal perspectief te plaatsen.

Milieu als motor
Vanaf de jaren '90 ontstonden verschillende offline initiatieven om in eerste instantie vooral genealogische bronnen op een tabelarische manier te ontsluiten. Pas vanaf 2005 zijn de online tools in opkomst. Te denken valt op genealogisch gebied aan het succesvolle Family Search Indexing. Maar ook documenten zonder vaste structuur komen vanaf dan in de belangstelling, zoals Bens eigen FromThePage, waarin onder meer dagboeken worden ontsloten.

Vooral het milieu en klimaatverandering blijken een motor achter crowdsourcingsinitiatieven te zijn, met als absolute topper Old Weather (waarover ik eerder blogde), maar denk ook aan het meer recente Notes from Nature (waarover ik eveneens eerder blogde). Van vandaag de dag hebben we immers talloze data over het klimaat direct beschikbaar. Maar om een ontwikkeling in tijd te zien (en het klimaat is per definitie iets wat op de langere termijn betrekking heeft) moeten we onze toevlucht nemen tot oude, handgeschreven bronnen, zoals scheepslogboeken. Die dan nog wel moeten worden getranscribeerd dan wel geïndiceerd natuurlijk.

Macht en motivatie
Al vanaf het begin van crowdsourcing speelt de spanning tussen vrijwillige en professionele transcribeerders, en parallel daaraan de spanning tussen enerzijds eenvoudige tools en anderzijds krachtige maar daardoor ook complexe tools. Liever het gemakkelijk in gebruik maken van krachtige tools.

De vrees is namelijk altijd geweest wat er gebeurt als je vrijwilligers ('amateurs') loslaat op het transcriberen volgens professionele mark-up standaards zoals TEI. Als alternatief wordt, om het simpel te houden, dan vaak maar gekozen voor 'slechts' een platte tekst transcriptie.

Volgens Ben echter kan het hebben van macht (in de vorm van krachtige tools) vrijwilligers (en gebruikers in het algemeen) motiveren om mee te werken aan crowdsourcingsprojecten. Juist het niet hebben van die macht zorgt namelijk voor frustratie en afhaken. En mark-up is in de wereld van transcripties macht.

Ben illustreert dit met What's on the menu van de New York Public Library, een project waarbinnen oude menu's worden getranscribeerd. Om het de crowd niet te lastig te maken, werd gebruikers expliciet gezegd: "Don't worry about accents". Dit leidde online echter tot talloze frustraties, want op Duitse menukaarten is bijvoorbeeld 'Ruhreier' toch echt iets anders dan 'Rühreier'. Gebruikers voelden zich niet serieus genomen en misten in hun ogen de noodzakelijke tools ('macht') om hun taak naar behoren uit te kunnen voeren.

Text Encoding Initiative
TEI bestaat sinds 1990 en levert een krachtig datamodel voor digitale teksten, tools voor presentatie en analyse daarvan, en een actieve community voor het ontwikkelen van de standaard. Met TEI kun je teksten uit bijvoorbeeld een dagboek zelfs zo opmaken dat je de ontwikkeling in de tekst ziet. Zodat je bijvoorbeeld visueel kunt maken welke delen van de tekst eerder werden geschreven en welke daarna (relevant, want denk aan latere toevoegingen aan bestaande teksten).

Krachtig en machtig, maar ook ingewikkeld. Mede daarom maakt slechts een handjevol transcriptieprojecten gebruik van TEI. Itinera Nova is misschien wel de onbekendste daarvan. Onterecht, want ze maken er daar op een slimme manier gebruik van, door niet de gebruikers met TEI aan de slag te laten gaan, maar op basis van eenvoudige opmaak door gebruikers automatisch de software zelf de TEI-opmaak te laten toepassen. Volgens Ben zou deze manier van transcriberen wel eens een werkbare toekomst van TEI kunnen inluiden. Een complexe, krachtige tool, gemakkelijk toepasbaar gemaakt.

Dit in tegenstelling tot de andere bestaande manieren om te proberen TEI toegepast te krijgen, via het toekennen van TEI-opmaak door middel van knoppen (zoals in Transcribe Bentham) en menu's. Gebruikers groeien echter vaak over het gebruik van knoppen heen en nemen daarna hun toevlucht tot bijvoorbeeld sneltoetsen. Bovendien kun je maar een beperkt aantal knoppen gebruiken, om er niet in te verdrinken.

Daarom adviseert Ben TEI te gebruiken als datamodel en voor de representatie van teksten. Maar voor het transcriberen zelf (data entry) alternatieven te bekijken, zoals Itinera Nova doet. Zo heb je de voordelen, zonder de nadelen.

Kortom
Presentatie die een goed overzicht gaf van crowdsourcing door de jaren heen, de factor macht die zorgt voor motivatie, en het makkelijk in gebruik maken van krachtige tools; je hoeft een gebruiker niet met TEI lastig te vallen zonder op de achtergrond toch gebruik te kunnen maken van de voordelen van deze standaard. Sowieso interessant om meer te leren over de toepasbaarheid van TEI.

Wil je nog eens het hele verhaal lezen (en de slides bekijken) van Ben zelf, lees dan zijn blogpost.

Gerelateerde verslagen
- André Streicher, The visual Annotation Tool in Itinera Nova
- Prof. Dr. Manfred Thaller, Development of the database, the website and the online transcription platform of Itinera Nova

10 april 2013

Transcriberen met Scripto


Het bestaat alweer een jaar, maar bij mij was het weggezakt, totdat Frans me er wederom attent op maakte: Scripto

Om kort te gaan, kun je met behulp van Scripto de wikifunctionaliteit van MediaWiki toevoegen aan een bestaand content management systeem, zoals Drupal en WordPress. Daarna kun je op een wiki'achtige manier bijvoorbeeld brieven en dagboeken uit je collectie laten transcriberen door de crowd.

In reactie op Frans legt Ben Brumfield het verschil uit tussen Scripto en Open Source Indexing, waarover ik eerder blogde:

Scripto does plain-text transcription of an entire document, storing the transcriptions in a Wiki. This is appropriate for letters, articles, journals, and other prose documents.
Open Source Indexing supports structured data like census forms, militia registers, baptismal records, or tax lists. It stores them (per entry) in a database which can be searched by name, date range, etc. You would not want to use Open Source Indexing for family letters, and you would not want to use Scripto for census records.

Wat dat betreft denk ik dat Scripto zo'n beetje werkt als Transcribe Bentham, waarover ik erg enthousiast ben. Zelf heb ik het transcriberen via Scripto nog niet uitgeprobeerd, maar je kunt nog steeds aan de slag met de Papers of the War Department 1784-1800 als je wilt proefdraaien.

Scripto is beschikbaar als open source software en gaat vergezeld van een uitgebreide gebruikershandleiding, inclusief technische instructies, tips voor publieksbereik en voorbeelden van transcriptierichtlijnen.

Aanbevolen leesvoer
- Transcribeerplugins voor MediaWiki
- De transcribiwiki van Transcribe Bentham
- Iedereen z'n eigen VeleHanden: Open Source Indexing!

Afbeelding: plaatje bij een document over een onderzoek naar enkele moorden, te transcriberen met Scripto

3 april 2013

Iedereen z'n eigen VeleHanden? Open Source Indexing!


Gisteren wees Ben Brumfield me op Open Source Indexing. Wat een interessant project!

Historic documents often contain handwriting, old fonts, or other text formats that OCR software can't handle. We need humans--from volunteers to paid staff--to read the document images and transcribe what they see into databases which can be searched, analyzed, crawled, and used by researchers. Until now those efforts have required organizations either to outsource indexing to external partners or to cobble together their own off-line or on-site systems.
Our goal is to build a tool that can be used by libraries, archives, museums, historical sites, genealogy and heritage societies to run their own indexing projects, under their own control.

Iedereen z'n eigen VeleHanden? Zou prachtig zijn als dergelijke software voor iedereen beschikbaar komt (ze gebruiken een Apache-licentie voor vrije software)! Even los van het voordeel dat een gezamenlijk (nou ja, want commercieel geëxploiteerd) platform als VeleHanden biedt.

Scribe
Het project baseert zich op Scribe, de software die bijvoorbeeld door het door mij bewonderde Old Weather wordt gebruikt. Maar kijk anders eens naar dit nieuwe project van de New York Public Library, dat gegevens uit theater-, dans- en concertprogramma's laat transcriberen via Scribe. Vooral de manier van gidsen door het systeem spreekt mij nog altijd enorm aan.

Scribe wordt voor Open Source Indexing uitgebreid met onder andere mogelijkheden om direct door getranscribeerde gegevens te kunnen zoeken, bestaande transcripties te kunnen importeren en diverse rapportages.

Meedoen
Op dit moment wordt er vooral gebouwd voor (want betaald door) FreeUKGEN, een club die zoveel mogelijk genealogische data online toegankelijk wil krijgen. Maar er wordt gezocht naar een bredere toepasbaarheid van de software. Dus mocht je nog iets te indiceren hebben? Je kunt je aanmelden...

Prachtig toch?!

Aanbevolen leesvoer
Maak je eigen Metadata Game! En iets over 'critical play'
Volg die boot! Of wat je door crowdsourcing kunt laten zien
- Kaarten georefereren in New York

Afbeelding: plaatje van Ensemble, het op Scribe gebaseerde transcriptieproject van de NYPL