3 april 2013

Iedereen z'n eigen VeleHanden? Open Source Indexing!


Gisteren wees Ben Brumfield me op Open Source Indexing. Wat een interessant project!

Historic documents often contain handwriting, old fonts, or other text formats that OCR software can't handle. We need humans--from volunteers to paid staff--to read the document images and transcribe what they see into databases which can be searched, analyzed, crawled, and used by researchers. Until now those efforts have required organizations either to outsource indexing to external partners or to cobble together their own off-line or on-site systems.
Our goal is to build a tool that can be used by libraries, archives, museums, historical sites, genealogy and heritage societies to run their own indexing projects, under their own control.

Iedereen z'n eigen VeleHanden? Zou prachtig zijn als dergelijke software voor iedereen beschikbaar komt (ze gebruiken een Apache-licentie voor vrije software)! Even los van het voordeel dat een gezamenlijk (nou ja, want commercieel geƫxploiteerd) platform als VeleHanden biedt.

Scribe
Het project baseert zich op Scribe, de software die bijvoorbeeld door het door mij bewonderde Old Weather wordt gebruikt. Maar kijk anders eens naar dit nieuwe project van de New York Public Library, dat gegevens uit theater-, dans- en concertprogramma's laat transcriberen via Scribe. Vooral de manier van gidsen door het systeem spreekt mij nog altijd enorm aan.

Scribe wordt voor Open Source Indexing uitgebreid met onder andere mogelijkheden om direct door getranscribeerde gegevens te kunnen zoeken, bestaande transcripties te kunnen importeren en diverse rapportages.

Meedoen
Op dit moment wordt er vooral gebouwd voor (want betaald door) FreeUKGEN, een club die zoveel mogelijk genealogische data online toegankelijk wil krijgen. Maar er wordt gezocht naar een bredere toepasbaarheid van de software. Dus mocht je nog iets te indiceren hebben? Je kunt je aanmelden...

Prachtig toch?!

Aanbevolen leesvoer
Maak je eigen Metadata Game! En iets over 'critical play'
Volg die boot! Of wat je door crowdsourcing kunt laten zien
- Kaarten georefereren in New York

Afbeelding: plaatje van Ensemble, het op Scribe gebaseerde transcriptieproject van de NYPL

4 opmerkingen:

  1. Er is nog een mooie open source tool, Scripto, dat draait zowel onder Wordpress als Drupal. Zie http://scripto.org.

    BeantwoordenVerwijderen
  2. Scripto and the team behind it are wonderful, but Scripto does plain-text transcription of an entire document, storing the transcriptions in a Wiki. This is appropriate for letters, articles, journals, and other prose documents.

    Open Source Indexing supports structured data like census forms, militia registers, baptismal records, or tax lists. It stores them (per entry) in a database which can be searched by name, date range, etc. You would not want to use Open Source Indexing for family letters, and you would not want to use Scripto for census records.

    BeantwoordenVerwijderen
    Reacties
    1. @Ben, very true, thank you for clarifying.

      Verwijderen
  3. @Frans: Dank voor de tip! Ik kende die techniek al wel zo'n beetje van Transcribe Bentham, maar Scripto als open source tool kende ik nog niet. Mooi! Maar inderdaad zoals Ben al aangeeft bedoeld voor een andere vorm van toegankelijk maken. Scripto leidt tot transcripties, waar Open Source Indexing tot een database leidt. Die integratie met diverse platformen vind ik trouwens wel prachtig. Nogmaals dank! Misschien blog ik er nog eens apart over.

    @Ben: Thanks for clarifying! Both are great tools, but indeed meant for different kinds of documents and projects. I very much like Scripto's integration options with other open source platforms.

    BeantwoordenVerwijderen