Gisteren wees Ben Brumfield me op Open Source Indexing. Wat een interessant project!
Historic documents often contain handwriting, old fonts, or other text formats that OCR software can't handle. We need humans--from volunteers to paid staff--to read the document images and transcribe what they see into databases which can be searched, analyzed, crawled, and used by researchers. Until now those efforts have required organizations either to outsource indexing to external partners or to cobble together their own off-line or on-site systems.
Our goal is to build a tool that can be used by libraries, archives, museums, historical sites, genealogy and heritage societies to run their own indexing projects, under their own control.
Iedereen z'n eigen VeleHanden? Zou prachtig zijn als dergelijke software voor iedereen beschikbaar komt (ze gebruiken een Apache-licentie voor vrije software)! Even los van het voordeel dat een gezamenlijk (nou ja, want commercieel geƫxploiteerd) platform als VeleHanden biedt.
Scribe
Het project baseert zich op Scribe, de software die bijvoorbeeld door het door mij bewonderde Old Weather wordt gebruikt. Maar kijk anders eens naar dit nieuwe project van de New York Public Library, dat gegevens uit theater-, dans- en concertprogramma's laat transcriberen via Scribe. Vooral de manier van gidsen door het systeem spreekt mij nog altijd enorm aan.
Scribe wordt voor Open Source Indexing uitgebreid met onder andere mogelijkheden om direct door getranscribeerde gegevens te kunnen zoeken, bestaande transcripties te kunnen importeren en diverse rapportages.
Meedoen
Op dit moment wordt er vooral gebouwd voor (want betaald door) FreeUKGEN, een club die zoveel mogelijk genealogische data online toegankelijk wil krijgen. Maar er wordt gezocht naar een bredere toepasbaarheid van de software. Dus mocht je nog iets te indiceren hebben? Je kunt je aanmelden...
Prachtig toch?!
Aanbevolen leesvoer
- Maak je eigen Metadata Game! En iets over 'critical play'
- Volg die boot! Of wat je door crowdsourcing kunt laten zien
- Kaarten georefereren in New York
Afbeelding: plaatje van Ensemble, het op Scribe gebaseerde transcriptieproject van de NYPL