22 oktober 2013

Lach de computer uit en ga verder: corrigeren via crowdsourcing


Het verwerken van historische plattegronden tot iets wat een computer kan begrijpen en een mens kan doorzoeken is een berg werk. Dit begint met het scannen van de kaarten en het daarna vectoriseren van de percelen. Veelal handwerk, dat vooral bestaat uit het digitaal overtekenen (overtrekken) van de originele perceeltjes op de kaart, zodat daar vervolgens allerlei specifieke informatie aan gehangen kan worden (eigenaren, gebeurtenissen, foto's enzovoort). Denk duizenden kadastrale kaarten en je bent al snel een paar miljoen percelen verder. Da's veel tekenwerk.

Bij de New York Public Library doen ze dat voortaan anders. Zij hebben Building Inspector:

The app uses digitized city atlases georeferenced by librarians and public volunteers on NYPL's Map Warper [waarover ik eerder al eens blogde], an online tool suite for creating interactive historical maps. These rectified maps are then passed through a new computer vision process devised by NYPL Labs called the Map Vectorizer, which recognizes building footprints and converts them into machine-readable shape files (think of it like OCR, but for maps).
This is a big leap forward in the work of digitizing old maps. Until now, feature extraction has been done manually by staff and volunteers, tracing each individual building footprint painstakingly by hand. This is a difficult task, usually requiring on-site training, and so it can take months or years to complete a single atlas. The Vectorizer, however, can crunch through an entire borough map in a matter of hours. The data's not perfect, but it's good enough to start figuring out easier, crowd-friendly tasks for validating and correcting it (like the yes/no/fix process at the center of this app). And all of that public input can then be used to refine and improve the Vectorizer process. Human-computer collaboration!

De app maakt duidelijk, dat hele complexe taken vaak bestaan uit een heleboel hele simpele taken. En eentje daarvan, daar kun je ze in New York bij helpen. Onder het motto "kill time, make history" (prachtig toch!) krijg je een kaart voor je neus met daarop een door de computer overgetekend perceel op de stadsplattegrond van New York. En drie knoppen: yes (als het perceel goed is herkend), no (als het niet om een perceel gaat) en fix (als iemand handmatig het werk van de computer moet corrigeren). Geen login of niks. Gewoon simpel. Gewoon even proberen dus. Of check eerst de tutorial.

Maar niet te precies hoor, "don't let perfect be the enemy of good." Laat dus niet iedere scheve pixel tot een fix leiden. En als de computer er een keer een echte mess van heeft gemaakt, dan "laugh at the poor computer and move on." Kijk trouwens vooral niet naar de voortgangskaart - een plattegrond van New York waarop je de door jou verwerkte percelen kunt zien - want dat is niet goed voor de motivatie...

Tot slot
Jaarlijks moet ik nog wel een paar keer mensen uitleggen waarom we op de website van het BHIC tutoyeren. Dat probleem hebben ze in het Engels al niet. En persoonlijk heb ik verder een groot een zwak voor de vaak lekker informele tone of voice die in veel Engelstalige crowdsourcingsprojecten en op websites wordt gehanteerd. Iets voor ons. Alsof het gewoon leuk is!

But enough yapping. Let's inspect some buildings!

Gerelateerd leesvoer
- Kaarten georefereren in New York
- Goed genoeg is ruim voldoende
- Kaarten maken, vergelijken delen met kaart.cc

7 opmerkingen:

  1. Dat zal toch niet?? Dat het leuk is?? Dat er veel heel gewone mensen naar archieven komen en daar onderzoek doen??

    :)

    Ik ga er eens naar kijken. Je verkoopt het i ieder geval goed :) En als perceeltekenaar ben ik geïnteresseerd in dit soort projecten.

    BeantwoordenVerwijderen
  2. Ik vind de interactieve help die je eerst krijgt voorgeschoteld erg duidelijk! Je kunt trouwens via Twitter/Facebook/Gmail inloggen zodat je 'score' wordt onthouden, netjes. Maar toch, na een stuk of 15 keer aangeven (via toetsenbord, wederom: netjes!) te hebben of het wel of niet of niet helemaal goed was begon het toch wel te vervelen. Ik heb het gevoel dat deze taak iets te simpel is...

    Ik ben toevallig van het weekend bezig geweest met het georefereren van historische kaarten, van Leiden en Noordwijk. Wat ik graag wil is dat als er in een akte een adres wordt genoemd dat deze dan linkt naar een historische kaart (van ongeveer het zelfde jaar). Het vertonen van een historische kaart op Google Maps met een "marker" voor het adres lukt wel aardig, zie bijv. voorbeeld Leiden en voorbeeld Noordwijk (klik op het adres voor de kaart weergave). Moeilijk deel is om de straten op deze historische kaarten te georefereren, wellicht dat crowdsourcing daar ook een oplossing kan bieden...

    BeantwoordenVerwijderen
  3. @Luud: Ik moest ook direct aan jouw Udenhoutse tekenproject denken. Je bent geen echte programmeur, maar ik vraag me af of die software van de NYPL ook door anderen te gebruiken is...

    @Bob: Die tutorial is inderdaad heel erg duidelijk. Qua verveling vond ik de taak zelf wel meevallen. Het is inderdaad redelijk 'dom' werk, maar ik denk dat voor veel mensen de lol er vooral in zit, dat ze door oude kaarten van New York bladeren. En als alle New Yorkers een paar percelen doen, dan zijn ze daar toch al snel een heel eind... ;-)

    Die kaartenkoppeling werkt trouwens erg mooi. Ik voorzien wel wat mitsen en maren als ik de akten van het BHIC in gedachten neem, maar in Leiden werkt het alvast prachtig (de link naar Noordwijk gaf trouwens weer diezelfde straat in Leiden).

    En ik voorzie een nieuw project voor 'jeukende handen' voor je. ;-)

    BeantwoordenVerwijderen
  4. Zag zojuist dat ze ook apps bouwen, dus dan kunnen ook de verloren uurtjes worden ingezet. Meer tégen de verveling, dan dat het gáát vervelen. ;-)

    Inmiddels loopt het aantal 'inspecties' al richting de 200.000.

    BeantwoordenVerwijderen
  5. Inderdaad een leuke toepassing, alleen mis ik een knopje "don't know". Soms worden rechthoekjes aangegeven waarvan je absoluut niet weet (kunt weten) of het een landje of een gebouwtje is.
    Voordeel is wel, dat het hier gaat om redelijk moderne kaarten. Georeferencing bij kaartwerk uit de 16e of 17e eeuw is soms erg problematisch. Zeker als de tekenaar de afmetingen van bijvoorbeeld een gegraven kanaal heeft overdreven. Het staat dan 10x zo breed op de kaart als in werkelijkheid. Kanalen zijn toch een ramp, ze lopen dwars door oude percelen heen en in Friesland zijn soms hele stukken van een stad verdwenen door zo'n kunstmatige waterloop. Maar het houdt je wel scherp, en puzzelen is natuurlijk een deel van de "fun".

    BeantwoordenVerwijderen
  6. @Richard: Bij twijfel heb ik 'fix' gebruikt. En ja, bij de ene kaart zal de computer beter werk verrichten dan bij andere. Maar al het werk dat de computer doet, is alvast meegenomen. Of hij moet het te gortig maken natuurlijk...

    BeantwoordenVerwijderen