19 juni 2012

Lezen of gelezen worden op afstand #kvan12


Tijdens de KVAN-dagen werd de tweede keynote lezing verzorgd door prof. mr. dr. Mireille Hildebrandt (slides). En dat ze drie afkortingen voor haar naam heeft staan, heb ik geweten: een stevig academisch betoog dat uiteindelijk leidde tot aanbevelingen voor regelgeving rond datamining en profilering.

Opvallend vond Hildebrandt allereerst de overeenkomst in etymologie van de woorden 'archief' (beginnen, regeren, bevelen) en 'cybernetica' (sturen, leiden, besturen). Cybernetica is de leer van het sturen op afstand door middel van technologie en feedback. Schurkt aan tegen kunstmatige intelligentie.

Buiten de orde
Hildebrandt vervolgde door te stellen dat informatie niet vrij, maar geordend wil zijn. Dit in contrast met de huidige tendens dat informatie niet alleen vrij wíl, maar als logisch gevolg daarvan volgens velen ook móet zijn. "Archieven maken de mens", de manier waarop we onze informatie sorteren en opslaan maakt het soort samenleving dat we zijn. Van archief naar zelfpublicatie en reputatiebeheer via sociale media.

Data en de verbanden daartussen vormen informatie en uiteindelijk kennis. Zonder verbanden is er slechts ruis. Uitdaging is volgens Hildebrandt om buiten de sortering om te zoeken naar informatie waarvan je nog niet eens weet dat die in de data zit. Door algoritmen worden nieuwe patronen zichtbaar. De meerwaarde van data zit hem dan in het gebruik daarvan op een onvoorziene manier. In kennis die je er niet in hebt gezocht of gestopt. Van dataverzameling naar informatieverwerking naar kennisproductie. De cloud staat ook gewoon ergens op een server.

Lezen op afstand
Hildebrandt haalt taal- en literatuurwetenschapper Franco Moretti aan, die distant reading (lezen op afstand) als alternatief zet tegenover close reading (het diepgaand analyseren van een selectie van boeken, bijna zin voor zin). Bij lezen op afstand wordt niet een selectie, maar worden álle boeken geanalyseerd, maar niet door mensenogen. Uitspraken als "om literatuur te begrijpen moeten we ophouden boeken te lezen" en "afstand is een voorwaarde voor kennis" karakteriseren die methode.

Romans worden op basis van bijvoorbeeld woordfrequentie of grammatica ingedeeld op genre, aan de hand van de genres van een ingevoerde selectie van boeken. De machine leert vervolgens door, waar de mens stopt met werken. Mooi voorbeeld vond ik de detectie van verborgen aspecten van plots in bijvoorbeeld toneelstukken, door de plots als netwerken te 'lezen'. Personen worden de nodes in het netwerk, hun conversaties worden de relaties. Wat als je een persoon uit het netwerk verwijdert?

Gelezen worden op afstand
In het normale leven hebben we met dergelijke technieken al dagelijks meermaals te maken. Denk aan ons surfgedrag (en gedragsgestuurd adverteren) en zoekmachines (PageRank). Informatie wordt via algoritmen aan elkaar geknoopt tot nieuwe kennis, zoals een profiel waarbij een bepaalde advertentie past. En PageRank werkt als poortwachter tussen ons en de informatie. De poortwachter bepaalt wat wij vinden aan informatie en bovendien in welke volgorde. Algoritmen worden doorslaggevend voor de informatie die wij aangereikt krijgen, de kennis die wij hebben. En die algoritmen zijn niet open en transparant, maar beschermd door patenten.

Mooi voorbeeld van Hildebrandt van de schooljuf die vertelde dat Parijs de hoofdstad was van Frankrijk. Je vertrouwde haar, geloofde haar, nog voordat je ooit in Parijs was geweest of het een Fransman had kunnen vragen. Met die nieuwe technieken wordt die band van vertrouwen minder transparant en zichtbaar.

Waar Stine Jenssen in haar keynote eerder de nadruk had gelegd op de informatie die je zelf achterlaat ("lekt", in haar woorden) legt Hildebrandt die nadruk op de informatie op basis van wat je doet. Datamining en profilering. Nóg minder controle, nóg minder grijpbaar, nóg minder beïnvloedbaar, nóg minder transparant.

Machinaal lezen
Software die de eigen performance verbetert door het eigen programma aan te passen naar aanleiding van feedback. Software die kennis vindt of maakt waarvan je niet eens wist dat je ernaar had kunnen zoeken. Ik moet toch steeds ook aan archieven denken, waarvan het gebruik tegenwoordig door bijvoorbeeld een historicus ook totaal kan verschillen van de bedoeling die een archiefvormer er ooit had ingestopt. Misschien zou die laatste ook wel versteld staan van het huidige gebruik van 'zijn' informatie? Denk aan het Kadaster.

Je wilt dus dat die machines, die systemen zo onvoorspelbaar mogelijk worden. Des te groter is immers de kans dat ze bijvoorbeeld met oplossingen voor problemen komen die je zelf nooit had kunnen verzinnen.

Gebruik
Volgens Hildebrandt wordt deze techniek helaas vaak verkeerd begrepen of gebruikt. Terroristische aanslagen voorspellen (hypotheses testen) kan bijvoorbeeld niet via lezen op afstand, simpelweg omdat er te weinig data is om daar statistisch iets mee te kunnen aanvangen.

Voor het genereren van hypotheses is de techniek daarentegen erg bruikbaar. Iemand die in een bepaald postcodegebied woont, een bepaalde belastingaanslag krijgt en een bepaalde kleurvoorkeur heeft, is mogelijk geneigd tot een bepaald soort gedrag. Door lezen op afstand worden combinaties gemaakt en verbanden gelegd die een mens nooit zou verzinnen. Maar (lerende) software wel.

Spannend voorbeeld vond ik cognitieve surveillance. Bijvoorbeeld uitzoeken wat voor soort geluid in een straatbeeld correleert met geweld.

Bescherming
Het uiteindelijk mogelijk kunnen voorkomen van geweld is mooi, maar hoe zit het met profilering en de bescherming van jouw persoonsgegevens? Er is een conceptverordening gegevensbescherming voor de EU verschenen en daar staan wel goede bepalingen in. Zo beschermt de verordening je tegen maatregelen die louter op grond van geautomatiseerde gegevensbewerking zijn gebaseerd. Denk aan profilering. Ook zou je geïnformeerd moeten worden over de verwerking van je gegevens en mogelijke gevolgen daarvan. Alleen hoe hier in de praktijk handjes en voetjes aan te geven, dat weet niemand nog...

Hildebrandt zelf haalt er nog wel Sculley en Pasanek bij en doet enkele aanbevelingen (transparantie in publieke context, peer review methode datamining enzovoort), maar áls we het dan al weten, en áls we dan al die aanbevelingen al opvolgen, dan zijn we misschien al wel te laat.

Kortom
Hoe dan ook, een ingewikkelde doch interessante keynote, over een onderwerp waar ik wel iets van af wil weten, maar ook weer niet te veel.

Aanbevolen leesvoer
- Het waren twee fantastische dagen!
- De ezels van Sittard (of hoe archivarissen rebels kunnen zijn)

3 opmerkingen:

  1. Mooi uitgebreid verslag. Dank je, ga ik in mijn stukje even naar verwijzen.

    BeantwoordenVerwijderen
  2. Ok, mooi verslag. Jij hebt beter opgeschreven wat Hildebrandt heeft gezegd dan ik. Grappig dat we allebei vandaag met een post komen :)

    BeantwoordenVerwijderen
  3. @Ingmar: Dank je, en dank je.

    @Luud: De slides hielpen mijn aantekeningen en geheugen ook wel hoor. ;-)

    En ja, ik ben de laatste weken weer lekker aan het bloggen; tijd voor ontspanning! De laatste dagen komen ze zelfs in paartjes. De posts over de KVAN-dagen wissel ik steeds af met wat andere berichten.

    Deze van Hildebrandt heb ik trouwens een dag naar voren gehaald, omdat ie mooi aansloot bij de eerdere post van Ingmar.

    BeantwoordenVerwijderen