‘Big data is het nieuwe olie, maar de pijpleidingen ontbreken’

Een vreemde eend in de bijt. Zo voelde Barend Mons, professor Biosemantiek in Leiden, zich tussen de zorgprofessionals op het DICA-congres 2017. Maar zijn verhaal over het delen van steeds grotere hoeveelheden data was er niet minder relevant om.

Big data ontketent revolutie
Computers die uit miljoenen informatiepagina’s onvermoede verbanden vinden tussen specifieke genen en een ziektebeeld. De voorbeelden van alles wat big data vermag zijn bekend. De wetenschap maakt sprongen vooruit nu de hoeveelheid data zich in hoog tempo vermeerdert (90% van alle data in de life sciences is minder dan twee jaar oud). Tegelijk vormt die information overload in toenemende mate een probleem op zich. Privacy, toegankelijkheid en veiligheid zijn de big issues van big data.

Zeven zonden
(Bio)medische onderzoek verhoudt zich slecht tot het effectief gebruiken van big data. ‘We maken er een puinhoop van’, zei Mons. Hij kwam tot zeven hoofdzonden:
1) De journal impact factor. ‘We belonen wetenschappers alleen als ze in papieren bladen publiceren. Dat is een ramp voor computers, die slecht zijn in het doorzoeken van tekst. Deze manier van publiceren staat ook het delen van data in de weg.’
2) De biomedische wereld kan niet omgaan met de complexiteit van databeheer, stelde Mons. ‘En dus missen we 99% van de informatie.’
3) De biomedische wereld negeert de data sciences. ‘We hebben hen hard nodig maar kunnen niet met hen communiceren; we begrijpen elkaar niet.’
4) Data is onvoldoende beschikbaar voor anderen; het eenvoudig delen van gegevens is nog geen vanzelfsprekendheid.
5) Data heeft het verkeerde formaat. Tekstdocumenten en pdf’s zijn een nachtmerrie voor computers, die heel slecht zijn in het lezen van tekst, laat staan iets kunnen met tabellen en grafieken in tiff-formaat. ‘En dan is er nog het verschijnsel van de weblinks naar “supplementary data”,’ zei Mons: ‘20% van de links werkt na een jaar niet meer.’
6) Niemand investeert in infrastructuur; ‘Data is de nieuwe olie maar we vergeten de pijpleidingen’, aldus Mons.
7) Er groeit een berg aan data zonder enig plan hoe we deze toegankelijk houden of moeten gebruiken.

FAIR
Een mogelijk antwoord is FAIR, wat staat voor ‘findable, accessible, interoperable en re-usable’. Met andere woorden: data moeten vindbaar, toegankelijk, interoperabel, herbruikbaar en duurzaam opgeslagen zijn. FAIR is geen nieuwe standaard, zei Mons, maar zijn uitgangspunten (principles) waarlangs ‘standards’ en best practices kunnen worden ontwikkeld. Een misverstand is dat FAIR een open standaard zou zijn (zoals bijvoorbeeld het besturingssysteem Linux waar iedereen aan kan bijdragen).

Niet gratis
Een ander misverstand is dat toegankelijke data ook gratis is. ‘Het tegendeel is waar: FAIR-data is juist kostbaar’. Mons besloot zijn presentatie met te schetsen dat er snel actie moet komen. ‘80% van alle data is re-useless, kun je niet hergebruiken en is dus ook niet FAIR.’ Mons riep op om in Europa 500.000 data-stewards op te leiden die ervoor kunnen zorgdragen dat de gigantische hoeveelheid medische data in de toekomst ook echt gebruikt kan worden.