Goede security absolute noodzaak voor Analytics as a Service

Tijdens de beurs Infosecurity Europe 2013 werden de resultaten bekend van een onderzoek naar het resultaat van projecten op het gebied van Big Data. Veel Big Data-projecten dreigen te mislukken door problemen rond security. Dat is onnodig, stelt Patrick de Goede van Eijk van T-Systems, als we maar goed weten wat we op security- en privacy-gebied moeten regelen.

De druk bezochte Britse editie van Infosecurity-beurs vormde een mooie gelegenheid om de bezoekers te ondervragen over hun belangrijkste ervaringen met een van de belangrijkste thema’s van dit moment: Big Data. Liefst 76 procent van de ondervraagde managers (IT en business) gaf aan dat men grote zorgen heeft over de vraag of security bij Big Data-projecten wel afdoende is geregeld? Die zorgen bleken zo groot dat meer dan de helft security-problemen als belangrijkste reden aangaf waarom men nog niet met Big Data aan de slag is gegaan.

De Cloud Security Alliance (CSA, www.cloudsecurityalliance.org) heeft inmiddels veel werk op dit gebied verricht. Erg nuttig is bijvoorbeeld de whitepaper ‘Top Ten Big Data Security and Privacy Challenges’. In dit document wordt het security- en privacy-probleem kernachtig geformuleerd: ‘Security and privacy issues are magnified by velocity, volume, and variety of big data, such as large-scale cloud infrastructures, diversity of data sources and formats, streaming nature of data acquisition and high volume intercloud migration’.

Traditionele security-mechanismes zijn hier niet op toegesneden, stellen de onderzoekers van CSA’s Big Data Working Group. Die zijn gericht op statische gegevens en niet op streaming data. Een fenomeen als ‘provenance’ laat zich bijvoorbeeld niet of nauwelijks overbrengen naar een cloud-omgeving en tools die bedoeld zijn om afwijkingen in datasets op te sporen, zullen in veel gevallen veel te veel ‘false positives’ opleveren. Bovendien vereist het streaming karakter van Big Data-projecten dat securitymaatregelen real-time kunnen worden uitgevoerd.


De werkgroep heeft de tien belangrijkste problemen op het gebied van security, privacy en Big Data in kaart gebracht. Laten we deze tien punten eens nader bekijken.

1. Veilige verwerking van gegevens in een gedistribueerd programming framework
Gedistribueerde programming frameworks maken gebruik van parallellisatiemechanismen bij het verwerken van massale hoeveelheden data. Een bekend voorbeeld is MapReduce. Hierbij wordt een input file gesplitst in meerdere brokken. In de eerste fase van verwerking wordt voor iedere brok data een zogeheten Mapper gebruikt om de gegevens te lezen, een bewerking uit te voeren en een serie key/value pairs voort te brengen. In de volgende fase combineert een zogenaamde Reducer de values die bij iedere key horen en genereert daarmee het resultaat. Om deze operatie veilig uit te voeren, zijn twee attack preventionmaatregelen nodig: het beveiligen van de mappers en het beveiligen van de data als een ‘rogue mapper’ wordt ontdekt. Een ‘untrusted mapper’ kan verkeerde resultaten opleveren, waardoor ook het geaggregeerde resultaat fout zal zijn.

2. Security best practices voor nietrelationele data stores
NoSQL-databases hebben niet-relationele data stores populair gemaakt. De onderzoekers stellen dat er veel ontwikkelingswerk plaatsvindt rond de security-infrastructuur voor dit soort data stores. Er is echter nog geen sprake van een volwassen aanpak als het gaat om bijvoorbeeld NoSQL injections. Security maakte zeker niet altijd onderdeel uit van NoSQL-producten. Ontwikkelaars implementeren security van een NoSQL-omgeving veelal in een middleware-laag, maar NoSQL-databases dwingen security niet expliciet in de database zelf af. Dat is een probleem, zeker als we NoSQL-databases ook nog eens gaan clusteren. Er zal dus zeer goed gekeken moeten worden naar de security-maatregelen die in de genoemde middleware-laag zijn opgenomen.

3. Veilige opslag van gegevens en veilige transactielogging
Het aantal data- en transactielogs neemt bij Big Data-projecten een dermate omvang aan dat het voor een IT-afdeling niet meer te doen is om handmatig bij te houden waar deze logbestanden zich bevinden. Dit zal dus via een vorm van ‘autotiering’ moeten worden geregeld. Daar bestaan inmiddels oplossingen voor, maar die houden veelal weer niet bij waar de data zelf is opgeslagen. De CSAwerkgroep noemt een voorbeeld van een bedrijf waar data afkomstig van verschillende divisies bij elkaar gebracht wordt. Sommige logdata wordt echter nauwelijks opgevraagd, terwijl andere loggegevens voortdurend worden geraadpleegd. Een oplossing voor auto-tiering zal de zelden geraadpleegde logdata verplaatsen naar een ‘lower tier’. Vaak heerst daar ook een minder streng security-regime. Met andere woorden: auto-tiering van logdata kan een oplossing zijn, mits een duidelijk beeld bestaat van de verschillende tiers en bijbehorende security-maatregelen.

4. Validatie en filtering van gegevensinvoer vanaf endpoint devices
Een belangrijk probleem bij veel Big Data-projecten is: kunnen we de data die wordt toegevoegd vertrouwen? Met andere woorden: input validatie. Hoe kunnen we vaststellen dat de data correct is en hoe filteren we malicious gegevens uit de datastroom? Dit wordt – met dank aan BYOD – een steeds actueler probleem. De algoritmes om deze vaststelling en filtering te doen, ontbreken nog grotendeels.

5. Realtime monitoring van security en compliance
Realtime security monitoring is altijd al een lastig probleem geweest. De hoeveelheid alarmeringen is in veel gevallen te groot voor mensen om te verwerken, waardoor veel van deze alerts simpelweg worden weggeklikt. Bij Big Data wordt dit alleen nog maar erger. Aan de andere kant kunnen Big Data-technieken ook helpen om grip op dit probleem te krijgen, juist omdat veel Big Data-technologie op het razendsnel verwerken van grote hoeveelheden gegevens is gericht. Waardoor de interessante situatie ontstaat dat Big Data-technieken gebruikt kunnen worden om afwijkingen te vinden in de enorme gegevenstromen die met Big Data gepaard gaan. Hierdoor kan het op termijn mogelijk worden om veel sneller en gemakkelijker antwoord te krijgen op vragen als ‘Hebben we een overtreding van compliance-standaard ABC doordat zich actie XYZ voordoet?’

6. Schaalbare en eenvoudig samen te stellen data mining en analytics met behoud van privacy
Veel criticasters van Big Data zien in de opkomst van dit soort technieken vooral een bedreiging: minder privacy, opdringerige marketingacties, problemen met mensenrechten. Ook anonimiseren van data is niet voldoende om de privacy van mensen veilig te stellen. Toen Amazon onlangs een set met geanonimiseerde zoekresultaten publiceerde die voor academische doeleinden waren gebruikt, bleek het zeer eenvoudig om aan de hand van de zoekacties de personen in kwestie te vinden. Er zullen dus duidelijk richtlijnen en aanbevelingen moeten komen hoe onbedoelde inbreuk op privacy kan worden voorkomen, juist ook bij het samenvoegen van datasets. Belangrijk hierbij is te beseffen dat datasets continu worden bekeken en geanalyseerd. Er is maar één analist nodig die bewust een dataset misbruikt en de privacy van grote aantallen personen loopt gevaar.

7. Toegangscontrole en communicatie op basis van encryptie
Zonder versleuteling kan niet worden gegarandeerd dat gegevens veilig worden verzameld en slechts toegankelijk zijn voor de partij die hiertoe geautoriseerd is. Hierbij dient de data versleuteld te worden op basis van access control policies. We kunnen hierbij werken met hulpmiddelen als ‘attribute based encryption’ (ABE), maar dit soort technieken zijn nog niet ver genoeg ontwikkeld. Het ontbreekt in veel gevallen nog aan functionele rijkdom, schaalbaarheid en efficiency.

8. Fijnmazige access control
Een lastig probleem bij grote datasets is het beantwoorden van de vraag wie welke data mag inzien. De CSA-onderzoekers hebben vastgesteld dat in veel gevallen toegang tot veel gegevens afgeschermd wordt zonder dat daar een duidelijke reden voor is. Veelal blijkt dan dat het aan de juiste tools ontbreekt om zeer fijnmazig te kunnen instellen welke gegevens door wie mogen worden gezien of gebruikt. Juist de veelheid aan maatregelen, wetgeving en afspraken maken dit lastig. Vaak gelden juridische regels, branche-afspraken, samenwerkingsovereenkomsten tussen bedrijven en dergelijke. Er dienen tools te komen waarin de impact van al dit soort relevante governance- systemen kan worden geregeld en beheerd.

9. Fijnmazige mogelijkheden voor auditing
Hoewel we bij Big Data proberen te werken met real-time security, zal dit in de praktijk niet altijd lukken. Er kan een tot dan toe onbekend type aanval worden gebruikt of er is sprake van een ‘true positive’ die over het hoofd is gezien. In dat geval zal achteraf uitgezocht moeten worden wat er precies is gebeurd. Dit soort audit-informatie is bovendien bedoeld om te onderzoeken wat de bedrijfseconomische en juridische gevolgen zijn. We worden bij een probleem bovendien geacht uit te leggen waarom een bepaalde compliance-standaard is overtreden en hoe dit in de toekomst voorkomen zal worden.

10. Data provenance
Waar komt een bepaald gegeven vandaan? Het vastleggen en analyseren van dit soort metadata zal steeds resourceintensiever worden naarmate de hoeveelheid data die we verzamelen verder groeit. Toch is het van cruciaal belang dat hier goede tools voor worden gebruikt. Deze metadata is bijvoorbeeld van groot belang om de waarde van bepaalde datasets te kunnen vaststellen voordat deze worden gebruikt.

Bewust worden
Big Data biedt bedrijven en overheidsinstellingen enorme mogelijkheden. Maar de zorgen die de ondervraagde IT- en business managers tijdens Infosecurity Europe 2013 aangaven, zijn natuurlijk wel zeer terecht. Daarbij gaat het er zeker niet ‘alleen maar’ om hoe wij cybercriminelen kunnen tegenhouden die hun oog op grote data stores hebben laten vallen. Het is van cruciaal belang dat wij zekerheid hebben over de herkomst en de kwaliteit van de gegevens, terwijl wij ons bovendien te houden hebben aan wet- en regelgeving op het gebied van privacybescherming. Maar ook governanceafspraken en bijvoorbeeld commerciële afspraken tussen bedrijven over het gebruik van gedeelde informatie moet goed en aantoonbaar geregeld zijn. Nu veel organisaties hun eerste stappen op het gebied van Big Data en Analytics as a Service zetten, is het dan ook van groot belang dat zij zich bewust zijn van de vele security-aspecten die hierbij spelen.

Patrick de Goede van Eijk is enterprise architect en solution expert bij T-Systems.