How to obtain advanced probabilistic predictions for your data science use case

By | Data science, Deep learning | No Comments
Many data science use cases involve predicting a continuous quantity. For instance, a grid operator might want to predict the energy consumption level for a group of households for next week. In order to deliver these predictions, the Big Data Scientist will apply machine learning algorithms to a large collection of features, such as the family size, weather forecasts, property value and last weeks consumption levels. There are many use cases of this type, for example, predicting sales numbers, hotel rooms booked, money transfers or the time-to-failure of critical components. But what number do we actually want our algorithm to output?
Read More

Peeking into the Big Data future: Lessons learned from the DataWorks Summit in Munich

By | Big data, Data engineering, Infrastructure | No Comments

For about a year I have been fully submerged in everything regarding Big Data; working with various tools and techniques throwing a bit of data science in the mix. I realized there is a high entry barrier for organizations to start turning their (dormant) data into something useful. With this knowledge, I wanted to look at how some of the leaders and early adopters in Big Data are tackling these barriers and if they will become easier (or harder) to handle in the future. Luckily BigData Republic gave me and 2 colleague the opportunity to visit the DataWorks Summit in Munich this April, providing some inside information.
Read More

Data science platformen in de cloud: van POC naar productie

By | Big data, Data engineering, Data science, Infrastructure | No Comments

Het aantal Nederlandse organisaties dat proactief bezig is met data science groeit enorm. Grote organisaties kunnen zich dedicated data science teams veroorloven, die op on-premise infrastructuur of via cloud providers modellen en applicaties ontwikkelen. Echter, middelgrote organisaties beginnen meestal eerst met het opzetten van data science activiteiten binnen de bestaande business intelligence afdeling. Externe consultancy partijen kunnen in deze fase worden ingeschakeld om samen met de business data science use-cases uit te werken tot Proof-of-Concepts (POCs), zodat nut en kansen van data-gedreven werken voor de business inzichtelijk worden. Een snel op te zetten cloud omgeving, bijvoorbeeld op Amazon Web Services of Microsoft Azure, is daarvoor een goede basis. Het gemak waarmee grote opslagcapaciteit en rekenkracht zonder voorinvestering kunnen worden ingezet, leent zich perfect voor dit soort trajecten. Er schuilen echter ook een aantal valkuilen: de stap naar een meer professionele data science omgeving krijgt na afloop van deze trajecten meestal niet prioriteit, met als gevolg dat de POC-omgeving gaandeweg de ‘standaard omgeving’ wordt voor alle data science activiteiten binnen de organisatie. Dit geeft niet alleen risico’s voor security, efficiëntie en onderhoudbaarheid, maar leidt ook tot onnodig hoge kosten.

In deze blog behandelen we de twee belangrijkste aandachtspunten bij het professionaliseren van een data science omgeving in de cloud: security en kosten. We geven aan waar de risico’s liggen wanneer een snel opgezette POC-omgeving ongewild of onbewust een eigen leven gaat leiden, en schetsen oplossingen die BigData Republic in de praktijk bij klanten implementeert.
Read More