Wat is datamining?

Datamining is geen nieuwe uitvinding die met het digitale tijdperk is gekomen. Het concept bestaat al meer dan een eeuw, maar kwam meer in de belangstelling in de jaren 1930. Een van de eerste gevallen van datamining vond plaats in 1936, toen Alan Turing het idee introduceerde van een universele machine die berekeningen kon uitvoeren die vergelijkbaar waren met die van moderne computers.

We hebben sindsdien een lange weg afgelegd. Bedrijven maken nu gebruik van datamining en machine learning om alles te verbeteren, van hun verkoopprocessen tot het interpreteren van financiële gegevens voor investeringsdoeleinden. Als gevolg hiervan zijn datawetenschappers van vitaal belang geworden voor organisaties over de hele wereld, omdat bedrijven met data science grotere doelen willen bereiken dan ooit tevoren.

Data mining is het proces van het analyseren van enorme hoeveelheden gegevens om bedrijfsinformatie te ontdekken die bedrijven helpt problemen op te lossen, risico’s te beperken en nieuwe kansen te grijpen. Deze tak van data science ontleent zijn naam aan de overeenkomsten tussen het zoeken naar waardevolle informatie in een grote database en het delven van erts in een berg. Beide processen vereisen het doorzoeken van enorme hoeveelheden materiaal om verborgen waarde te vinden.

Datamining kan antwoord geven op zakelijke vragen die van oudsher te tijdrovend waren om handmatig op te lossen. Door een reeks statistische technieken te gebruiken om gegevens op verschillende manieren te analyseren, kunnen gebruikers patronen, trends en verbanden ontdekken die ze anders misschien over het hoofd zouden zien. Zij kunnen deze bevindingen toepassen om te voorspellen wat er in de toekomst waarschijnlijk zal gebeuren en actie ondernemen om de bedrijfsresultaten te beïnvloeden.

Datamining wordt gebruikt op veel gebieden van het bedrijfsleven en onderzoek, waaronder verkoop en marketing, productontwikkeling, gezondheidszorg, en onderwijs. Wanneer datamining op de juiste manier wordt toegepast, kan het een groot voordeel opleveren ten opzichte van concurrenten doordat het u in staat stelt meer te weten te komen over klanten, effectieve marketingstrategieën te ontwikkelen, de omzet te verhogen en de kosten te verlagen.

Key Data Mining Concepts

Het bereiken van de beste resultaten uit datamining vereist een scala aan tools en technieken. Enkele van de meest gebruikte functies zijn:

  • Opschonen en voorbereiden van gegevens – Een stap waarin gegevens worden omgezet in een vorm die geschikt is voor verdere analyse en verwerking, zoals het identificeren en verwijderen van fouten en ontbrekende gegevens.

  • Kunstmatige intelligentie (AI) – Deze systemen voeren analytische activiteiten uit die worden geassocieerd met menselijke intelligentie, zoals plannen, leren, redeneren en problemen oplossen.

  • Association rule learning – Deze tools, ook wel bekend als marktmandanalyse, zoeken naar relaties tussen variabelen in een dataset, zoals bepalen welke producten doorgaans samen worden gekocht.

  • Clustering – Een proces waarbij een dataset wordt onderverdeeld in een reeks zinvolle subklassen, clusters genaamd, om gebruikers te helpen de natuurlijke groepering of structuur in de gegevens te begrijpen.

  • Classificatie – Deze techniek wijst items in een dataset toe aan doelcategorieën of -klassen met als doel de doelklasse voor elk geval in de gegevens accuraat te voorspellen.

  • Data analytics – Het proces van het evalueren van digitale informatie tot bruikbare bedrijfsinformatie.

  • Data warehousing – Een grote verzameling bedrijfsgegevens die wordt gebruikt om een organisatie te helpen beslissingen te nemen. Het is de basiscomponent van de meeste grootschalige datamininginspanningen.

  • Machine-leren – Een computerprogrammeertechniek waarbij statistische waarschijnlijkheden worden gebruikt om computers de mogelijkheid te geven te “leren” zonder expliciet te worden geprogrammeerd.

  • Regressie – Een techniek die wordt gebruikt om een reeks numerieke waarden te voorspellen, zoals verkoopcijfers, temperaturen of aandelenkoersen, op basis van een bepaalde gegevensverzameling.

Voordelen van datamining

Data stromen naar bedrijven in een veelvoud van formaten met ongekende snelheden en volumes. Een datagestuurd bedrijf zijn is niet langer een optie; het succes van het bedrijf hangt af van hoe snel u inzichten kunt ontdekken uit big data en deze kunt integreren in zakelijke beslissingen en processen, waardoor betere acties in uw hele onderneming worden gestimuleerd. Met zoveel gegevens om te beheren, kan dit echter een onoverkomelijke taak lijken.

Datamining stelt bedrijven in staat de toekomst te optimaliseren door het verleden en heden te begrijpen en nauwkeurige voorspellingen te doen over wat er waarschijnlijk gaat gebeuren.

Datamining kan u bijvoorbeeld vertellen welke prospects waarschijnlijk winstgevende klanten zullen worden op basis van klantprofielen uit het verleden, en welke het meest waarschijnlijk zullen reageren op een specifiek aanbod. Met deze kennis kunt u het rendement op uw investering (ROI) verhogen door uw aanbod alleen te richten aan prospects die waarschijnlijk zullen reageren en waardevolle klanten zullen worden.

U kunt datamining gebruiken om vrijwel elk bedrijfsprobleem op te lossen waarbij gegevens een rol spelen, zoals:

  • Het verhogen van de omzet.
  • Inzicht in klantsegmenten en -voorkeuren.
  • Werving van nieuwe klanten.
  • Verbetering van cross-selling en up-selling.
  • Het behouden van klanten en het vergroten van loyaliteit.
  • Het verhogen van de ROI van marketingcampagnes.
  • Opsporen van fraude.
  • Herkennen van kredietrisico’s.
  • Monitoring van operationele prestaties.

Door de toepassing van dataminingtechnieken kunnen beslissingen worden gebaseerd op echte business intelligence – in plaats van op instinct of onderbuikreacties – en consistente resultaten opleveren die bedrijven een voorsprong geven op de concurrentie.

Naarmate grootschalige dataverwerkingstechnologieën zoals machine learning en kunstmatige intelligentie toegankelijker worden, zijn bedrijven nu in staat om terabytes aan data in minuten of uren door te spitten, in plaats van dagen of weken, waardoor ze sneller kunnen innoveren en groeien.

Beginselen van Machine Learning nu bekijken.
Watch Nu

Hoe datamining werkt

Een typisch dataminingproject begint met het stellen van de juiste zakelijke vraag, het verzamelen van de juiste gegevens om de vraag te beantwoorden en het voorbereiden van de gegevens voor analyse. Het succes in de latere fasen is afhankelijk van wat er in de eerdere fasen gebeurt. Een slechte kwaliteit van de gegevens leidt tot slechte resultaten, en daarom moeten dataminingdeskundigen zorgen voor de kwaliteit van de gegevens die zij gebruiken als input voor de analyse.

Dataminingdeskundigen bereiken doorgaans tijdige, betrouwbare resultaten door een gestructureerd, herhaalbaar proces te volgen dat de volgende zes stappen omvat:

  1. Business understanding – Het ontwikkelen van een grondig begrip van de projectparameters, waaronder de huidige bedrijfssituatie, de primaire bedrijfsdoelstelling van het project, en de criteria voor succes.
  2. Data understanding – Het bepalen van de gegevens die nodig zijn om het probleem op te lossen en het verzamelen van deze gegevens uit alle beschikbare bronnen.
  3. Datavoorbereiding – Het voorbereiden van de gegevens in het juiste formaat om de zakelijke vraag te beantwoorden, het oplossen van eventuele problemen met de kwaliteit van de gegevens, zoals ontbrekende of dubbele gegevens.
  4. Modellering – Het gebruik van algoritmen om patronen in de gegevens te identificeren.
  5. Evaluatie – Het bepalen of en hoe goed de resultaten die door een bepaald model worden geleverd, zullen helpen het zakelijke doel te bereiken. Er is vaak een iteratieve fase om het beste algoritme te vinden om het beste resultaat te bereiken.
  6. Deployment – Het beschikbaar stellen van de resultaten van het project aan besluitvormers.

Tijdens dit proces is nauwe samenwerking tussen domeinexperts en dataminingers essentieel om de betekenis van dataminingresultaten voor de bedrijfsvraag die wordt onderzocht te begrijpen.

Gebruiksscenario’s en voorbeelden van datamining

Organisaties in allerlei sectoren behalen transformatieve resultaten met datamining:

  • Groupon stemt marketingactiviteiten op elkaar af – Een van de grootste uitdagingen van Groupon is het verwerken van de enorme hoeveelheid gegevens die het gebruikt om zijn boodschappenservice aan te bieden. Elke dag verwerkt het bedrijf meer dan een terabyte aan ruwe gegevens in realtime en slaat het deze informatie op in verschillende databasesystemen. Dankzij datamining kan Groupon zijn marketingactiviteiten beter afstemmen op de voorkeuren van de klant, door 1 terabyte aan klantgegevens in realtime te analyseren en het bedrijf te helpen trends te identificeren zodra deze zich voordoen.
  • Air France KLM speelt in op de reisvoorkeuren van klanten – De luchtvaartmaatschappij gebruikt dataminingtechnieken om een 360-gradenklantbeeld te creëren door gegevens van zoekopdrachten naar reizen, boekingen en vluchtactiviteiten te integreren met interacties via internet, sociale media, callcenters en luchthavenlounges. Ze gebruiken dit diepe inzicht in de klant om gepersonaliseerde reiservaringen te creëren.
  • Bayer helpt boeren met duurzame voedselproductie – Onkruid dat gewassen beschadigt, is al sinds het begin van de landbouw een probleem voor boeren. Een goede oplossing is het toepassen van een herbicide met een nauw spectrum dat precies die onkruidsoort in het veld effectief doodt en tegelijkertijd zo min mogelijk ongewenste neveneffecten heeft. Maar om dat te kunnen doen, moeten boeren eerst het onkruid in hun velden nauwkeurig identificeren. Met behulp van Talend Real-time Big Data ontwikkelde Bayer Digital Farming WEEDSCOUT, een nieuwe applicatie die boeren gratis kunnen downloaden. De app maakt gebruik van machine learning en kunstmatige intelligentie om foto’s van onkruid in een Bayer-database te matchen met onkruidfoto’s die boeren insturen. Hiermee kan de teler nauwkeuriger voorspellen wat de gevolgen zijn van zijn of haar acties, zoals de keuze van de zaadsoort, de dosering van gewasbeschermingsmiddelen of de oogsttijd.
  • Domino’s helpt klanten bij het samenstellen van de perfecte pizza – Het grootste pizzabedrijf ter wereld verzamelt 85.000 gestructureerde en ongestructureerde gegevensbronnen, waaronder verkooppuntsystemen en 26 supply chain-centra, en via al zijn kanalen, waaronder sms-berichten, sociale media en Amazon Echo. Dit niveau van inzicht heeft de bedrijfsprestaties verbeterd en tegelijkertijd één-op-één koopervaringen mogelijk gemaakt op alle touchpoints.

https://player.vimeo.com/video/238075190

Dit zijn slechts een paar voorbeelden van hoe dataminingcapaciteiten data-gedreven organisaties kunnen helpen hun efficiëntie te verhogen, activiteiten te stroomlijnen, kosten te verlagen en winstgevendheid te verbeteren.

De toekomst van datamining

De toekomst is rooskleurig voor datamining en data science, aangezien de hoeveelheid gegevens alleen maar zal toenemen. In 2020 zal ons totale digitale universum van gegevens zijn gegroeid van 4,4 zettabytes tot 44 zettabytes. Ook zullen we elke seconde 1,7 megabyte aan nieuwe informatie creëren voor elk mens op aarde.

Net zoals mijnbouwtechnieken zijn geëvolueerd en verbeterd door verbeteringen in de technologie, zo zijn ook technologieën om waardevolle inzichten uit gegevens te halen geëvolueerd. Ooit konden alleen organisaties als NASA hun supercomputers gebruiken om gegevens te analyseren – de kosten van het opslaan en berekenen van gegevens waren gewoon te hoog. Nu doen bedrijven allerlei interessante dingen met machine learning, kunstmatige intelligentie en deep learning met cloud-gebaseerde data lakes.

Zo hebben Internet of Things en wearable technologie mensen en apparaten veranderd in data-genererende machines die onbeperkte inzichten kunnen opleveren over mensen en organisaties – als bedrijven de data maar snel genoeg kunnen verzamelen, opslaan en analyseren.

Download O’Reilly Report: The Internet of Things Market nu.
Lees Nu

Tegen 2020 zullen er ongeveer >20 miljard aangesloten apparaten zijn op het Internet of Things (IoT). De gegevens die hierdoor worden gegenereerd, zullen beschikbaar zijn in de cloud, waardoor er een dringende behoefte ontstaat aan flexibele, schaalbare analysetools die massa’s informatie uit ongelijksoortige datasets kunnen verwerken.

Oplossingen voor analyses in de cloud maken het voor organisaties praktischer en kosteneffectiever om toegang te krijgen tot enorme hoeveelheden gegevens en computingresources. Cloud computing helpt bedrijven snel gegevens te verzamelen uit verkoop, marketing, het web, productie- en voorraadsystemen en andere bronnen, deze te compileren en voor te bereiden, te analyseren en erop te reageren om de resultaten te verbeteren.

Open source dataminingtools bieden gebruikers ook nieuwe niveaus van kracht en flexibiliteit, voldoen aan analytische eisen op manieren die veel traditionele oplossingen niet kunnen en bieden uitgebreide analisten- en ontwikkelaarsgemeenschappen waar gebruikers projecten kunnen delen en eraan kunnen samenwerken. Bovendien liggen geavanceerde technologieën zoals machine learning en AI nu binnen het bereik van vrijwel elke organisatie met de juiste mensen, gegevens en tools.

Data Mining Software and Tools

Het lijdt geen twijfel dat datamining de kracht heeft om ondernemingen te transformeren; het implementeren van een oplossing die aan de behoeften van alle belanghebbenden voldoet, kan echter vaak de platformkeuze vertragen. Het brede scala aan opties voor analisten, waaronder open-sourcetalen zoals R en Python en vertrouwde tools zoals Excel, gecombineerd met de diversiteit en complexiteit van tools en algoritmen, kan het proces verder bemoeilijken.

Bedrijven die de meeste waarde halen uit datamining, selecteren doorgaans een platform dat:

  • Best practices voor hun branche of type project bevat. Organisaties in de gezondheidszorg hebben bijvoorbeeld andere behoeften dan e-commercebedrijven.
  • Beheert de volledige levenscyclus van datamining, van gegevensexploratie tot productie.
  • Samenhangt met de bedrijfstoepassingen, waaronder BI-systemen, CRM, ERP, financiële en andere bedrijfssoftware waarmee het moet samenwerken voor een maximaal rendement op de investering.
  • Integreert met toonaangevende open-sourcetalen, zodat ontwikkelaars en datawetenschappers over de flexibiliteit en samenwerkingstools beschikken om innovatieve toepassingen te maken.
  • Voldoet aan de behoeften van IT, datawetenschappers en analisten, en voorziet tevens in de rapportage- en visualisatiebehoeften van zakelijke gebruikers<

Het Talend Big Data Platform biedt een complete suite met mogelijkheden voor databeheer en data-integratie, zodat dataminingteams sneller kunnen inspelen op de behoeften van hun bedrijf.

Gebaseerd op een open, schaalbare architectuur en met tools voor relationele databases, flat files, cloud apps en platforms, vormt deze oplossing een aanvulling op uw datamining platform door meer data in minder tijd aan het werk te zetten – wat zich vertaalt in een snellere time to insight en concurrentievoordeel.

Start met datamining

Omdat organisaties steeds meer worden overspoeld met enorme hoeveelheden interne en externe gegevens, hebben ze de mogelijkheid nodig om die ruwe gegevens te distilleren tot bruikbare inzichten met de snelheid die hun bedrijf vereist.

Bedrijven in elke branche vertrouwen op Talend om hen te helpen inzichten uit datamining te versnellen. Ons moderne data integratie platform stelt gebruikers in staat om slimmer en sneller te werken binnen teams, waardoor ze in staat zijn om end-to-end data integratie taken tien keer sneller te ontwikkelen en uit te rollen dan handmatige codering, tegen 1/5 van de kosten van andere oplossingen.

Bekijk hoe u aan de slag kunt met Talend’s Big Data tools.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *