CRISP-DM staat voor het sectoroverschrijdende standaardproces voor datamining. De CRISP-DM-methodologie biedt een gestructureerde aanpak voor het plannen van een dataminingproject. Het is een robuuste en beproefde methodiek. Wij claimen er geen eigendom over. Wij hebben het niet uitgevonden. Wij zijn een converter van de krachtige functionaliteit, flexibiliteit en bruikbaarheid ervan bij het gebruik van analytics om zakelijke problemen op te lossen. Het is de gouden draad die door vrijwel iedere klantbijeenkomst loopt.
Dit model is een geïdealiseerde opeenvolging van gebeurtenissen. In de praktijk kunnen veel taken in een andere volgorde worden uitgevoerd, en zal het vaak nodig zijn om terug te keren naar eerdere taken en bepaalde acties te herhalen. Het model probeert niet alle mogelijke routes door het dataminingproces vast te leggen.
Hoe helpt CRISP?
CRISP DM biedt een routekaart, best practices en structuren voor betere en snellere resultaten van het gebruik van datamining. Zo helpt het het bedrijf bij het plannen en uitvoeren van een dataminingproject.
Fasen van CRISP-DM
CRISP-DM biedt een overzicht van de datamining-levenscyclus als procesmodel. Het levenscyclusmodel bestaat uit zes fasen, waarbij pijlen de belangrijkste en meest voorkomende afhankelijkheden tussen fasen aangeven. De volgorde van de fasen is niet strikt. En de meeste projecten gaan indien nodig heen en weer tussen fasen. Het CRISP-DM-model is flexibel en kan eenvoudig worden aangepast.
Als uw organisatie bijvoorbeeld het witwassen van geld wil opsporen, zult u waarschijnlijk grote hoeveelheden gegevens doorzoeken zonder een specifiek modelleringsdoel. In plaats van modelleren, zal uw werk zich richten op het verkennen en visualiseren van gegevens om verdachte patronen in financiële gegevens bloot te leggen. Met CRISP-DM kunt u een dataminingmodel creëren dat aan uw behoeften voldoet.
Het bevat beschrijvingen van typische fasen van een project, de taken die bij elke fase betrokken zijn, en een uitleg van de relaties tussen deze taken.
Fase 1: Zakelijk inzicht
De eerste fase van het CRISP-DM-proces is begrijpen wat u vanuit een zakelijk perspectief wilt bereiken. Het kan zijn dat uw organisatie concurrerende doelstellingen en beperkingen heeft die goed in evenwicht moeten worden gebracht. Deze procesfase heeft tot doel belangrijke factoren bloot te leggen die van invloed zijn op de uitkomst van het project. Als u deze stap verwaarloost, kan dit betekenen dat er veel moeite wordt gestoken in het vinden van de juiste antwoorden op de verkeerde vragen.
Wat zijn de gewenste resultaten van het project?
Beoordeel de huidige situatie
kat timpf hoogte
Dit omvat meer gedetailleerd feitenonderzoek over de middelen, beperkingen, aannames en andere factoren waarmee u rekening moet houden bij het bepalen van uw data-analysedoel en projectplan.
- Personeel (bedrijfsexperts, data-experts, technische ondersteuning, datamining-experts)
- Gegevens (vaste uittreksels, toegang tot live, opgeslagen of operationele gegevens)
- Computerbronnen (hardwareplatforms)
- Software (dataminingtools, andere relevante software)
- Een verklarende woordenlijst met relevante zakelijke terminologie maakt deel uit van het zakelijke inzicht dat beschikbaar is voor het project. Het samenstellen van deze verklarende woordenlijst is een nuttige oefening in het opwekken van kennis en het opdoen van kennis.
- Een verklarende woordenlijst van dataminingterminologie wordt geïllustreerd met voorbeelden die relevant zijn voor het bedrijfsprobleem.
Bepaal dataminingdoelen
Een zakelijk doel vermeldt doelstellingen in zakelijke terminologie. Een dataminingdoel vermeldt de projectdoelstellingen in technische termen. Het bedrijfsdoel kan bijvoorbeeld zijn: het verhogen van de catalogusverkoop aan bestaande klanten. Een dataminingdoel kan zijn om te voorspellen hoeveel widgets een klant zal kopen, op basis van zijn aankopen in de afgelopen drie jaar, demografische informatie (leeftijd, salaris, stad, enz.) en de prijs van het item.
Projectplan maken
Beschrijf het beoogde plan voor het bereiken van de dataminingdoelen en bedrijfsdoelen. Uw plan moet de stappen specificeren die u tijdens de rest van het project moet uitvoeren, inclusief de initiële selectie van hulpmiddelen en technieken.
1. Projectplan: Maak een lijst van de fasen die in het project moeten worden uitgevoerd, met hun duur, vereiste middelen, inputs, outputs en afhankelijkheden. Probeer waar mogelijk de grootschalige iteraties in het dataminingproces expliciet te maken, bijvoorbeeld herhalingen van de modellerings- en evaluatiefasen.
Als onderdeel van het projectplan is het belangrijk om de afhankelijkheden tussen tijdschema's en risico's te analyseren. Markeer de resultaten van deze analyses expliciet in het projectplan, idealiter met acties en aanbevelingen als de risico’s zich manifesteren. Bepaal welke evaluatiestrategie in de evaluatiefase zal worden gebruikt.
Uw projectplan wordt een dynamisch document. Aan het einde van elke fase beoordeelt u de voortgang en prestaties en werkt u het projectplan dienovereenkomstig bij. Specifieke evaluatiepunten voor deze updates moeten onderdeel zijn van het projectplan.
2. Initiële beoordeling van instrumenten en technieken: Aan het einde van de eerste fase moet u een eerste beoordeling van de hulpmiddelen en technieken uitvoeren. U selecteert bijvoorbeeld een dataminingtool die verschillende methoden ondersteunt voor verschillende fasen van het proces. Het is belangrijk om tools en technieken vroeg in het proces te beoordelen, aangezien de selectie van tools en technieken het hele project kan beïnvloeden.
Fase 2: Gegevensinzicht
Voor de tweede fase van het CRISP-DM-proces moet u de gegevens verwerven die in de projectbronnen staan vermeld. Deze eerste verzameling omvat het laden van gegevens als dit nodig is voor het begrijpen van de gegevens. Als u bijvoorbeeld een specifieke tool voor het begrijpen van gegevens gebruikt, is het volkomen logisch om uw gegevens in deze tool te laden. Als u meerdere gegevensbronnen aanschaft, moet u overwegen hoe en wanneer u deze gaat integreren.
Linux$home
Beschrijf gegevens
Onderzoek de 'bruto' of 'oppervlakte' eigenschappen van de verkregen gegevens en rapporteer over de resultaten.
Gegevens verkennen
Tijdens deze fase behandel je dataminingvragen met behulp van query-, datavisualisatie- en rapportagetechnieken. Deze kunnen het volgende omvatten:
- Verdeling van de belangrijkste kenmerken
- Relaties tussen paren of kleine aantallen attributen
- Resultaten van eenvoudige aggregaties
- Eigenschappen van significante subpopulaties
- Eenvoudige statistische analyses
Deze analyses kunnen rechtstreeks gericht zijn op uw dataminingdoelen. Ze kunnen bijdragen aan de databeschrijving en kwaliteitsrapporten, of deze verfijnen, en kunnen bijdragen aan de transformatie en andere datavoorbereidingsstappen die nodig zijn voor verdere analyse.
Controleer de gegevenskwaliteit
Onderzoek de kwaliteit van de gegevens en beantwoord vragen als:
- Zijn de gegevens volledig of bestrijken ze alle vereiste gevallen?
- Is het juist, of bevat het fouten, en als er fouten zijn, hoe vaak komen die dan voor?
- Zijn er ontbrekende waarden in de gegevens? Zo ja, hoe worden ze vertegenwoordigd, waar komen ze voor en hoe vaak komen ze voor?
Rapport over gegevenskwaliteit
Vermeld de resultaten van de verificatie van de gegevenskwaliteit. Als er kwaliteitsproblemen bestaan, stel dan mogelijke oplossingen voor. Oplossingen voor problemen met de datakwaliteit zijn over het algemeen sterk afhankelijk van data en bedrijfskennis.
nump uniek
Fase 3: Gegevensvoorbereiding
In deze projectfase bepaalt u welke gegevens u gaat gebruiken voor analyses. De criteria die u kunt gebruiken om deze beslissing te nemen, zijn onder meer de relevantie van de gegevens voor uw dataminingdoelen, de kwaliteit van de gegevens en technische beperkingen zoals beperkingen op het gegevensvolume of de gegevenstypen.
Schoon uw gegevens op
Deze taak omvat het verhogen van de gegevenskwaliteit tot het niveau dat vereist is voor de analysetechnieken die u hebt geselecteerd. Dit kan het selecteren van schone subsets van de gegevens inhouden, het invoegen van geschikte standaardwaarden of ambitieuzere technieken zoals het schatten van ontbrekende gegevens door middel van modellering.
Construeer de vereiste gegevens
Deze taak omvat constructieve gegevensvoorbereidingsbewerkingen, zoals het produceren van afgeleide attributen, geheel nieuwe records of getransformeerde waarden voor bestaande attributen.
Integreer gegevens
Deze methoden combineren informatie uit meerdere databases, tabellen of records om nieuwe records of waarden te creëren.
Fase 4: Modellering
Modelleringstechniek selecteren: Als eerste stap selecteert u de basismodelleringstechniek die u gaat gebruiken. Hoewel u tijdens de fase van het bedrijfsinzicht misschien al een tool hebt geselecteerd, selecteert u in deze fase de specifieke modelleringstechniek, b.v. het bouwen van beslissingsbomen met C5.0 of het genereren van neurale netwerken met back-propagatie. Als er meerdere technieken worden toegepast, voert u deze taak voor elke techniek afzonderlijk uit.
Testontwerp genereren
Voordat u een model bouwt, moet u een procedure of mechanisme genereren om de kwaliteit en validiteit van het model te testen. Bij dataminingtaken onder toezicht, zoals classificatie, is het bijvoorbeeld gebruikelijk om foutenpercentages te gebruiken als kwaliteitsmaatstaven voor dataminingmodellen. Daarom scheidt u de dataset doorgaans in trein- en testsets, bouwt u het model op de treinset en schat u de kwaliteit ervan op de afzonderlijke testset.
Model bouwen
Voer de modelleringstool uit op de voorbereide gegevensset om een of meer modellen te maken.
Beoordeel het model
Interpreteer de modellen op basis van uw domeinkennis, succescriteria voor datamining en het gewenste testontwerp. Beoordeel het succes van de toepassing van modellerings- en ontdekkingstechnieken en neem later contact op met bedrijfsanalisten en domeinexperts om de dataminingresultaten in de zakelijke context te bespreken. Bij deze taak wordt alleen rekening gehouden met modellen, terwijl in de evaluatiefase ook rekening wordt gehouden met alle andere resultaten die tijdens het project zijn geproduceerd.
Java-generator voor willekeurige getallen
In dit stadium moet u de modellen rangschikken en beoordelen op basis van de evaluatiecriteria. U moet hier zoveel mogelijk rekening houden met de bedrijfsdoelstellingen en succescriteria. Bij de meeste dataminingprojecten wordt één techniek meerdere keren toegepast en worden dataminingresultaten gegenereerd met verschillende technieken.
Fase 5: Evaluatie
Evalueer uw resultaten: Eerdere evaluatiestappen hadden betrekking op factoren zoals de nauwkeurigheid en algemeenheid van het model. Tijdens deze stap beoordeelt u de mate waarin het model voldoet aan uw bedrijfsdoelstellingen en probeert u vast te stellen of er een zakelijke reden is waarom dit model tekortschiet. Een andere optie is om het model te testen op testapplicaties in de echte applicatie als tijd- en budgetbeperkingen dit toelaten. De evaluatiefase omvat ook het beoordelen van eventuele andere dataminingresultaten die u heeft gegenereerd. Resultaten van datamining omvatten modellen die noodzakelijkerwijs verband houden met de oorspronkelijke bedrijfsdoelstellingen en alle andere bevindingen die niet noodzakelijkerwijs verband houden met de oorspronkelijke bedrijfsdoelstellingen, maar die ook aanvullende uitdagingen, informatie of hints voor toekomstige richtingen kunnen onthullen.
Review proces
Op dit moment lijken de resulterende modellen bevredigend te zijn en te voldoen aan de zakelijke behoeften. Het is nu gepast dat u de datamining-activiteiten grondiger beoordeelt om te bepalen of er een belangrijke factor of taak is die op de een of andere manier over het hoofd is gezien. Deze beoordeling heeft ook betrekking op kwesties op het gebied van de kwaliteitsborging. Bijvoorbeeld: hebben we het model correct gebouwd? Hebben we alleen de attributen gebruikt die we mogen gebruiken en die beschikbaar zijn voor toekomstige analyses?
Bepaal de volgende stappen
Afhankelijk van de beoordelingsresultaten en de procesdoorlichting bepaalt u nu hoe u verder gaat. Maak je dit project af en ga je verder met de implementatie, initieer je verdere iteraties of zet je nieuwe dataminingprojecten op? U moet ook de balans opmaken van uw resterende middelen en budget, die uw beslissingen kunnen beïnvloeden.
Fase 6: Implementatie
Implementatie plannen: in de implementatiefase neemt u uw evaluatieresultaten en bepaalt u een strategie voor de implementatie ervan. Als er een algemene procedure is geïdentificeerd om de relevante modellen te maken, wordt deze procedure hier gedocumenteerd voor latere implementatie. Het is zinvol om de manieren en middelen voor implementatie te overwegen tijdens de fase van het begrijpen van de business, omdat implementatie cruciaal is voor het succes van het project. Dit is waar voorspellende analyses de operationele kant van uw bedrijf helpen verbeteren.
Plan monitoring en onderhoud
Monitoring en onderhoud zijn belangrijke zaken als het dataminingresultaat onderdeel wordt van de dagelijkse bedrijfsvoering en de omgeving ervan. Het zorgvuldig opstellen van een onderhoudsstrategie helpt onnodig lange periodes van onjuist gebruik van dataminingresultaten te voorkomen. Het project heeft een gedetailleerd monitoringprocesplan nodig om de inzet van de dataminingresultaten te monitoren. In dit plan wordt rekening gehouden met het specifieke type inzet.
Eindrapport maken
Aan het einde van het project schrijf je een eindrapport. Afhankelijk van het implementatieplan kan dit rapport slechts een samenvatting zijn van het project en de ervaringen ervan (als deze nog niet zijn gedocumenteerd als een doorlopende activiteit), of het kan een definitieve en uitgebreide presentatie zijn van het dataminingresultaat.
Reviewproject
ontwikkelaarsmodus uitschakelen
Beoordeel wat goed en fout ging, wat goed ging en wat verbeterd moet worden.