logo

Wat is CRISP in datamining?

CRISP-DM staat voor het sectoroverschrijdende standaardproces voor datamining. De CRISP-DM-methodologie biedt een gestructureerde aanpak voor het plannen van een dataminingproject. Het is een robuuste en beproefde methodiek. Wij claimen er geen eigendom over. Wij hebben het niet uitgevonden. Wij zijn een converter van de krachtige functionaliteit, flexibiliteit en bruikbaarheid ervan bij het gebruik van analytics om zakelijke problemen op te lossen. Het is de gouden draad die door vrijwel iedere klantbijeenkomst loopt.

Dit model is een geïdealiseerde opeenvolging van gebeurtenissen. In de praktijk kunnen veel taken in een andere volgorde worden uitgevoerd, en zal het vaak nodig zijn om terug te keren naar eerdere taken en bepaalde acties te herhalen. Het model probeert niet alle mogelijke routes door het dataminingproces vast te leggen.

Hoe helpt CRISP?

CRISP DM biedt een routekaart, best practices en structuren voor betere en snellere resultaten van het gebruik van datamining. Zo helpt het het bedrijf bij het plannen en uitvoeren van een dataminingproject.

Fasen van CRISP-DM

CRISP-DM biedt een overzicht van de datamining-levenscyclus als procesmodel. Het levenscyclusmodel bestaat uit zes fasen, waarbij pijlen de belangrijkste en meest voorkomende afhankelijkheden tussen fasen aangeven. De volgorde van de fasen is niet strikt. En de meeste projecten gaan indien nodig heen en weer tussen fasen. Het CRISP-DM-model is flexibel en kan eenvoudig worden aangepast.

Als uw organisatie bijvoorbeeld het witwassen van geld wil opsporen, zult u waarschijnlijk grote hoeveelheden gegevens doorzoeken zonder een specifiek modelleringsdoel. In plaats van modelleren, zal uw werk zich richten op het verkennen en visualiseren van gegevens om verdachte patronen in financiële gegevens bloot te leggen. Met CRISP-DM kunt u een dataminingmodel creëren dat aan uw behoeften voldoet.

Het bevat beschrijvingen van typische fasen van een project, de taken die bij elke fase betrokken zijn, en een uitleg van de relaties tussen deze taken.

Wat is CRISP in datamining

Fase 1: Zakelijk inzicht

De eerste fase van het CRISP-DM-proces is begrijpen wat u vanuit een zakelijk perspectief wilt bereiken. Het kan zijn dat uw organisatie concurrerende doelstellingen en beperkingen heeft die goed in evenwicht moeten worden gebracht. Deze procesfase heeft tot doel belangrijke factoren bloot te leggen die van invloed zijn op de uitkomst van het project. Als u deze stap verwaarloost, kan dit betekenen dat er veel moeite wordt gestoken in het vinden van de juiste antwoorden op de verkeerde vragen.

Wat zijn de gewenste resultaten van het project?

    Gestelde doelen:Beschrijf uw primaire doelstelling vanuit een zakelijk perspectief. Mogelijk zijn er ook andere gerelateerde vragen die u wilt bespreken. Uw primaire doel kan bijvoorbeeld zijn om huidige klanten te behouden door te voorspellen wanneer zij geneigd zijn naar een concurrent over te stappen.Projectplan maken:Beschrijf het plan voor het bereiken van de datamining- en bedrijfsdoelen. Het plan moet de stappen specificeren die tijdens de rest van het project moeten worden uitgevoerd, inclusief de initiële selectie van hulpmiddelen en technieken.Criteria voor zakelijk succes:Hier legt u de criteria uiteen die u zult gebruiken om te bepalen of het project vanuit zakelijk oogpunt succesvol is geweest. Idealiter zouden deze specifiek en meetbaar moeten zijn, bijvoorbeeld door het aantal klanten tot een bepaald niveau terug te brengen. Soms kan het echter nodig zijn om meer subjectieve criteria te hanteren, zoals het geven van nuttige inzichten in de relaties.

Beoordeel de huidige situatie

kat timpf hoogte

Dit omvat meer gedetailleerd feitenonderzoek over de middelen, beperkingen, aannames en andere factoren waarmee u rekening moet houden bij het bepalen van uw data-analysedoel en projectplan.

    Inventarisatie van hulpbronnen:Maak een lijst van de bronnen die beschikbaar zijn voor het project, waaronder:
    • Personeel (bedrijfsexperts, data-experts, technische ondersteuning, datamining-experts)
    • Gegevens (vaste uittreksels, toegang tot live, opgeslagen of operationele gegevens)
    • Computerbronnen (hardwareplatforms)
    • Software (dataminingtools, andere relevante software)
    Vereisten, aannames en beperkingen:Maak een lijst van alle vereisten van het project, inclusief het voltooiingsschema, de vereiste begrijpelijkheid en kwaliteit van de resultaten, en eventuele zorgen over gegevensbeveiliging en juridische kwesties. Zorg ervoor dat u de gegevens mag gebruiken. Noem de aannames van het project. Dit kunnen aannames zijn over de gegevens die kunnen worden geverifieerd tijdens datamining, maar het kunnen ook niet-verifieerbare aannames omvatten over de activiteiten die verband houden met het project. Het is belangrijk om deze laatste te vermelden als ze de validiteit van de resultaten beïnvloeden. Maak een lijst van de beperkingen van het project. Dit kunnen beperkingen zijn op de beschikbaarheid van hulpbronnen, maar het kunnen ook technologische beperkingen zijn, zoals de omvang van de dataset die praktisch kan worden gebruikt voor modellering.Risico's en onvoorziene omstandigheden:Maak een lijst van de risico's of gebeurtenissen die het project kunnen vertragen of doen mislukken. Maak een lijst van de bijbehorende noodplannen, zoals welke actie gaat u ondernemen als deze risico's of gebeurtenissen zich voordoen?Terminologie:Stel een verklarende woordenlijst samen met de terminologie die relevant is voor het project. Dit zal over het algemeen uit twee componenten bestaan:
    • Een verklarende woordenlijst met relevante zakelijke terminologie maakt deel uit van het zakelijke inzicht dat beschikbaar is voor het project. Het samenstellen van deze verklarende woordenlijst is een nuttige oefening in het opwekken van kennis en het opdoen van kennis.
    • Een verklarende woordenlijst van dataminingterminologie wordt geïllustreerd met voorbeelden die relevant zijn voor het bedrijfsprobleem.
    Kosten en baten:Maak een kosten-batenanalyse voor het project, waarin de kosten van het project worden vergeleken met de potentiële voordelen voor het bedrijf als het succesvol is. Deze vergelijking moet zo specifiek mogelijk zijn. In een commerciële situatie dient u bijvoorbeeld financiële maatregelen te hanteren.

Bepaal dataminingdoelen

Een zakelijk doel vermeldt doelstellingen in zakelijke terminologie. Een dataminingdoel vermeldt de projectdoelstellingen in technische termen. Het bedrijfsdoel kan bijvoorbeeld zijn: het verhogen van de catalogusverkoop aan bestaande klanten. Een dataminingdoel kan zijn om te voorspellen hoeveel widgets een klant zal kopen, op basis van zijn aankopen in de afgelopen drie jaar, demografische informatie (leeftijd, salaris, stad, enz.) en de prijs van het item.

    Criteria voor zakelijk succes:Het beschrijft de beoogde resultaten van het project die het bereiken van de bedrijfsdoelstellingen mogelijk maken.Succescriteria voor datamining:Het definieert de criteria voor een succesvol projectresultaat. Bijvoorbeeld een bepaald niveau van voorspellende nauwkeurigheid of een koopbereidheidsprofiel met een bepaalde mate van 'lift'. Net als bij zakelijke succescriteria kan het nodig zijn deze in subjectieve termen te beschrijven, in welk geval de persoon of personen die het subjectieve oordeel vellen, moeten worden geïdentificeerd.

Projectplan maken

Beschrijf het beoogde plan voor het bereiken van de dataminingdoelen en bedrijfsdoelen. Uw plan moet de stappen specificeren die u tijdens de rest van het project moet uitvoeren, inclusief de initiële selectie van hulpmiddelen en technieken.

1. Projectplan: Maak een lijst van de fasen die in het project moeten worden uitgevoerd, met hun duur, vereiste middelen, inputs, outputs en afhankelijkheden. Probeer waar mogelijk de grootschalige iteraties in het dataminingproces expliciet te maken, bijvoorbeeld herhalingen van de modellerings- en evaluatiefasen.

Als onderdeel van het projectplan is het belangrijk om de afhankelijkheden tussen tijdschema's en risico's te analyseren. Markeer de resultaten van deze analyses expliciet in het projectplan, idealiter met acties en aanbevelingen als de risico’s zich manifesteren. Bepaal welke evaluatiestrategie in de evaluatiefase zal worden gebruikt.

Uw projectplan wordt een dynamisch document. Aan het einde van elke fase beoordeelt u de voortgang en prestaties en werkt u het projectplan dienovereenkomstig bij. Specifieke evaluatiepunten voor deze updates moeten onderdeel zijn van het projectplan.

2. Initiële beoordeling van instrumenten en technieken: Aan het einde van de eerste fase moet u een eerste beoordeling van de hulpmiddelen en technieken uitvoeren. U selecteert bijvoorbeeld een dataminingtool die verschillende methoden ondersteunt voor verschillende fasen van het proces. Het is belangrijk om tools en technieken vroeg in het proces te beoordelen, aangezien de selectie van tools en technieken het hele project kan beïnvloeden.

Fase 2: Gegevensinzicht

Voor de tweede fase van het CRISP-DM-proces moet u de gegevens verwerven die in de projectbronnen staan ​​vermeld. Deze eerste verzameling omvat het laden van gegevens als dit nodig is voor het begrijpen van de gegevens. Als u bijvoorbeeld een specifieke tool voor het begrijpen van gegevens gebruikt, is het volkomen logisch om uw gegevens in deze tool te laden. Als u meerdere gegevensbronnen aanschaft, moet u overwegen hoe en wanneer u deze gaat integreren.

Linux$home
    Eerste rapport over gegevensverzameling:Maak een lijst van de verkregen gegevensbronnen, hun locaties, de methoden die zijn gebruikt om ze te verwerven en eventuele problemen die zich hebben voorgedaan. Registreer de problemen die u bent tegengekomen en de bereikte oplossingen. Dit zal helpen bij toekomstige replicatie van dit project en de uitvoering van soortgelijke toekomstige projecten.

Beschrijf gegevens

Onderzoek de 'bruto' of 'oppervlakte' eigenschappen van de verkregen gegevens en rapporteer over de resultaten.

    Gegevensbeschrijvingsrapport:Beschrijf de gegevens die zijn verzameld, inclusief het formaat, de hoeveelheid, de identiteit van de velden en eventuele andere oppervlaktekenmerken die zijn ontdekt. Evalueer of de verkregen gegevens aan uw eisen voldoen.

Gegevens verkennen

Tijdens deze fase behandel je dataminingvragen met behulp van query-, datavisualisatie- en rapportagetechnieken. Deze kunnen het volgende omvatten:

  • Verdeling van de belangrijkste kenmerken
  • Relaties tussen paren of kleine aantallen attributen
  • Resultaten van eenvoudige aggregaties
  • Eigenschappen van significante subpopulaties
  • Eenvoudige statistische analyses

Deze analyses kunnen rechtstreeks gericht zijn op uw dataminingdoelen. Ze kunnen bijdragen aan de databeschrijving en kwaliteitsrapporten, of deze verfijnen, en kunnen bijdragen aan de transformatie en andere datavoorbereidingsstappen die nodig zijn voor verdere analyse.

    Gegevensverkenningsrapport:Beschrijf de resultaten van uw dataverkenning, inclusief de eerste bevindingen of initiële hypothese en hun impact op de rest van het project. Indien van toepassing kunt u hier grafieken en plots opnemen om gegevenskenmerken aan te geven die verder onderzoek van interessante gegevenssubsets suggereren.

Controleer de gegevenskwaliteit

Onderzoek de kwaliteit van de gegevens en beantwoord vragen als:

  • Zijn de gegevens volledig of bestrijken ze alle vereiste gevallen?
  • Is het juist, of bevat het fouten, en als er fouten zijn, hoe vaak komen die dan voor?
  • Zijn er ontbrekende waarden in de gegevens? Zo ja, hoe worden ze vertegenwoordigd, waar komen ze voor en hoe vaak komen ze voor?

Rapport over gegevenskwaliteit

Vermeld de resultaten van de verificatie van de gegevenskwaliteit. Als er kwaliteitsproblemen bestaan, stel dan mogelijke oplossingen voor. Oplossingen voor problemen met de datakwaliteit zijn over het algemeen sterk afhankelijk van data en bedrijfskennis.

nump uniek

Fase 3: Gegevensvoorbereiding

In deze projectfase bepaalt u welke gegevens u gaat gebruiken voor analyses. De criteria die u kunt gebruiken om deze beslissing te nemen, zijn onder meer de relevantie van de gegevens voor uw dataminingdoelen, de kwaliteit van de gegevens en technische beperkingen zoals beperkingen op het gegevensvolume of de gegevenstypen.

    De reden voor opname/uitsluiting:Vermeld de gegevens die moeten worden opgenomen/uitgesloten en de redenen voor deze beslissingen.

Schoon uw gegevens op

Deze taak omvat het verhogen van de gegevenskwaliteit tot het niveau dat vereist is voor de analysetechnieken die u hebt geselecteerd. Dit kan het selecteren van schone subsets van de gegevens inhouden, het invoegen van geschikte standaardwaarden of ambitieuzere technieken zoals het schatten van ontbrekende gegevens door middel van modellering.

    Rapport voor het opschonen van gegevens:Beschrijf welke beslissingen en acties u heeft ondernomen om problemen met de gegevenskwaliteit aan te pakken. Houd rekening met eventuele gegevenstransformaties die zijn uitgevoerd voor opschoondoeleinden en hun mogelijke impact op de analyseresultaten.

Construeer de vereiste gegevens

Deze taak omvat constructieve gegevensvoorbereidingsbewerkingen, zoals het produceren van afgeleide attributen, geheel nieuwe records of getransformeerde waarden voor bestaande attributen.

    Afgeleide attributen:Dit zijn nieuwe attributen die zijn opgebouwd uit een of meer bestaande attributen in hetzelfde record. U kunt bijvoorbeeld de variabelen lengte en breedte gebruiken om een ​​nieuwe variabele oppervlakte te berekenen.Gegenereerde records:Hier beschrijft u het aanmaken van volledig nieuwe records. Mogelijk moet u bijvoorbeeld records aanmaken voor klanten die het afgelopen jaar geen aankoop hebben gedaan. Er was geen reden om dergelijke gegevens in de onbewerkte gegevens te hebben. Toch zou het voor modelleringsdoeleinden zinvol kunnen zijn om te veronderstellen dat bepaalde klanten expliciet geen aankopen hebben gedaan.

Integreer gegevens

Deze methoden combineren informatie uit meerdere databases, tabellen of records om nieuwe records of waarden te creëren.

    Samengevoegde gegevens:Samenvoegen van tabellen verwijst naar het samenvoegen van twee of meer tabellen met verschillende informatie over dezelfde objecten. Een winkelketen kan bijvoorbeeld één tabel hebben met informatie over de algemene kenmerken van elke winkel (bijvoorbeeld vloeroppervlak, type winkelcentrum), een andere tabel met samengevatte verkoopgegevens (bijvoorbeeld winst, procentuele verandering in de omzet ten opzichte van het voorgaande jaar), en een andere met informatie over de demografie van de omgeving. Elk van deze tabellen bevat één record voor elke winkel. Deze tabellen kunnen worden samengevoegd tot een nieuwe tabel met één record voor elke winkel, waarbij velden uit de brontabellen worden gecombineerd.Aggregaties:Aggregaties zijn bewerkingen waarbij nieuwe waarden worden berekend door informatie uit meerdere records of tabellen samen te vatten. Bijvoorbeeld het converteren van een tabel met klantaankopen waarbij één record voor elke aankoop naar een nieuwe tabel en één record voor elke klant, met velden zoals het aantal aankopen, het gemiddelde aankoopbedrag, het percentage bestellingen dat in rekening wordt gebracht op de creditcard, het percentage artikelen onder promotie enz.

Fase 4: Modellering

Modelleringstechniek selecteren: Als eerste stap selecteert u de basismodelleringstechniek die u gaat gebruiken. Hoewel u tijdens de fase van het bedrijfsinzicht misschien al een tool hebt geselecteerd, selecteert u in deze fase de specifieke modelleringstechniek, b.v. het bouwen van beslissingsbomen met C5.0 of het genereren van neurale netwerken met back-propagatie. Als er meerdere technieken worden toegepast, voert u deze taak voor elke techniek afzonderlijk uit.

    Modelleringstechniek:Documenteer de basismodelleringstechniek die moet worden gebruikt.Aannames bij het modelleren:Veel modelleringstechnieken maken specifieke aannames over de gegevens, bijvoorbeeld dat alle attributen een uniforme verdeling hebben, dat er geen ontbrekende waarden zijn toegestaan, dat het klasse-attribuut symbolisch moet zijn, enz. Leg alle gemaakte aannames vast.

Testontwerp genereren

Voordat u een model bouwt, moet u een procedure of mechanisme genereren om de kwaliteit en validiteit van het model te testen. Bij dataminingtaken onder toezicht, zoals classificatie, is het bijvoorbeeld gebruikelijk om foutenpercentages te gebruiken als kwaliteitsmaatstaven voor dataminingmodellen. Daarom scheidt u de dataset doorgaans in trein- en testsets, bouwt u het model op de treinset en schat u de kwaliteit ervan op de afzonderlijke testset.

    Testontwerp:Beschrijf het beoogde plan voor het trainen, testen en evalueren van de modellen. Een primair onderdeel van het plan is het bepalen hoe de beschikbare dataset moet worden verdeeld in trainings-, test- en validatiedatasets.

Model bouwen

Voer de modelleringstool uit op de voorbereide gegevensset om een ​​of meer modellen te maken.

    Parameterinstellingen:Bij elke modelleringstool zijn er vaak een groot aantal parameters die kunnen worden aangepast. Maak een lijst van de parameters, hun waarden en de reden voor het selecteren van parameterinstellingen.Modellen:Dit zijn de modellen die door de modelleringstool worden geproduceerd, geen rapport over de modellen.Modelbeschrijvingen:Beschrijf de resulterende modellen, rapporteer over de interpretatie van de modellen en documenteer eventuele problemen met hun betekenis.

Beoordeel het model

Interpreteer de modellen op basis van uw domeinkennis, succescriteria voor datamining en het gewenste testontwerp. Beoordeel het succes van de toepassing van modellerings- en ontdekkingstechnieken en neem later contact op met bedrijfsanalisten en domeinexperts om de dataminingresultaten in de zakelijke context te bespreken. Bij deze taak wordt alleen rekening gehouden met modellen, terwijl in de evaluatiefase ook rekening wordt gehouden met alle andere resultaten die tijdens het project zijn geproduceerd.

Java-generator voor willekeurige getallen

In dit stadium moet u de modellen rangschikken en beoordelen op basis van de evaluatiecriteria. U moet hier zoveel mogelijk rekening houden met de bedrijfsdoelstellingen en succescriteria. Bij de meeste dataminingprojecten wordt één techniek meerdere keren toegepast en worden dataminingresultaten gegenereerd met verschillende technieken.

    Modelbeoordeling:Vat de resultaten van deze taak samen, vermeld de kwaliteiten van uw gegenereerde modellen (bijvoorbeeld in termen van nauwkeurigheid) en rangschik hun kwaliteit met elkaar.Herziene parameterinstellingen:Repareer ze op basis van de modelbeoordeling en stem ze af voor de volgende modelleringsrun. Herhaal het bouwen en beoordelen van modellen totdat u er sterk van overtuigd bent dat u de beste modellen heeft gevonden. Documenteer al dergelijke herzieningen en beoordelingen.

Fase 5: Evaluatie

Evalueer uw resultaten: Eerdere evaluatiestappen hadden betrekking op factoren zoals de nauwkeurigheid en algemeenheid van het model. Tijdens deze stap beoordeelt u de mate waarin het model voldoet aan uw bedrijfsdoelstellingen en probeert u vast te stellen of er een zakelijke reden is waarom dit model tekortschiet. Een andere optie is om het model te testen op testapplicaties in de echte applicatie als tijd- en budgetbeperkingen dit toelaten. De evaluatiefase omvat ook het beoordelen van eventuele andere dataminingresultaten die u heeft gegenereerd. Resultaten van datamining omvatten modellen die noodzakelijkerwijs verband houden met de oorspronkelijke bedrijfsdoelstellingen en alle andere bevindingen die niet noodzakelijkerwijs verband houden met de oorspronkelijke bedrijfsdoelstellingen, maar die ook aanvullende uitdagingen, informatie of hints voor toekomstige richtingen kunnen onthullen.

    Beoordeling van dataminingresultaten:Vat de beoordelingsresultaten samen in zakelijke succescriteria, inclusief een eindverklaring over de vraag of het project al voldoet aan de oorspronkelijke zakelijke doelstellingen.Goedgekeurde modellen:Nadat modellen zijn beoordeeld op basis van zakelijke succescriteria, worden de gegenereerde modellen die aan de geselecteerde criteria voldoen, de goedgekeurde modellen.

Review proces

Op dit moment lijken de resulterende modellen bevredigend te zijn en te voldoen aan de zakelijke behoeften. Het is nu gepast dat u de datamining-activiteiten grondiger beoordeelt om te bepalen of er een belangrijke factor of taak is die op de een of andere manier over het hoofd is gezien. Deze beoordeling heeft ook betrekking op kwesties op het gebied van de kwaliteitsborging. Bijvoorbeeld: hebben we het model correct gebouwd? Hebben we alleen de attributen gebruikt die we mogen gebruiken en die beschikbaar zijn voor toekomstige analyses?

    Beoordeling van het proces:Vat de procesevaluatie samen en markeer de activiteiten die zijn gemist en die moeten worden herhaald.

Bepaal de volgende stappen

Afhankelijk van de beoordelingsresultaten en de procesdoorlichting bepaalt u nu hoe u verder gaat. Maak je dit project af en ga je verder met de implementatie, initieer je verdere iteraties of zet je nieuwe dataminingprojecten op? U moet ook de balans opmaken van uw resterende middelen en budget, die uw beslissingen kunnen beïnvloeden.

    Lijst met mogelijke acties:Maak een lijst van de mogelijke verdere acties en de redenen voor en tegen elke optie.Beslissing:Beschrijf de beslissing over hoe verder te gaan, samen met de redenen daarvoor.

Fase 6: Implementatie

Implementatie plannen: in de implementatiefase neemt u uw evaluatieresultaten en bepaalt u een strategie voor de implementatie ervan. Als er een algemene procedure is geïdentificeerd om de relevante modellen te maken, wordt deze procedure hier gedocumenteerd voor latere implementatie. Het is zinvol om de manieren en middelen voor implementatie te overwegen tijdens de fase van het begrijpen van de business, omdat implementatie cruciaal is voor het succes van het project. Dit is waar voorspellende analyses de operationele kant van uw bedrijf helpen verbeteren.

    Uitvoeringsplan:Geef een samenvatting van uw implementatiestrategie, inclusief de noodzakelijke stappen en hoe u deze kunt uitvoeren.

Plan monitoring en onderhoud

Monitoring en onderhoud zijn belangrijke zaken als het dataminingresultaat onderdeel wordt van de dagelijkse bedrijfsvoering en de omgeving ervan. Het zorgvuldig opstellen van een onderhoudsstrategie helpt onnodig lange periodes van onjuist gebruik van dataminingresultaten te voorkomen. Het project heeft een gedetailleerd monitoringprocesplan nodig om de inzet van de dataminingresultaten te monitoren. In dit plan wordt rekening gehouden met het specifieke type inzet.

    Monitoring- en onderhoudsplan:Vat de monitoring- en onderhoudsstrategie samen, inclusief de noodzakelijke stappen en hoe deze uit te voeren.

Eindrapport maken

Aan het einde van het project schrijf je een eindrapport. Afhankelijk van het implementatieplan kan dit rapport slechts een samenvatting zijn van het project en de ervaringen ervan (als deze nog niet zijn gedocumenteerd als een doorlopende activiteit), of het kan een definitieve en uitgebreide presentatie zijn van het dataminingresultaat.

    Laatste rapport:Dit is het definitieve schriftelijke rapport van de datamining-opdracht. Het omvat alle voorgaande resultaten, waarbij de resultaten worden samengevat en georganiseerd.Eindpresentatie:Vaak zal er na het project een bijeenkomst plaatsvinden waarin de resultaten aan de klant worden gepresenteerd.

Reviewproject

ontwikkelaarsmodus uitschakelen

Beoordeel wat goed en fout ging, wat goed ging en wat verbeterd moet worden.

    Ervaringsdocumentatie:Vat belangrijke ervaringen samen die zijn opgedaan tijdens het project. Deze documentatie kan bijvoorbeeld eventuele valkuilen bevatten die u bent tegengekomen, misleidende benaderingen of tips voor het selecteren van de meest geschikte dataminingtechnieken in soortgelijke situaties. In ideale projecten omvat ervaringsdocumentatie ook eventuele rapporten die individuele projectleden tijdens eerdere fasen van het project hebben geschreven.