logo

Co je CRISP v dolování dat?

CRISP-DM je zkratka pro meziodvětvový standardní proces pro dolování dat. Metodika CRISP-DM poskytuje strukturovaný přístup k plánování projektu dolování dat. Je to robustní a osvědčená metodika. Nenárokujeme si na něj žádné vlastnictví. My jsme to nevymysleli. Jsme konvertorem jeho výkonné praktičnosti, flexibility a užitečnosti při používání analytiky k řešení obchodních problémů. Je to zlatá nit, která se táhne téměř každým klientským setkáním.

Tento model je idealizovaný sled událostí. V praxi se mnoho úkolů může provádět v jiném pořadí a často bude nutné vrátit se k předchozím úkolům a opakovat určité akce. Model se nesnaží zachytit všechny možné cesty procesem dolování dat.

Jak CRISP pomáhá?

CRISP DM poskytuje cestovní mapu, poskytuje vám osvědčené postupy a poskytuje struktury pro lepší a rychlejší výsledky používání dolování dat, takže pomáhá podniku následovat při plánování a provádění projektu dolování dat.

Fáze CRISP-DM

CRISP-DM poskytuje přehled životního cyklu data miningu jako procesního modelu. Model životního cyklu obsahuje šest fází, přičemž šipky označují nejdůležitější a nejčastější závislosti mezi fázemi. Pořadí fází není striktní. A většina projektů se pohybuje tam a zpět mezi fázemi podle potřeby. Model CRISP-DM je flexibilní a lze jej snadno přizpůsobit.

Pokud si například vaše organizace klade za cíl odhalit praní špinavých peněz, pravděpodobně budete probírat velké množství dat bez konkrétního cíle modelování. Namísto modelování se vaše práce zaměří na průzkum a vizualizaci dat, abyste odhalili podezřelé vzorce ve finančních datech. CRISP-DM vám umožňuje vytvořit model dolování dat, který vyhovuje vašim potřebám.

Obsahuje popisy typických fází projektu, úkoly spojené s každou fází a vysvětlení vztahů mezi těmito úkoly.

Co je CRISP v dolování dat

Fáze 1: Obchodní porozumění

První fází procesu CRISP-DM je pochopení toho, čeho chcete dosáhnout z obchodního hlediska. Vaše organizace může mít konkurenční cíle a omezení, která musí být správně vyvážena. Tato procesní fáze má za cíl odhalit důležité faktory ovlivňující výsledek projektu. Zanedbání tohoto kroku může znamenat velké úsilí vynaložené na vytvoření správných odpovědí na nesprávné otázky.

Jaké jsou požadované výstupy projektu?

    Stanovte si cíle:Popište svůj primární cíl z obchodního hlediska. Mohou existovat také další související otázky, které byste rádi zmínili. Vaším primárním cílem může být například udržení stávajících zákazníků předpovídáním, kdy jsou náchylní přejít ke konkurenci.Vytvořte plán projektu:Popište plán pro dosažení dolování dat a obchodních cílů. Plán by měl specifikovat kroky, které je třeba provést během zbytku projektu, včetně počátečního výběru nástrojů a technik.Kritéria obchodního úspěchu:Zde stanovíte kritéria, která budete používat k určení, zda byl projekt úspěšný z obchodního hlediska. Ty by měly být v ideálním případě konkrétní a měřitelné, například snížení počtu zákazníků na určitou úroveň. Někdy však může být nutné mít subjektivnější kritéria, jako je poskytování užitečných náhledů na vztahy.

Zhodnoťte současnou situaci

java reverzní řetězec

To zahrnuje podrobnější zjištění faktů o zdrojích, omezeních, předpokladech a dalších faktorech, které budete muset vzít v úvahu při určování cíle analýzy dat a plánu projektu.

    Inventář zdrojů:Uveďte zdroje dostupné pro projekt, včetně:
    • Personál (obchodní experti, datoví experti, technická podpora, data mining experti)
    • Data (pevné výpisy, přístup k aktuálním, skladovaným nebo provozním datům)
    • Výpočetní zdroje (hardwarové platformy)
    • Software (nástroje pro dolování dat, další relevantní software)
    Požadavky, předpoklady a omezení:Uveďte všechny požadavky projektu, včetně harmonogramu dokončení, požadované srozumitelnosti a kvality výsledků a případných problémů s bezpečností dat a právních problémů. Ujistěte se, že máte oprávnění používat data. Uveďte předpoklady vytvořené projektem. Mohou to být předpoklady o datech, které lze ověřit během dolování dat, ale mohou také zahrnovat neověřitelné předpoklady o podnikání souvisejícím s projektem. Je důležité uvést ty druhé, pokud ovlivňují platnost výsledků. Vyjmenujte omezení projektu. Mohou to být omezení dostupnosti zdrojů, ale mohou také zahrnovat technologická omezení, jako je velikost souboru dat, který je praktické použít pro modelování.Rizika a nepředvídané události:Uveďte rizika nebo události, které by mohly projekt zpozdit nebo způsobit jeho selhání. Vyjmenujte odpovídající pohotovostní plány, např. jaké kroky podniknete, pokud k těmto rizikům nebo událostem dojde?Terminologie:Sestavte glosář terminologie relevantní pro daný projekt. To bude mít obecně dvě složky:
    • Glosář relevantní obchodní terminologie tvoří součást obchodního porozumění dostupného projektu. Sestavení tohoto glosáře je užitečným „získáváním znalostí“ a vzdělávacím cvičením.
    • Slovník terminologie dolování dat je ilustrován příklady relevantními pro daný obchodní problém.
    Náklady a výhody:Vytvořte analýzu nákladů a přínosů projektu, která porovná náklady projektu s potenciálními přínosy pro podnikání, pokud bude úspěšný. Toto srovnání by mělo být co nejkonkrétnější. Například byste měli použít finanční opatření v komerční situaci.

Určete cíle dolování dat

Obchodní cíl stanoví cíle v obchodní terminologii. Cíl dolování dat stanoví cíle projektu z technického hlediska. Obchodním cílem může být například zvýšení prodeje katalogu stávajícím zákazníkům. Cílem dolování dat může být předvídat, kolik widgetů si zákazník koupí s ohledem na jejich nákupy za poslední tři roky, demografické informace (věk, plat, město atd.) a cenu položky.

    Kritéria obchodního úspěchu:Popisuje zamýšlené výstupy projektu, které umožňují dosažení obchodních cílů.Kritéria úspěšnosti dolování dat:Definuje kritéria pro úspěšný výsledek projektu. Například určitá úroveň prediktivní přesnosti nebo profil sklonu k nákupu s daným stupněm „nárůstu“. Stejně jako u kritérií obchodní úspěšnosti může být nutné je popsat subjektivními termíny, v takovém případě by měla být identifikována osoba nebo osoby, které činí subjektivní úsudek.

Vytvořte plán projektu

Popište zamýšlený plán pro dosažení cílů dolování dat a obchodních cílů. Váš plán by měl specifikovat kroky, které je třeba provést během zbytku projektu, včetně počátečního výběru nástrojů a technik.

1. Plán projektu: Uveďte fáze, které mají být v projektu provedeny, s jejich trváním, požadovanými zdroji, vstupy, výstupy a závislostmi. Pokud je to možné, pokuste se explicitně uvést rozsáhlé iterace v procesu dolování dat, například opakování fází modelování a hodnocení.

V rámci plánu projektu je důležité analyzovat závislosti mezi časovými harmonogramy a riziky. Výsledky těchto analýz označte výslovně v plánu projektu, ideálně s opatřeními a doporučeními, pokud se rizika projeví. Rozhodněte, která strategie hodnocení bude použita ve fázi hodnocení.

base64 dekódovat v js

Váš projektový plán bude dynamický dokument. Na konci každé fáze zkontrolujete pokrok a úspěchy a podle toho aktualizujete plán projektu. Konkrétní kontrolní body pro tyto aktualizace by měly být součástí plánu projektu.

2. Počáteční posouzení nástrojů a technik: Na konci první fáze byste měli provést počáteční posouzení nástrojů a technik. Například vyberete nástroj pro dolování dat, který podporuje různé metody pro různé fáze procesu. Je důležité vyhodnotit nástroje a techniky na začátku procesu, protože výběr nástrojů a technik může ovlivnit celý projekt.

Fáze 2: Porozumění datům

Druhá fáze procesu CRISP-DM vyžaduje, abyste získali data uvedená ve zdrojích projektu. Tento počáteční sběr zahrnuje načítání dat, pokud je to nezbytné pro pochopení dat. Pokud například používáte konkrétní nástroj pro pochopení dat, dává smysl načíst data do tohoto nástroje. Pokud získáváte více zdrojů dat, musíte zvážit, jak a kdy je integrujete.

    Počáteční zpráva o sběru dat:Uveďte získané zdroje dat, jejich umístění, metody použité k jejich získání a případné problémy, se kterými jste se setkali. Zaznamenejte problémy, na které jste narazili, a všechna dosažená řešení. To pomůže s budoucí replikací tohoto projektu a prováděním podobných budoucích projektů.

Popište data

Prozkoumejte „hrubé“ nebo „povrchové“ vlastnosti získaných dat a podejte zprávu o výsledcích.

    Přehled popisu dat:Popište data, která byla získána, včetně jejich formátu, množství, identit polí a jakýchkoli dalších povrchových prvků, které byly objeveny. Vyhodnoťte, zda získaná data splňují vaše požadavky.

Prozkoumejte data

Během této fáze budete řešit otázky dolování dat pomocí dotazování, vizualizace dat a technik vytváření sestav. Mohou zahrnovat:

  • Rozdělení klíčových atributů
  • Vztahy mezi dvojicemi nebo malým počtem atributů
  • Výsledky jednoduchých agregací
  • Vlastnosti významných subpopulací
  • Jednoduché statistické analýzy

Tyto analýzy mohou přímo řešit vaše cíle dolování dat. Mohou přispívat k popisu dat a zprávám o kvalitě nebo je upřesňovat a přispívat k transformaci a dalším krokům přípravy dat potřebným pro další analýzu.

    Přehled průzkumu dat:Popište výsledky vašeho průzkumu dat, včetně prvních zjištění nebo počáteční hypotézy a jejich dopadu na zbytek projektu. Pokud je to vhodné, můžete sem zahrnout grafy a grafy, abyste označili charakteristiky dat, které naznačují další zkoumání zajímavých podmnožin dat.

Ověřte kvalitu dat

Prozkoumejte kvalitu dat a zaměřte se na otázky, jako jsou:

znak na int v jazyce Java
  • Jsou údaje úplné, nebo pokrývají všechny požadované případy?
  • Je správná, nebo obsahuje chyby, a pokud tam chyby jsou, jak časté jsou?
  • Chybí v datech hodnoty? Pokud ano, jak jsou zastoupeny, kde se vyskytují a jak časté jsou?

Zpráva o kvalitě dat

Uveďte výsledky ověření kvality dat. Pokud existují problémy s kvalitou, navrhněte možná řešení. Řešení problémů s kvalitou dat obecně silně závisí na datech a obchodních znalostech.

Fáze 3: Příprava dat

V této fázi projektu se rozhodnete, která data použijete pro analýzu. Kritéria, která můžete použít k tomuto rozhodnutí, zahrnují relevanci dat pro vaše cíle dolování dat, kvalitu dat a technická omezení, jako jsou limity objemu dat nebo datové typy.

    Důvod pro zařazení/vyloučení:Uveďte údaje, které mají být zahrnuty/vyloučeny, a důvody těchto rozhodnutí.

Vyčistěte svá data

Tento úkol zahrnuje zvýšení kvality dat na úroveň požadovanou analytickými technikami, které jste vybrali. To může zahrnovat výběr čistých podmnožin dat, vložení vhodných výchozích hodnot nebo ambicióznější techniky, jako je odhad chybějících dat pomocí modelování.

    Zpráva o čištění dat:Popište, jaká rozhodnutí a kroky jste podnikli k řešení problémů s kvalitou dat. Zvažte jakékoli transformace dat provedené pro účely čištění a jejich možný dopad na výsledky analýzy.

Vytvořte požadovaná data

Tato úloha zahrnuje konstruktivní operace přípravy dat, jako je vytváření odvozených atributů, celých nových záznamů nebo transformovaných hodnot pro existující atributy.

    Odvozené atributy:Jedná se o nové atributy vytvořené z jednoho nebo více existujících atributů ve stejném záznamu. Můžete například použít proměnné délky a šířky k výpočtu nové proměnné plochy.Vygenerované záznamy:Zde popisujete vytvoření jakýchkoli zcela nových záznamů. Můžete například potřebovat vytvořit záznamy pro zákazníky, kteří během minulého roku nenakoupili. Nebyl důvod mít takové záznamy v hrubých datech. Přesto by mohlo mít smysl prezentovat, že konkrétní zákazníci výslovně neprovedli nulové nákupy pro účely modelování.

Integrujte data

Tyto metody kombinují informace z více databází, tabulek nebo záznamů a vytvářejí nové záznamy nebo hodnoty.

    Sloučená data:Sloučení tabulek se týká spojení dvou nebo více tabulek s různými informacemi o stejných objektech. Maloobchodní řetězec může mít například jednu tabulku s informacemi o obecných charakteristikách každého obchodu (např. podlahová plocha, typ nákupního centra), další tabulku se souhrnnými údaji o prodeji (např. zisk, procentuální změna tržeb oproti předchozímu roku) a další s informacemi o demografii okolí. Každá z těchto tabulek obsahuje jeden záznam pro každý obchod. Tyto tabulky lze sloučit do nové tabulky s jedním záznamem pro každý obchod a kombinovat pole ze zdrojových tabulek.Agregace:Agregace jsou operace, ve kterých se nové hodnoty počítají shrnutím informací z více záznamů nebo tabulek. Například převod tabulky nákupů zákazníků, kde jeden záznam pro každý nákup, do nové tabulky a jeden záznam pro každého zákazníka s poli jako počet nákupů, průměrná částka nákupu, procento objednávek účtovaných na kreditní kartu, procento položek pod propagací atd.

Fáze 4: Modelování

Výběr techniky modelování: Jako první krok si vyberete základní techniku ​​modelování, kterou budete používat. Ačkoli jste si již možná vybrali nástroj ve fázi obchodního porozumění, v této fázi budete vybírat konkrétní techniku ​​modelování, např. budování rozhodovacího stromu s C5.0 nebo generováním neuronové sítě se zpětnou propagací. Pokud je použito více technik, proveďte tento úkol samostatně pro každou techniku.

    Technika modelování:Zdokumentujte základní techniku ​​modelování, která se má použít.Předpoklady modelování:Mnoho modelovacích technik vytváří specifické předpoklady o datech, například, že všechny atributy mají jednotné rozdělení, nejsou povoleny žádné chybějící hodnoty, atribut třídy musí být symbolický atd. Zaznamenejte všechny provedené předpoklady.

Vygenerujte návrh testu

Než vytvoříte model, musíte vygenerovat postup nebo mechanismus pro testování kvality a platnosti modelu. Například v úlohách dolování dat pod dohledem, jako je klasifikace, je běžné používat chybovost jako měřítka kvality pro modely dolování dat. Proto obvykle rozdělujete datovou sadu na vlakové a testovací sady, sestavujete model na vlakové sadě a odhadujete jeho kvalitu na samostatné testovací sadě.

    Testovací design:Popište zamýšlený plán školení, testování a vyhodnocování modelů. Primární součástí plánu je určení, jak rozdělit dostupnou datovou sadu na tréninkovou, testovací a validační datovou sadu.

Sestavit model

Spusťte modelovací nástroj na připravené datové sadě a vytvořte jeden nebo více modelů.

tisk výpisu v jazyce Java
    Nastavení parametrů:U jakéhokoli modelovacího nástroje často existuje velké množství parametrů, které lze upravit. Uveďte parametry, jejich hodnoty a důvody pro výběr nastavení parametrů.Modely:Toto jsou modely vytvořené modelovacím nástrojem, nikoli zpráva o modelech.Popis modelů:Popište výsledné modely, podejte zprávu o interpretaci modelů a zdokumentujte případné potíže s jejich významy.

Posoudit model

Interpretujte modely podle svých znalostí domény, kritérií úspěšnosti dolování dat a požadovaného návrhu testu. Posuďte úspěšnost použití technik modelování a zjišťování a poté kontaktujte obchodní analytiky a odborníky na domény, abyste prodiskutovali výsledky dolování dat v obchodním kontextu. Tento úkol bere v úvahu pouze modely, zatímco fáze hodnocení bere v úvahu i všechny ostatní výsledky vytvořené během projektu.

V této fázi byste měli modely seřadit a posoudit je podle hodnotících kritérií. Měli byste zvážit obchodní cíle a kritéria úspěchu, jak jen můžete zde. Ve většině projektů dolování dat se jedna technika používá více než jednou a výsledky dolování dat jsou generovány několika různými technikami.

    Hodnocení modelu:Shrne výsledky tohoto úkolu, vypíše kvality vašich generovaných modelů (např. pokud jde o přesnost) a seřadí jejich kvalitu mezi sebou.Upravené nastavení parametrů:Podle posouzení modelu je zrevidujte a vylaďte pro příští modelovací běh. Opakujte sestavování a hodnocení modelů, dokud pevně neuvěříte, že jste našli nejlepší model(y). Všechny takové revize a hodnocení zdokumentujte.

Fáze 5: Hodnocení

Vyhodnoťte své výsledky: Předchozí kroky hodnocení se zabývaly faktory, jako je přesnost a obecnost modelu. Během tohoto kroku posoudíte, do jaké míry model splňuje vaše obchodní cíle, a pokusíte se zjistit, zda existuje nějaký obchodní důvod, proč je tento model nedostatečný. Další možností je testovat model na testovacích aplikacích v reálné aplikaci, pokud to časová a rozpočtová omezení dovolí. Fáze hodnocení také zahrnuje posouzení jakýchkoli dalších výsledků dolování dat, které jste vygenerovali. Výsledky dolování dat zahrnují modely, které nutně souvisejí s původními obchodními cíli a všemi dalšími zjištěními, která nemusí nutně souviset s původními obchodními cíli, ale mohou také odhalit další výzvy, informace nebo tipy pro budoucí směřování.

    Vyhodnocení výsledků dolování dat:Shrňte výsledky hodnocení v kritériích obchodní úspěšnosti, včetně závěrečného prohlášení o tom, zda projekt již splňuje počáteční obchodní cíle.Schválené modely:Po posouzení modelů podle kritérií obchodní úspěšnosti se vygenerované modely, které splňují vybraná kritéria, stanou schválenými modely.

Proces kontroly

V tomto bodě se výsledné modely jeví jako uspokojivé a uspokojující potřeby podniku. Nyní je vhodné, abyste provedli důkladnější kontrolu zapojení do dolování dat, abyste zjistili, zda existuje nějaký důležitý faktor nebo úkol, který byl nějak přehlížen. Tato revize také zahrnuje otázky zajištění kvality. Například: postavili jsme model správně? Použili jsme pouze atributy, které smíme používat a které jsou k dispozici pro budoucí analýzy?

    Recenze procesu:Shrňte přezkoumání procesu a zvýrazněte aktivity, které byly vynechány a které by se měly opakovat.

Určete další postup

Nyní se rozhodnete, jak budete postupovat v závislosti na výsledcích hodnocení a kontrole procesu. Dokončíte tento projekt a přejdete k nasazení, zahájíte další iterace nebo nastavíte nové projekty dolování dat? Měli byste si také udělat inventuru svých zbývajících zdrojů a rozpočtu, které mohou ovlivnit vaše rozhodnutí.

    Seznam možných akcí:Uveďte možné další kroky a důvody pro a proti každé možnosti.Rozhodnutí:Popište rozhodnutí, jak postupovat, spolu s odůvodněním.

Fáze 6: Nasazení

Plán nasazení: Ve fázi nasazení vezmete výsledky hodnocení a určíte strategii jejich nasazení. Pokud byl identifikován obecný postup pro vytvoření příslušných modelů, je zde tento postup zdokumentován pro pozdější nasazení. Má smysl zvážit způsoby a prostředky nasazení ve fázi obchodního porozumění, protože nasazení je zásadní pro úspěch projektu. To je místo, kde prediktivní analytika pomáhá zlepšit provozní stránku vašeho podnikání.

    Plán nasazení:Shrňte svou strategii nasazení, včetně nezbytných kroků a způsobu jejich provedení.

Plánujte monitorování a údržbu

Monitorování a údržba jsou důležité otázky, pokud se výsledek dolování dat stane součástí každodenního podnikání a jeho prostředí. Pečlivá příprava strategie údržby pomáhá vyhnout se zbytečně dlouhým obdobím nesprávného používání výsledků dolování dat. Projekt potřebuje podrobný plán procesu monitorování, aby bylo možné sledovat nasazení výsledků dolování dat. Tento plán zohledňuje konkrétní typ nasazení.

    Plán monitorování a údržby:Shrňte strategii monitorování a údržby, včetně nezbytných kroků a způsobu jejich provedení.

Vypracujte závěrečnou zprávu

Na konci projektu sepíšete závěrečnou zprávu. V závislosti na plánu nasazení může být tato zpráva pouze shrnutím projektu a jeho zkušeností (pokud již nebyly zdokumentovány jako probíhající činnost), nebo může být konečnou a komplexní prezentací výsledku dolování dat.

    Konečná zpráva:Toto je závěrečná písemná zpráva o dolování dat. Zahrnuje všechny předchozí výstupy, shrnuje a organizuje výsledky.Závěrečná prezentace:Často po projektu proběhne schůzka, na které jsou výsledky prezentovány zákazníkovi.

Přezkoumat projekt

analýza řetězce na int

Posuďte, co bylo správné a co špatné, co bylo provedeno dobře a co je třeba zlepšit.

    Dokumentace o zkušenostech:Shrňte důležité zkušenosti získané během projektu. Tato dokumentace může například obsahovat jakákoli úskalí, se kterými jste se setkali, zavádějící přístupy nebo rady pro výběr nejvhodnějších technik dolování dat v podobných situacích. V ideálních projektech zahrnuje dokumentace zkušeností také všechny zprávy, které jednotliví členové projektu napsali během předchozích fází projektu.