CRISP-DM je zkratka pro meziodvětvový standardní proces pro dolování dat. Metodika CRISP-DM poskytuje strukturovaný přístup k plánování projektu dolování dat. Je to robustní a osvědčená metodika. Nenárokujeme si na něj žádné vlastnictví. My jsme to nevymysleli. Jsme konvertorem jeho výkonné praktičnosti, flexibility a užitečnosti při používání analytiky k řešení obchodních problémů. Je to zlatá nit, která se táhne téměř každým klientským setkáním.
Tento model je idealizovaný sled událostí. V praxi se mnoho úkolů může provádět v jiném pořadí a často bude nutné vrátit se k předchozím úkolům a opakovat určité akce. Model se nesnaží zachytit všechny možné cesty procesem dolování dat.
Jak CRISP pomáhá?
CRISP DM poskytuje cestovní mapu, poskytuje vám osvědčené postupy a poskytuje struktury pro lepší a rychlejší výsledky používání dolování dat, takže pomáhá podniku následovat při plánování a provádění projektu dolování dat.
Fáze CRISP-DM
CRISP-DM poskytuje přehled životního cyklu data miningu jako procesního modelu. Model životního cyklu obsahuje šest fází, přičemž šipky označují nejdůležitější a nejčastější závislosti mezi fázemi. Pořadí fází není striktní. A většina projektů se pohybuje tam a zpět mezi fázemi podle potřeby. Model CRISP-DM je flexibilní a lze jej snadno přizpůsobit.
Pokud si například vaše organizace klade za cíl odhalit praní špinavých peněz, pravděpodobně budete probírat velké množství dat bez konkrétního cíle modelování. Namísto modelování se vaše práce zaměří na průzkum a vizualizaci dat, abyste odhalili podezřelé vzorce ve finančních datech. CRISP-DM vám umožňuje vytvořit model dolování dat, který vyhovuje vašim potřebám.
Obsahuje popisy typických fází projektu, úkoly spojené s každou fází a vysvětlení vztahů mezi těmito úkoly.
Fáze 1: Obchodní porozumění
První fází procesu CRISP-DM je pochopení toho, čeho chcete dosáhnout z obchodního hlediska. Vaše organizace může mít konkurenční cíle a omezení, která musí být správně vyvážena. Tato procesní fáze má za cíl odhalit důležité faktory ovlivňující výsledek projektu. Zanedbání tohoto kroku může znamenat velké úsilí vynaložené na vytvoření správných odpovědí na nesprávné otázky.
Jaké jsou požadované výstupy projektu?
Zhodnoťte současnou situaci
java reverzní řetězec
To zahrnuje podrobnější zjištění faktů o zdrojích, omezeních, předpokladech a dalších faktorech, které budete muset vzít v úvahu při určování cíle analýzy dat a plánu projektu.
- Personál (obchodní experti, datoví experti, technická podpora, data mining experti)
- Data (pevné výpisy, přístup k aktuálním, skladovaným nebo provozním datům)
- Výpočetní zdroje (hardwarové platformy)
- Software (nástroje pro dolování dat, další relevantní software)
- Glosář relevantní obchodní terminologie tvoří součást obchodního porozumění dostupného projektu. Sestavení tohoto glosáře je užitečným „získáváním znalostí“ a vzdělávacím cvičením.
- Slovník terminologie dolování dat je ilustrován příklady relevantními pro daný obchodní problém.
Určete cíle dolování dat
Obchodní cíl stanoví cíle v obchodní terminologii. Cíl dolování dat stanoví cíle projektu z technického hlediska. Obchodním cílem může být například zvýšení prodeje katalogu stávajícím zákazníkům. Cílem dolování dat může být předvídat, kolik widgetů si zákazník koupí s ohledem na jejich nákupy za poslední tři roky, demografické informace (věk, plat, město atd.) a cenu položky.
Vytvořte plán projektu
Popište zamýšlený plán pro dosažení cílů dolování dat a obchodních cílů. Váš plán by měl specifikovat kroky, které je třeba provést během zbytku projektu, včetně počátečního výběru nástrojů a technik.
1. Plán projektu: Uveďte fáze, které mají být v projektu provedeny, s jejich trváním, požadovanými zdroji, vstupy, výstupy a závislostmi. Pokud je to možné, pokuste se explicitně uvést rozsáhlé iterace v procesu dolování dat, například opakování fází modelování a hodnocení.
V rámci plánu projektu je důležité analyzovat závislosti mezi časovými harmonogramy a riziky. Výsledky těchto analýz označte výslovně v plánu projektu, ideálně s opatřeními a doporučeními, pokud se rizika projeví. Rozhodněte, která strategie hodnocení bude použita ve fázi hodnocení.
base64 dekódovat v js
Váš projektový plán bude dynamický dokument. Na konci každé fáze zkontrolujete pokrok a úspěchy a podle toho aktualizujete plán projektu. Konkrétní kontrolní body pro tyto aktualizace by měly být součástí plánu projektu.
2. Počáteční posouzení nástrojů a technik: Na konci první fáze byste měli provést počáteční posouzení nástrojů a technik. Například vyberete nástroj pro dolování dat, který podporuje různé metody pro různé fáze procesu. Je důležité vyhodnotit nástroje a techniky na začátku procesu, protože výběr nástrojů a technik může ovlivnit celý projekt.
Fáze 2: Porozumění datům
Druhá fáze procesu CRISP-DM vyžaduje, abyste získali data uvedená ve zdrojích projektu. Tento počáteční sběr zahrnuje načítání dat, pokud je to nezbytné pro pochopení dat. Pokud například používáte konkrétní nástroj pro pochopení dat, dává smysl načíst data do tohoto nástroje. Pokud získáváte více zdrojů dat, musíte zvážit, jak a kdy je integrujete.
Popište data
Prozkoumejte „hrubé“ nebo „povrchové“ vlastnosti získaných dat a podejte zprávu o výsledcích.
Prozkoumejte data
Během této fáze budete řešit otázky dolování dat pomocí dotazování, vizualizace dat a technik vytváření sestav. Mohou zahrnovat:
- Rozdělení klíčových atributů
- Vztahy mezi dvojicemi nebo malým počtem atributů
- Výsledky jednoduchých agregací
- Vlastnosti významných subpopulací
- Jednoduché statistické analýzy
Tyto analýzy mohou přímo řešit vaše cíle dolování dat. Mohou přispívat k popisu dat a zprávám o kvalitě nebo je upřesňovat a přispívat k transformaci a dalším krokům přípravy dat potřebným pro další analýzu.
Ověřte kvalitu dat
Prozkoumejte kvalitu dat a zaměřte se na otázky, jako jsou:
znak na int v jazyce Java
- Jsou údaje úplné, nebo pokrývají všechny požadované případy?
- Je správná, nebo obsahuje chyby, a pokud tam chyby jsou, jak časté jsou?
- Chybí v datech hodnoty? Pokud ano, jak jsou zastoupeny, kde se vyskytují a jak časté jsou?
Zpráva o kvalitě dat
Uveďte výsledky ověření kvality dat. Pokud existují problémy s kvalitou, navrhněte možná řešení. Řešení problémů s kvalitou dat obecně silně závisí na datech a obchodních znalostech.
Fáze 3: Příprava dat
V této fázi projektu se rozhodnete, která data použijete pro analýzu. Kritéria, která můžete použít k tomuto rozhodnutí, zahrnují relevanci dat pro vaše cíle dolování dat, kvalitu dat a technická omezení, jako jsou limity objemu dat nebo datové typy.
Vyčistěte svá data
Tento úkol zahrnuje zvýšení kvality dat na úroveň požadovanou analytickými technikami, které jste vybrali. To může zahrnovat výběr čistých podmnožin dat, vložení vhodných výchozích hodnot nebo ambicióznější techniky, jako je odhad chybějících dat pomocí modelování.
Vytvořte požadovaná data
Tato úloha zahrnuje konstruktivní operace přípravy dat, jako je vytváření odvozených atributů, celých nových záznamů nebo transformovaných hodnot pro existující atributy.
Integrujte data
Tyto metody kombinují informace z více databází, tabulek nebo záznamů a vytvářejí nové záznamy nebo hodnoty.
Fáze 4: Modelování
Výběr techniky modelování: Jako první krok si vyberete základní techniku modelování, kterou budete používat. Ačkoli jste si již možná vybrali nástroj ve fázi obchodního porozumění, v této fázi budete vybírat konkrétní techniku modelování, např. budování rozhodovacího stromu s C5.0 nebo generováním neuronové sítě se zpětnou propagací. Pokud je použito více technik, proveďte tento úkol samostatně pro každou techniku.
Vygenerujte návrh testu
Než vytvoříte model, musíte vygenerovat postup nebo mechanismus pro testování kvality a platnosti modelu. Například v úlohách dolování dat pod dohledem, jako je klasifikace, je běžné používat chybovost jako měřítka kvality pro modely dolování dat. Proto obvykle rozdělujete datovou sadu na vlakové a testovací sady, sestavujete model na vlakové sadě a odhadujete jeho kvalitu na samostatné testovací sadě.
Sestavit model
Spusťte modelovací nástroj na připravené datové sadě a vytvořte jeden nebo více modelů.
tisk výpisu v jazyce Java
Posoudit model
Interpretujte modely podle svých znalostí domény, kritérií úspěšnosti dolování dat a požadovaného návrhu testu. Posuďte úspěšnost použití technik modelování a zjišťování a poté kontaktujte obchodní analytiky a odborníky na domény, abyste prodiskutovali výsledky dolování dat v obchodním kontextu. Tento úkol bere v úvahu pouze modely, zatímco fáze hodnocení bere v úvahu i všechny ostatní výsledky vytvořené během projektu.
V této fázi byste měli modely seřadit a posoudit je podle hodnotících kritérií. Měli byste zvážit obchodní cíle a kritéria úspěchu, jak jen můžete zde. Ve většině projektů dolování dat se jedna technika používá více než jednou a výsledky dolování dat jsou generovány několika různými technikami.
Fáze 5: Hodnocení
Vyhodnoťte své výsledky: Předchozí kroky hodnocení se zabývaly faktory, jako je přesnost a obecnost modelu. Během tohoto kroku posoudíte, do jaké míry model splňuje vaše obchodní cíle, a pokusíte se zjistit, zda existuje nějaký obchodní důvod, proč je tento model nedostatečný. Další možností je testovat model na testovacích aplikacích v reálné aplikaci, pokud to časová a rozpočtová omezení dovolí. Fáze hodnocení také zahrnuje posouzení jakýchkoli dalších výsledků dolování dat, které jste vygenerovali. Výsledky dolování dat zahrnují modely, které nutně souvisejí s původními obchodními cíli a všemi dalšími zjištěními, která nemusí nutně souviset s původními obchodními cíli, ale mohou také odhalit další výzvy, informace nebo tipy pro budoucí směřování.
Proces kontroly
V tomto bodě se výsledné modely jeví jako uspokojivé a uspokojující potřeby podniku. Nyní je vhodné, abyste provedli důkladnější kontrolu zapojení do dolování dat, abyste zjistili, zda existuje nějaký důležitý faktor nebo úkol, který byl nějak přehlížen. Tato revize také zahrnuje otázky zajištění kvality. Například: postavili jsme model správně? Použili jsme pouze atributy, které smíme používat a které jsou k dispozici pro budoucí analýzy?
Určete další postup
Nyní se rozhodnete, jak budete postupovat v závislosti na výsledcích hodnocení a kontrole procesu. Dokončíte tento projekt a přejdete k nasazení, zahájíte další iterace nebo nastavíte nové projekty dolování dat? Měli byste si také udělat inventuru svých zbývajících zdrojů a rozpočtu, které mohou ovlivnit vaše rozhodnutí.
Fáze 6: Nasazení
Plán nasazení: Ve fázi nasazení vezmete výsledky hodnocení a určíte strategii jejich nasazení. Pokud byl identifikován obecný postup pro vytvoření příslušných modelů, je zde tento postup zdokumentován pro pozdější nasazení. Má smysl zvážit způsoby a prostředky nasazení ve fázi obchodního porozumění, protože nasazení je zásadní pro úspěch projektu. To je místo, kde prediktivní analytika pomáhá zlepšit provozní stránku vašeho podnikání.
Plánujte monitorování a údržbu
Monitorování a údržba jsou důležité otázky, pokud se výsledek dolování dat stane součástí každodenního podnikání a jeho prostředí. Pečlivá příprava strategie údržby pomáhá vyhnout se zbytečně dlouhým obdobím nesprávného používání výsledků dolování dat. Projekt potřebuje podrobný plán procesu monitorování, aby bylo možné sledovat nasazení výsledků dolování dat. Tento plán zohledňuje konkrétní typ nasazení.
Vypracujte závěrečnou zprávu
Na konci projektu sepíšete závěrečnou zprávu. V závislosti na plánu nasazení může být tato zpráva pouze shrnutím projektu a jeho zkušeností (pokud již nebyly zdokumentovány jako probíhající činnost), nebo může být konečnou a komplexní prezentací výsledku dolování dat.
Přezkoumat projekt
analýza řetězce na int
Posuďte, co bylo správné a co špatné, co bylo provedeno dobře a co je třeba zlepšit.