Rozdíl Mezi KDD A Těžbou Dat

Rozdíl Mezi KDD A Těžbou Dat
Rozdíl Mezi KDD A Těžbou Dat

Video: Rozdíl Mezi KDD A Těžbou Dat

Video: Rozdíl Mezi KDD A Těžbou Dat
Video: КАК СОЗДАТЬ РОЛКУ В ВК? 2025, Leden
Anonim

KDD vs Data mining

KDD (Knowledge Discovery in Databases) je oblast počítačové vědy, která zahrnuje nástroje a teorie, které pomáhají lidem při získávání užitečných a dříve neznámých informací (tj. Znalostí) z velkých sbírek digitalizovaných dat. KDD se skládá z několika kroků a jedním z nich je Data Mining. Data Mining je aplikace konkrétního algoritmu za účelem extrakce vzorů z dat. KDD a dolování dat se nicméně používají zaměnitelně.

Co je KDD?

Jak již bylo zmíněno výše, KDD je oblast informatiky, která se zabývá extrakcí dříve neznámých a zajímavých informací ze surových dat. KDD je celý proces pokusu o pochopení dat vyvinutím vhodných metod nebo technik. Tento proces se zabývá mapováním nízkoúrovňových dat do jiných forem, které jsou kompaktnější, abstraktní a užitečnější. Toho je dosaženo vytvořením krátkých zpráv, modelováním procesu generování dat a vývojem prediktivních modelů, které mohou předvídat budoucí případy. Vzhledem k exponenciálnímu růstu dat, zejména v oblastech, jako je podnikání, se KDD stalo velmi důležitým procesem pro převod tohoto velkého množství dat na business inteligenci, protože ruční extrakce vzorů je v posledních několika desetiletích zdánlivě nemožná. Například,v současné době se používá pro různé aplikace, jako je analýza sociálních sítí, detekce podvodů, věda, investice, výroba, telekomunikace, čištění dat, sport, vyhledávání informací a převážně pro marketing. KDD se obvykle používá k zodpovězení otázek, jaké jsou hlavní produkty, které by mohly v příštím roce ve Wal-Martu pomoci dosáhnout vysokého zisku ?. Tento proces má několik kroků. Začíná to rozvíjením porozumění doméně aplikace a cíli a poté vytvořením cílové datové sady. Následuje čištění, předzpracování, redukce a projekce dat. Dalším krokem je použití dolování dat (vysvětleno níže) k identifikaci vzoru. Nakonec se objevené znalosti konsolidují vizualizací a / nebo interpretací.sport, vyhledávání informací a převážně pro marketing. KDD se obvykle používá k zodpovězení otázek, jaké jsou hlavní produkty, které by mohly v příštím roce ve Wal-Martu pomoci dosáhnout vysokého zisku ?. Tento proces má několik kroků. Začíná to rozvíjením porozumění doméně aplikace a cíli a poté vytvořením cílové datové sady. Následuje čištění, předzpracování, redukce a projekce dat. Dalším krokem je použití dolování dat (vysvětleno níže) k identifikaci vzoru. Nakonec se objevené znalosti konsolidují vizualizací a / nebo interpretací.sport, vyhledávání informací a převážně pro marketing. KDD se obvykle používá k zodpovězení otázek, jaké jsou hlavní produkty, které by mohly v příštím roce ve Wal-Martu pomoci dosáhnout vysokého zisku ?. Tento proces má několik kroků. Začíná to rozvíjením porozumění doméně aplikace a cíli a poté vytvořením cílové datové sady. Následuje čištění, předzpracování, redukce a projekce dat. Dalším krokem je použití dolování dat (vysvětleno níže) k identifikaci vzoru. Nakonec se objevené znalosti konsolidují vizualizací a / nebo interpretací. Začíná to rozvíjením porozumění doméně aplikace a cíli a poté vytvořením cílové datové sady. Následuje čištění, předzpracování, redukce a projekce dat. Dalším krokem je použití dolování dat (vysvětleno níže) k identifikaci vzoru. Nakonec se objevené znalosti konsolidují vizualizací a / nebo interpretací. Začíná to rozvíjením porozumění doméně aplikace a cíli a poté vytvořením cílové datové sady. Následuje čištění, předzpracování, redukce a projekce dat. Dalším krokem je použití dolování dat (vysvětleno níže) k identifikaci vzoru. Nakonec se objevené znalosti konsolidují vizualizací a / nebo interpretací.

Co je dolování dat?

Jak bylo uvedeno výše, dolování dat je pouze krokem v rámci celého procesu KDD. Existují dva hlavní cíle v oblasti dolování dat, jak jsou definovány v cíli aplikace, a to jsou ověřování nebo zjišťování. Ověření je ověření hypotézy uživatele o datech, zatímco zjišťování automaticky vyhledává zajímavé vzory. Existují čtyři hlavní úlohy dolování dat: shlukování, klasifikace, regrese a asociace (sumarizace). Clustering identifikuje podobné skupiny z nestrukturovaných dat. Klasifikace jsou pravidla učení, která lze použít na nová data. Regrese je hledání funkcí s minimální chybou modelových dat. Asociace hledá vztahy mezi proměnnými. Poté je třeba vybrat konkrétní algoritmus dolování dat. V závislosti na cíli, různé algoritmy jako lineární regrese, logistická regrese,lze vybrat rozhodovací stromy a Naïve Bayes. Poté se prohledají vzory zájmu v jedné nebo více reprezentativních formách. Nakonec jsou modely hodnoceny buď pomocí prediktivní přesnosti nebo srozumitelnosti.

Jaký je rozdíl mezi KDD a Data miningem?

Ačkoli jsou dva pojmy KDD a Data Mining silně zaměnitelné, odkazují na dva související, ale mírně odlišné pojmy. KDD je celkový proces získávání znalostí z dat, zatímco dolování dat je krokem v procesu KDD, který se zabývá identifikací vzorců v datech. Jinými slovy, dolování dat je pouze aplikací konkrétního algoritmu založeného na celkovém cíli procesu KDD.