KDD vs. duomenų gavyba
KDD (žinių atradimas duomenų bazėse) yra informatikos sritis, apimanti įrankius ir teorijas, padedančius žmonėms iš didelių skaitmenintų duomenų rinkinių išgauti naudingą ir anksčiau nežinomą informaciją (t. Y. Žinias). KDD sudaro keli etapai, o duomenų gavyba yra viena iš jų. Duomenų gavyba yra tam tikro algoritmo taikymas, siekiant išgauti modelius iš duomenų. Nepaisant to, KDD ir duomenų gavyba naudojami pakaitomis.
Kas yra KDD?
Kaip minėta aukščiau, KDD yra kompiuterių mokslo sritis, kurioje nagrinėjama anksčiau nežinomos ir įdomios informacijos iš neapdorotų duomenų gavyba. KDD yra visas procesas, kurio metu bandoma įprasminti duomenis kuriant tinkamus metodus ar metodus. Šis procesas susijęs su žemo lygio duomenų planavimu į kitas formas, kurios yra kompaktiškesnės, abstraktesnės ir naudingesnės. Tai pasiekiama sukuriant trumpas ataskaitas, modeliuojant duomenų generavimo procesą ir kuriant prognozavimo modelius, kurie gali numatyti būsimus atvejus. Dėl eksponentinio duomenų augimo, ypač tokiose srityse kaip verslas, KDD tapo labai svarbiu procesu, kai reikia konvertuoti šį didelį duomenų turtą į verslo intelektą, nes per pastaruosius kelis dešimtmečius rankiniu būdu išgauti modelius tapo neįmanoma. Pavyzdžiui, šiuo metu jis naudojamas įvairioms programoms, tokioms kaip socialinių tinklų analizė, sukčiavimo aptikimas, mokslas, investicijos, gamyba, telekomunikacijos, duomenų valymas, sportas, informacijos gavimas ir iš esmės rinkodara. KDD paprastai naudojamas atsakyti į klausimus, pavyzdžiui, kokie yra pagrindiniai produktai, kurie kitais metais gali padėti gauti didelį pelną iš „Wal-Mart“? “ Šis procesas turi keletą etapų. Tai pradedama suprantant taikymo srities ir tikslo supratimą, tada sukuriamas tikslinis duomenų rinkinys. Po to atliekamas duomenų valymas, pirminis apdorojimas, sumažinimas ir projekcija. Kitas žingsnis yra duomenų gavyba (paaiškinta toliau) naudojant modelį. Galiausiai atrastos žinios sutvirtinamos vizualizuojant ir (arba) aiškinant.
Kas yra duomenų gavyba?
Kaip minėta aukščiau, duomenų gavyba yra tik viso KDD proceso žingsnis. Yra du pagrindiniai duomenų gavybos tikslai, kuriuos apibrėžia programos tikslas, ir jie yra tikrinimas arba atradimas. Patikrinimas patikrina vartotojo hipotezę apie duomenis, o atradimas automatiškai suranda įdomius modelius. Yra keturios pagrindinės duomenų gavybos užduotys: grupavimas, klasifikavimas, regresija ir susiejimas (apibendrinimas). Klasteriai identifikuoja panašias grupes iš nestruktūrizuotų duomenų. Klasifikacija yra mokymosi taisyklės, kurios gali būti pritaikytos naujiems duomenims. Regresija - tai funkcijų paieška su minimaliomis klaidomis modeliuojant duomenis. Asociacija ieško santykių tarp kintamųjų. Tada reikia pasirinkti konkretų duomenų gavybos algoritmą. Priklausomai nuo tikslo, gali būti pasirenkami skirtingi algoritmai, tokie kaip tiesinė regresija, logistinė regresija, sprendimų medžiai ir „Naivūs baisiai“. Tada ieškoma susidomėjimo viena ar keliomis reprezentacinėmis formomis modelių. Galiausiai modeliai vertinami remiantis nuspėjamu tikslumu arba suprantamumu.
Kuo skiriasi KDD ir duomenų gavyba?
Nors abi sąvokos KDD ir duomenų gavyba yra vartojamos pakaitomis, jos nurodo dvi susijusias, tačiau šiek tiek skirtingas sąvokas. KDD yra bendras žinių išgavimo iš duomenų procesas, o Duomenų gavyba yra žingsnis KDD proceso viduje, kurio metu nustatomi duomenų modeliai. Kitaip tariant, „Data Mining“ yra tik konkretaus algoritmo taikymas, paremtas bendru KDD proceso tikslu.