Duomenų gavyba ir duomenų saugojimas
Duomenų gavyba ir duomenų saugojimas yra labai galingi ir populiarūs duomenų analizės metodai. Į statistiką linkę vartotojai naudojasi duomenų gavyba. Jie pasitelkia statistinius modelius, norėdami ieškoti paslėptų duomenų modelių. Duomenų išminuotojai yra suinteresuoti rasti naudingus ryšius tarp skirtingų duomenų elementų, o tai iš esmės yra pelninga įmonėms. Tačiau, kita vertus, duomenų ekspertai, galintys tiesiogiai analizuoti verslo matmenis, linkę naudoti duomenų sandėlius.
Duomenų gavyba taip pat žinoma kaip žinių atradimas duomenyse (KDD). Kaip minėta pirmiau, tai kompiuterių mokslo sritis, kurioje nagrinėjama anksčiau nežinomos ir įdomios informacijos iš neapdorotų duomenų gavyba. Dėl eksponentinio duomenų augimo, ypač tokiose srityse kaip verslas, duomenų gavyba tapo labai svarbia priemone, leidžiančia šį didelį duomenų turtą paversti verslo analize, nes per pastaruosius kelis dešimtmečius rankiniu būdu išgauti modelius tapo neįmanoma. Pavyzdžiui, šiuo metu jis naudojamas įvairioms programoms, tokioms kaip socialinių tinklų analizė, sukčiavimo aptikimas ir rinkodara. Duomenų gavyba paprastai apima šias keturias užduotis: grupavimą, klasifikavimą, regresiją ir susiejimą. Klasteriai identifikuoja panašias grupes iš nestruktūrizuotų duomenų. Klasifikacija yra mokymosi taisyklės, kurios gali būti pritaikytos naujiems duomenims ir kurias paprastai sudaro šie etapai: pirminis duomenų apdorojimas, modeliavimas, mokymosi / ypatybių pasirinkimas ir vertinimas / patvirtinimas. Regresija - tai funkcijų paieška su minimaliomis klaidomis modeliuojant duomenis. Asociacija ieško santykių tarp kintamųjų. Duomenų gavyba paprastai naudojama atsakant į klausimus, pvz., Kurie yra pagrindiniai produktai, galintys padėti kitais metais gauti didelį pelną iš „Wal-Mart“?
Kaip minėta aukščiau, duomenų saugojimas taip pat naudojamas duomenims analizuoti, tačiau skirtingiems vartotojų rinkiniams ir turint omenyje šiek tiek skirtingą tikslą. Pavyzdžiui, kai kalbama apie mažmeninės prekybos sektorių, duomenų saugyklų vartotojams labiau rūpi, kokios rūšies pirkiniai yra populiarūs tarp klientų, todėl analizės rezultatai gali padėti klientui, pagerindami klientų patirtį. Bet duomenų išminuotojai pirmiausia spėja hipotezę, tokią kaip klientai perka tam tikro tipo produktą ir analizuoja duomenis, kad patikrintų hipotezę. Duomenų saugojimą galėtų vykdyti pagrindinis mažmenininkas, kuris iš pradžių savo parduotuvėse kaupia tokio paties dydžio produktus, kad vėliau sužinotų, kad Niujorko parduotuvės mažesnio dydžio atsargas parduoda daug greičiau nei Čikagos parduotuvėse. Taigi, įvertinęs šį rezultatą, mažmenininkas gali įsigyti Niujorko parduotuvių, kurių dydis mažesnis nei Čikagos parduotuvių.
Taigi, kaip aiškiai matote, šios dvi analizės rūšys atrodo to paties pobūdžio plika akimi. Remiantis istoriniais duomenimis, abiem rūpi padidinti pelną. Bet, žinoma, yra pagrindinių skirtumų. Paprastai tariant, duomenų gavyba ir duomenų saugojimas yra skirti pateikti įvairių tipų analizę, tačiau neabejotinai skirtingam tipui vartotojų. Kitaip tariant, „Data Mining“ ieško koreliacijų, aprašo statistinę hipotezę. Tačiau „Data Warehousing“ atsako į palyginti platesnį klausimą ir nuo tada dalija ir dalina duomenis, kad atpažintų tobulinimo būdus ateityje..