Skirtumas tarp maišų ir atsitiktinio miško

Bėgant metams, kelios klasifikatorių sistemos, dar vadinamos ansamblių sistemomis, buvo populiari tyrimų tema ir sulaukė vis didesnio dėmesio skaičiavimo žvalgybos ir kompiuterinio mokymosi bendruomenėse. Tai sulaukė kelių sričių mokslininkų susidomėjimo, įskaitant mašininį mokymąsi, statistiką, modelio atpažinimą ir žinių atradimą duomenų bazėse. Laikui bėgant, ansamblių metodai pasirodė esą labai veiksmingi ir universalūs plačiame spektre probleminių sričių ir realiame pasaulyje. Iš pradžių sukurti metodai, skirti sumažinti automatizuotų sprendimų priėmimo sistemos variantus, nuo šiol buvo naudojami ansamblio metodai, siekiant išspręsti įvairias mašininio mokymosi problemas. Pateikiame dviejų ryškiausių ansamblio algoritmų - „Bagging“ ir „Random Forest“ - apžvalgą ir aptariame skirtumus tarp šių dviejų.

Daugeliu atvejų buvo įrodyta, kad maišų, kuriuose naudojamas įkrovos mėginių ėmimas, klasifikavimo tikslumas yra didesnis nei vieno klasifikavimo medžio. Pakavimas yra vienas iš seniausių ir paprasčiausių ansambliais pagrįstų algoritmų, kuriuos galima pritaikyti medžių algoritmams, kad būtų padidintas numatymų tikslumas. Yra dar viena patobulinta pakavimo versija, vadinama „Random Forest“ algoritmu, kuri iš esmės yra sprendimų medžių, treniruotų maišų sudarymo mechanizmu, ansamblis. Pažiūrėkime, kaip veikia atsitiktinis miško algoritmas ir kuo jis skiriasi nuo sudėjimo į ansamblio modelius.

Maišai

„Bootstrap“ agregacija, dar vadinama maišeliu, yra vienas iš ankstyviausių ir paprasčiausių ansambliais pagrįstų algoritmų, leidžiančių sprendimų medžius padaryti patikimesnius ir pasiekti geresnių rezultatų. Pakavimo principas yra sujungti kelių besimokančių asmenų prognozes, kad būtų sukurta tikslesnė išvada. Leo Breimanas 1994 m. Pristatė pakavimo algoritmą. Jis parodė, kad įkrovos įkėlimas gali duoti norimų rezultatų nestabiliuose mokymosi algoritmuose, kai maži treniruočių duomenų pakeitimai gali sukelti didelius prognozių variantus. Įkrovos lazdelė yra duomenų rinkinio su pakeitimu pavyzdys, ir kiekvienas pavyzdys generuojamas tolygiai imant m dydžio mokymo rinkinį, kol gaunamas naujas rinkinys su m egzemplioriais..

Atsitiktinis miškas

Atsitiktinis miškas yra prižiūrimas mašinų mokymosi algoritmas, pagrįstas ansamblių mokymu ir pradiniu Breimano maišo algoritmo evoliucija. Tai puikus patobulinimas, palyginti su medžiais su maišais, siekiant sukurti kelis sprendimų medžius ir surinkti juos, kad būtų gautas tikslus rezultatas. Breimanas įpakavimo procedūros metu įtraukė papildomą atsitiktinį variantą, sukurdamas didesnę gautų modelių įvairovę. Atsitiktiniai miškai skiriasi nuo maišais medžių, priversdami medį naudoti tik dalį jo turimų prognozatorių, kad galėtų išsiskleisti augimo fazėje. Visi sprendimų medžiai, sudarantys atsitiktinį mišką, yra skirtingi, nes kiekvienas medis yra pastatytas pagal skirtingą atsitiktinį duomenų pogrupį. Kadangi jis sumažina per daug įrengimų, jis yra tikslesnis nei vienas sprendimų medis.

Skirtumas tarp maišų ir atsitiktinio miško

Pagrindai

- Maišai ir atsitiktiniai miškai yra ansambliais pagrįsti algoritmai, kuriais siekiama sumažinti modelių, kurie viršija mokymo duomenis, sudėtingumą. „Bootstrap“ agregavimas, dar vadinamas maišu, yra vienas iš seniausių ir galingiausių ansamblio metodų, padedančių išvengti perpildymo. Tai meta technika, kuriai naudojami keli klasifikatoriai, siekiant pagerinti nuspėjamąjį tikslumą. Pakavimas tiesiog reiškia atsitiktinių pavyzdžių paėmimą iš treniruočių imties, kad būtų galima pakeisti įvairius modelius. Atsitiktinis miškas yra prižiūrimas mašinų mokymosi algoritmas, pagrįstas ansamblių mokymu ir originalaus „Breiman“ maišo algoritmo evoliucija..

Koncepcija

- Bagažinės mėginių ėmimo (pakavimo) idėja yra išmokyti krūvą neišpjautų sprendimų medžių skirtinguose atsitiktiniuose mokymo duomenų pogrupiuose, imant mėginius su pakeitimais, siekiant sumažinti sprendimų medžių dispersiją. Idėja yra sujungti kelių besimokančių asmenų prognozes, kad būtų sukurta tikslesnė išvada. Naudojant atsitiktinius miškus, į maišymo procedūrą pridedami papildomi atsitiktiniai variantai, kad gautais modeliais būtų didesnė įvairovė. Atsitiktinių miškų idėja yra sukurti kelis sprendimų medžius ir surinkti juos, kad būtų gautas tikslus rezultatas.

Įvartis

- Medžiai maišuose ir atsitiktiniai miškai yra labiausiai paplitusios ansamblio mokymosi priemonės, naudojamos įvairioms mašininio mokymosi problemoms spręsti. „Bootstrap“ pavyzdžių atranka yra meta-algoritmas, skirtas pagerinti mašininio mokymosi modelių tikslumą ir stabilumą naudojant ansamblių mokymąsi ir sumažinti per didelių modelių kompleksiškumą. Atsitiktinis miško algoritmas yra labai tvirtas ir neleidžia perpildyti. Jis tinkamas esant nesubalansuotiems ir trūkstantiems duomenims. Tai taip pat yra tinkamiausias algoritmo pasirinkimas prognozuojantiems modeliams kurti. Tikslas yra sumažinti dispersiją, apskaičiuojant kelių gilių sprendimų medžių, paruoštų skirtingiems duomenų pavyzdžiams, vidurkį.

Maišymas prieš atsitiktinį mišką: palyginimo diagrama

Santrauka

Medžiai maišuose ir atsitiktiniai miškai yra labiausiai paplitusios ansamblio mokymosi priemonės, naudojamos įvairioms mašininio mokymosi problemoms spręsti. Pakavimas yra vienas iš seniausių ir paprasčiausių ansambliais pagrįstų algoritmų, kuriuos galima pritaikyti medžių algoritmams, kad būtų padidintas numatymų tikslumas. Kita vertus, „Random Forests“ yra prižiūrimas mašinų mokymosi algoritmas ir patobulinta „bootstrap“ atrankos modelio versija, naudojama tiek regresijos, tiek klasifikavimo problemoms spręsti. Atsitiktinio miško idėja yra sukurti kelis sprendimų medžius ir surinkti juos, kad būtų gautas tikslus rezultatas. Atsitiktinis miškas yra tikslesnis nei vienas sprendimo medis, nes jis sumažina perpildymą.

Technologija