Qo'shimcha qarorlar daraxti - Incremental decision tree

An bosqichma-bosqich qarorlar daraxti algoritmi onlayn mashinada o'rganish a chiqadigan algoritm qaror daraxti. Ko'pchilik qaror daraxti kabi usullar C4.5, to'liq ma'lumotlar to'plamidan foydalangan holda daraxt qurish. Qarorlar daraxtini ko'paytirish usullari o'tgan daraxtlarni qayta ishlashga hojat qoldirmasdan, mavjud bo'lgan daraxtni faqat yangi individual ma'lumotlar nusxalari yordamida yangilashga imkon beradi. Bu daraxt yangilanganida (ya'ni ma'lumotlar saqlanmagan), ma'lumotlar to'plamining katta qismi ishlov berish uchun juda katta bo'lganida yoki ma'lumotlar xususiyatlari vaqt o'tishi bilan o'zgarib turganda butun ma'lumotlar to'plami mavjud bo'lmagan hollarda foydali bo'lishi mumkin.

Ilovalar

Onlayn o'rganish
Ma'lumot oqimlari
Kontseptsiyaning o'zgarishi
Ierarxik model yordamida yaxshi modellashtirilishi mumkin bo'lgan ma'lumotlar.
Foydalanuvchi tomonidan izohlanadigan chiqishi zarur bo'lgan tizimlar.

Usullari

Bu erda ularning ota-ona algoritmlari (odatda o'sib boruvchi bo'lmagan) tomonidan tashkil etilgan o'sib boruvchi qarorlar daraxti usullarining qisqacha ro'yxati keltirilgan.

CART oilasi

ARAVA^[1] (1984) tasniflash va regressiya muammolari uchun noan'anaviy qaror daraxtlari induktoridir. matematika va statistika jamoalarida ishlab chiqilgan. CART o'z ildizlarini AIDga olib boradi (1963)^[2]

qo'shimcha CART (1989)^[3] Ma'lumotlarni bosqichma-bosqich kiritish uchun Crawford CART-ni o'zgartirdi.

ID3 / C4.5 oilasi

ID3 (1986)^[4] va C4.5 (1993)^[5] tomonidan ishlab chiqilgan Kvinlan va Hunt's Concept Learning System (CLS, 1966) da ildiz otgan^[6] ID3 daraxt induktorlari oilasi muhandislik va kompyuter fanlari jamoalarida ishlab chiqilgan.

ID3 '(1986)^[7] Shlimmer va Fisher tomonidan taklif qilingan. Bu ID3-ni qo'shimcha ravishda oshirish uchun qo'pol usul edi; har bir yangi ma'lumotlar nusxasi olinganidan so'ng, ID3 yordamida butunlay yangi daraxt paydo bo'ladi.
ID4 (1986)^[7] ma'lumotlarni bosqichma-bosqich o'z ichiga olishi mumkin. Biroq, ba'zi bir tushunchalarni o'rganish mumkin emas edi, chunki ID4 tugun uchun yangi test tanlanganida subtreesni tashlaydi.
ID5 (1988)^[8] subtreesni tashlamadi, shuningdek, ID3 bilan bir xil daraxt hosil bo'lishiga kafolat bermadi.
ID5R (1989)^[9] ma'lumotlar bazasi uchun ID3 bilan bir xil daraxtni qo'shimcha ta'lim tartibidan qat'i nazar chiqaring. Bunga daraxt subnodlarini rekursiv ravishda yangilash orqali erishildi. Raqamli o'zgaruvchilar bilan ishlamagan, ko'p sinfli tasnif vazifalar yoki etishmayotgan qiymatlar.
ID6MDL (2007)^[10] ID3 yoki ID5R algoritmlarining kengaytirilgan versiyasi.
ITI (1997)^[11] qaror daraxtlarini bosqichma-bosqich rag'batlantirish uchun samarali usuldir. Ma'lumotlar to'plami uchun xuddi shu daraxt, ma'lumotlarning taqdimot tartibidan qat'iy nazar, yoki daraxt bosqichma-bosqich yoki induksion bo'lmagan holda ishlab chiqariladi (ommaviy rejim). Unda raqamli o'zgaruvchilar, ko'p sinfli vazifalar va etishmayotgan qiymatlar joylashishi mumkin. Kod Internetda mavjud. [1]

eslatma: ID6NB (2009)^[12] bosqichma-bosqich emas.

Boshqa qo'shimcha ta'lim tizimlari

Bir nechta bor edi ortib boruvchi qaror daraxtlarini barpo qilmagan, ammo qaror qabul qilish daraxtlarini o'rganuvchilarning rivojlanishiga ta'sir ko'rsatadigan va ilgari rivojlangan ID tushunchalarini o'rganish tizimlari.^[7] Shlimmer va Grangerning STAGGER (1986),^[13] disjunktiv tushunchalarni bosqichma-bosqich o'rgangan. STAGGER vaqt o'tishi bilan o'zgargan tushunchalarni tekshirish uchun ishlab chiqilgan (tushunchaning o'zgarishi ). STAGGERdan oldin, Mixalski va Larson (1978)^[14] AQning o'sib boruvchi variantini o'rganib chiqdi (Michalski, 1973),^[15] tushunchalarni o'rganish uchun boshqariladigan tizim disjunktiv normal shakl (DNF). Daraxtlar asosida tuzilgan nazoratsiz o'rganishni o'z ichiga olgan ushbu oldingi tizimlar va boshqalar bilan ishlash tajribasi, qaror qabul qilish daraxtini o'rganuvchilarni aniq baholash uchun kontseptual asosga va odatda qo'shimcha xarajatlarni o'rganish darajasi va sifat o'rtasidagi o'zaro bog'liqlikni aks ettiruvchi to'rtta o'lchov bo'yicha konsepsiyani o'rganishga yordam berdi:^[7] (1) bilimlar bazasini yangilash narxi, (2) berilgan xususiyatlarga ega bo'lgan bilimlar bazasiga yaqinlashish uchun zarur bo'lgan kuzatuvlar soni, (3) tizim sarflaydigan umumiy kuch (dastlabki ikki o'lchovning funktsiyasi sifatida), va yakuniy bilimlar bazasining (4) sifati (ko'pincha izchilligi). Qarorlar daraxtini o'rganuvchilar paydo bo'lgan ba'zi tarixiy kontekstlar Fisher va Shlimmer (1988) da keltirilgan,^[16] va bu shuningdek baholash va loyihalash uchun foydalanilgan to'rt omil doirasini kengaytiradi bosqichma-bosqich o'rganish tizimlar.

VFDT algoritmi

Juda tez qaror qabul qiladigan daraxtlar o'quvchisi kelayotgan ma'lumotlar oqimining pastki namunalarini qo'shish orqali ko'p sonli ma'lumotlar to'plamlari uchun mashg'ulot vaqtini qisqartiradi.

VFDT (2000)^[17]
CVFDT (2001)^[18] moslasha oladi tushunchaning o'zgarishi, kiruvchi ma'lumotlarda slayd oynasini ishlatish. Deraza tashqarisidagi eski ma'lumotlar unutiladi.
VFDTc (2006)^[19] VFDT-ni uzluksiz ma'lumotlar, kontseptsiya drifti va barglarda Naive Bayes klassifikatorlarini qo'llash uchun kengaytiradi.
VFML (2003) - bu veb-saytda mavjud bo'lgan asboblar to'plami. [2]. U VFDT va CVFDT yaratuvchilari tomonidan ishlab chiqilgan.

EFDT algoritmi

Daraxtni juda tez o'rganadigan o'quvchi^[20] statistik jihatdan VFDT ga qaraganda kuchliroq bo'lib, unga kamroq ma'lumotlardan batafsil daraxtlarni o'rganishga imkon beradi. VFDT dan daraxtga yangi shoxchani qachon kiritishni hal qilish usuli bilan farq qiladi. VFDT mavjud bo'lgan eng yaxshi filial har qanday alternativadan yaxshiroq ekanligiga amin bo'lguncha kutadi. Aksincha, EFDT mavjud bo'lgan eng yaxshi filial hozirgi alternativadan yaxshiroq ekanligiga ishonch hosil qilishi bilan bo'linadi. Dastlab, hozirgi alternativ filial emas. Bu EFDT-ga VFDT-ga qaraganda shoshilinch ravishda tezroq kiritish imkonini beradi. Qo'shimcha o'rganish paytida bu EFDT VFDT ga qaraganda ancha tezroq foydali daraxtlarni joylashtirishi mumkinligini anglatadi.

Shu bilan birga, yangi filialni tanlash usuli suboptimal filialni tanlash ehtimolini sezilarli darajada oshiradi. Natijada, EFDT barcha filiallarning ish faoliyatini kuzatib boradi va yaxshi alternativa borligiga amin bo'lgan zahoti filialni almashtiradi.

OLIN va IFN

OLIN (2002)^[21]
IOLIN (2008)^[22] - Info-Fuzzy Network (IFN) asosida^[23]

Shuningdek qarang

Adabiyotlar

^ Breiman, L., Fridman, J. H., Olshen, R. A. va Stone, C. J. (1984) Tasniflash va regressiya daraxtlari. Belmont, Kaliforniya: Wadsworth International Group.
^ Morgan, J. N va Sondquist, J. A. (1963) So'rov ma'lumotlarini tahlil qilishdagi muammolar va taklif. J. Amer. Statist. Dots., 58, 415-434.
^ Krouford, S. L. (1989) CART algoritmiga kengaytmalar. Xalqaro mashina tadqiqotlari jurnali. 31, 197-217.
^ Quinlan, J. R. (1986) Qaror daraxtlarini kiritish. Mashinada o'qitish 1 (1), 81-106.
^ Quinlan, J. R. (1993) C4.5: Mashinada o'qitish dasturlari. San-Mateo, Kaliforniya: Morgan Kaufmann.
^ Hunt, E. B., Marin, J., & Stone, P. J. (1966) Induksiyadagi tajribalar. Nyu-York: Academic Press.
^ ^a ^b ^v ^d Schlimmer, J. C., & Fisher, D. (1986) Qo'shimcha kontseptsiya induktsiyasini o'rganish. Sun'iy intellekt bo'yicha beshinchi milliy konferentsiya materiallari (496-501 betlar). Filadelfiya, Pensilvaniya: Morgan Kaufmann.
^ Utgoff, P. (1988) ID5: Qo'shimcha ID3. Mashinasozlik bo'yicha beshinchi xalqaro konferentsiya, 107-120 betlar. Morgan KaufmannPublishers.
^ Utgoff, P. E. (1989) Qaror daraxtlarini ko'paytirish induksiyasi. Mashinada o'qitish 4, 161-186.
^ Kroon, M., Korzec, S., Adriani, P. (2007) ID6MDL: Kesishdan keyingi o'sish qarorlari daraxtlari.
^ Utgoff, P. E., Berkman, N. C., & Clouse, J. A. (1997) Daraxtlarni samarali qayta qurish asosida qaror daraxtini induksiya qilish. Mashinada o'qitish 29, 5-44.
^ Appavu, S., va Rajaram, R. (2009) ID6NB algoritmidan foydalangan holda matnni tasniflash uchun bilimga asoslangan tizim. Bilimga asoslangan tizimlar 22 1-7.
^ Schlimmer, JC, & Granger, R. H., Jr. (1986). Shovqinli ma'lumotlardan qo'shimcha o'rganish. Mashinada o'qitish 1, 317-354.
^ Michalski, R. S., & Larson, J. B. (1978). Ko'pgina vakillik mashg'ulotlari misollarini tanlash va VL gipotezalarini bosqichma-bosqich yaratish: asos metodologiyasi va ESEL va AQ11 dasturlarining tavsifi. (Texnika vakili № UIUCDCS-R-78-867). Urbana: Illinoys universiteti, kompyuter fanlari bo'limi.
^ Michalski, R. S. (1973). VL1 o'zgaruvchan mantiqiy tizimidan foydalangan holda tasniflash qoidalarini kashf etish. Sun'iy intellekt bo'yicha uchinchi xalqaro qo'shma konferentsiya materiallari (162-172-betlar). Stenford, Kaliforniya: Morgan Kaufmann.
^ Fisher, D. va Shlimmer, J. Qo'shimcha kontseptsiyani o'rganish modellari: qo'shma tadqiqot taklifi. Vanderbilt universiteti CS-88-05 texnik hisoboti (1988), olingan http://www.vuse.vanderbilt.edu/~dfisher/tech-reports/tr-88-05/proposal.html
^ Domingos, P., Xulten, G. (2000) Ma'lumotlarning yuqori tezlikdagi oqimlarini qazib olish. Ish yuritish KDD2000, ACM Press, Nyu-York, Nyu-York, AQSh, 71-80 betlar.
^ Xulten, G., Spenser, L., Domingos, P. (2001) Vaqtni o'zgartiradigan ma'lumotlar oqimlarini qazib olish. Ishlar KDD 2001, ACM Press, Nyu-York, NY, 97-106 betlar.
^ Gama, J., Fernandes, R., & Rocha, R. (2006) Ma'lumotlarni oqimlarini qazib olish uchun qaror daraxtlari. Intellektual ma'lumotlarni tahlil qilish 10 23-45.
^ Manapragada, C., Uebb, G. I., Salehi, M. (2018) Juda tez qaror qiladigan daraxt. Ishlar KDD2018, ACM Press, Nyu-York, Nyu-York, AQSh, 1953-1962 betlar.
^ Oxirgi, M. (2002) Statsionar ma'lumotlar oqimlarining onlayn tasnifi, Intell. Ma'lumotlar analitikasi. 6 (2) 129–147.
^ Cohen, L., Avrahami, G., Oxirgi, M., Kandel, A. (2008) Ma'lumotlarning dinamik oqimlarini qazib olish uchun noaniq algoritmlar. Amaliy yumshoq hisoblash. 8 1283-1294.
^ Maimon, O., Last, M. (2000) info-fuzzynetwork (IFN) metodologiyasi. Ma'lumotlarni kashf qilish va ma'lumotlarni qazib olish. Boston: Kluwer Academic Publishers

Tashqi havolalar

ITI kodi. http://www-lrn.cs.umass.edu/iti/index.html
VFML kodi. http://www.cs.washington.edu/dm/vfml/

[1] Breiman, L., Fridman, J. H., Olshen, R. A. va Stone, C. J. (1984) Tasniflash va regressiya daraxtlari. Belmont, Kaliforniya: Wadsworth International Group.

[2] Morgan, J. N va Sondquist, J. A. (1963) So'rov ma'lumotlarini tahlil qilishdagi muammolar va taklif. J. Amer. Statist. Dots., 58, 415-434.

[3] Krouford, S. L. (1989) CART algoritmiga kengaytmalar. Xalqaro mashina tadqiqotlari jurnali. 31, 197-217.

[4] Quinlan, J. R. (1986) Qaror daraxtlarini kiritish. Mashinada o'qitish 1 (1), 81-106.

[5] Quinlan, J. R. (1993) C4.5: Mashinada o'qitish dasturlari. San-Mateo, Kaliforniya: Morgan Kaufmann.

[6] Hunt, E. B., Marin, J., & Stone, P. J. (1966) Induksiyadagi tajribalar. Nyu-York: Academic Press.

[Schlimmer,_J._C._1986_pp._496-501-7] v ^d Schlimmer, J. C., & Fisher, D. (1986) Qo'shimcha kontseptsiya induktsiyasini o'rganish. Sun'iy intellekt bo'yicha beshinchi milliy konferentsiya materiallari (496-501 betlar). Filadelfiya, Pensilvaniya: Morgan Kaufmann.

[8] Utgoff, P. (1988) ID5: Qo'shimcha ID3. Mashinasozlik bo'yicha beshinchi xalqaro konferentsiya, 107-120 betlar. Morgan KaufmannPublishers.

[9] Utgoff, P. E. (1989) Qaror daraxtlarini ko'paytirish induksiyasi. Mashinada o'qitish 4, 161-186.

[10] Kroon, M., Korzec, S., Adriani, P. (2007) ID6MDL: Kesishdan keyingi o'sish qarorlari daraxtlari.

[11] Utgoff, P. E., Berkman, N. C., & Clouse, J. A. (1997) Daraxtlarni samarali qayta qurish asosida qaror daraxtini induksiya qilish. Mashinada o'qitish 29, 5-44.

[12] Appavu, S., va Rajaram, R. (2009) ID6NB algoritmidan foydalangan holda matnni tasniflash uchun bilimga asoslangan tizim. Bilimga asoslangan tizimlar 22 1-7.

[13] Schlimmer, JC, & Granger, R. H., Jr. (1986). Shovqinli ma'lumotlardan qo'shimcha o'rganish. Mashinada o'qitish 1, 317-354.

[MichalskiLarson78-14] Michalski, R. S., & Larson, J. B. (1978). Ko'pgina vakillik mashg'ulotlari misollarini tanlash va VL gipotezalarini bosqichma-bosqich yaratish: asos metodologiyasi va ESEL va AQ11 dasturlarining tavsifi. (Texnika vakili № UIUCDCS-R-78-867). Urbana: Illinoys universiteti, kompyuter fanlari bo'limi.

[Michalski,_1973-15] Michalski, R. S. (1973). VL1 o'zgaruvchan mantiqiy tizimidan foydalangan holda tasniflash qoidalarini kashf etish. Sun'iy intellekt bo'yicha uchinchi xalqaro qo'shma konferentsiya materiallari (162-172-betlar). Stenford, Kaliforniya: Morgan Kaufmann.

[FisherSchlimmer88a-16] Fisher, D. va Shlimmer, J. Qo'shimcha kontseptsiyani o'rganish modellari: qo'shma tadqiqot taklifi. Vanderbilt universiteti CS-88-05 texnik hisoboti (1988), olingan http://www.vuse.vanderbilt.edu/~dfisher/tech-reports/tr-88-05/proposal.html

[17] Domingos, P., Xulten, G. (2000) Ma'lumotlarning yuqori tezlikdagi oqimlarini qazib olish. Ish yuritish KDD2000, ACM Press, Nyu-York, Nyu-York, AQSh, 71-80 betlar.

[18] Xulten, G., Spenser, L., Domingos, P. (2001) Vaqtni o'zgartiradigan ma'lumotlar oqimlarini qazib olish. Ishlar KDD 2001, ACM Press, Nyu-York, NY, 97-106 betlar.

[19] Gama, J., Fernandes, R., & Rocha, R. (2006) Ma'lumotlarni oqimlarini qazib olish uchun qaror daraxtlari. Intellektual ma'lumotlarni tahlil qilish 10 23-45.

[20] Manapragada, C., Uebb, G. I., Salehi, M. (2018) Juda tez qaror qiladigan daraxt. Ishlar KDD2018, ACM Press, Nyu-York, Nyu-York, AQSh, 1953-1962 betlar.

[21] Oxirgi, M. (2002) Statsionar ma'lumotlar oqimlarining onlayn tasnifi, Intell. Ma'lumotlar analitikasi. 6 (2) 129–147.

[22] Cohen, L., Avrahami, G., Oxirgi, M., Kandel, A. (2008) Ma'lumotlarning dinamik oqimlarini qazib olish uchun noaniq algoritmlar. Amaliy yumshoq hisoblash. 8 1283-1294.

[23] Maimon, O., Last, M. (2000) info-fuzzynetwork (IFN) metodologiyasi. Ma'lumotlarni kashf qilish va ma'lumotlarni qazib olish. Boston: Kluwer Academic Publishers

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]