ক্লাসিফিকেশন এন্ড রিগ্রেশন ট্রি
Last updated
Last updated
ক্লাসিফিকেশন এন্ড রিগ্রেশন ট্রি বা CART অ্যালগরিদমের মাধ্যমে ক্লাসিফিকেশন এবং রিগ্রেশন উভয় ধরনের প্রবলেমই সল্ভ করা যায়। সংক্ষেপে অনেকে এটিকে ডিসিশন ট্রি'ও বলে থাকেন। ডিসিশন ট্রি দেখতে অনেকটা গাছের শাখা-প্রশাখার মত, এজন্যই এর নামের সাথে ' ট্রি ' শব্দটি যুক্ত আছে। গাছের যেমন শুরু হয় শেকড় থেকে তেমনি ডিসিশন ট্রিও শুরু হয় ' রুট নোড ' থেকে। রুট নোড থেকে বিভিন্ন ডিসিশন কন্ডিশনের মাধ্যমে এই ট্রি'র শাখা প্রশাখা ছড়াতে থাকে , এধরনের নোডকে বলা হয় ডিসিশন নোড, এই নোড শেষমেশ গিয়ে চুড়ান্ত সিদ্ধান্ত প্রদান করে এদেরকে বলা হয় লিফ নোড।
ডিসিশন ট্রি'র বিভিন্ন প্যারামিটার
স্প্লিটিং- রুট নোড থেকে শুরু করে বিভিন্ন ভ্যারিয়েবলের উপর ভিত্তি করে ডেটাসেটকে ক্রমাগত বিভক্ত করে ডিসিশনের দিকে এগিয়ে যাওয়াকে স্প্লিটিং বলা হয়।
এনট্রপি - এনট্রপি হচ্ছে বিশৃঙ্খলতার পরিমান। ট্রি'কে স্প্লিট করা হলে প্রতিটি নোডে একই ধরনের / ক্লাসের ডেটার পরিমান হচ্ছে পিউরিটি। একটি পিওর নোডে সকল ডেটা একই ক্লাসের হয়ে থাকে। পিওরিটি যত কম হবে এনট্রপি তত বাড়বে, অর্থাৎ একই নোডে বিভিন্ন ক্লাসের ডেটার পরিমান বাড়বে। আবার এনট্রপি যত কম হবে পিওরিটি বেশী হবে।
ইনফরমেশন গেইন- পিওরিটির পরিমাপক হচ্ছে ইনফরমেশন গেইন। ইনফরমেশন গেইন যত বেশী হবে ট্রি ততো বেশী পিওর নোড তৈরি করতে পারবে।
গিনি ইনডেক্স- গিনি হচ্ছে কোন নোডের সকল সদস্য যে একই ক্লাসের হবে তার প্রবাবিলিটির মান। এই মান ০ থেকে ১ এর ভেতরে হয়ে থাকে।গিনির মান ০ মানে ঐ নোডের সকল সদস্য একই ক্লাসের , আর গিনির মান ১ মানে ঐ নোডের সদস্যরা র্যান্ডমলি ডিস্ট্রিবিউটেড বা বিভিন্ন ক্লাসের অর্থাৎ এনট্রপি অনেক বেশী। গিনির মান যদি ০.৫ হয় তবে বুঝতে হবে দুই ক্লাসের সদস্যরা সমান ভাবে আছে (যদি ক্লাসের সংখ্যা ২ টি হয়)
কোন ডেটাসেট থেকে ডিসিশন ট্রি তৈরি করার সময় বিভিন্ন ভাবে স্প্লিট করে দেখা হয় কোন পদ্ধতিতে স্প্লিটিং করলে পারফরম্যান্স সবথেকে ভালো আসে। নিচের ছবিতে আমরা দেখতে পাচ্ছি সেক্স ভ্যারিয়েবলের উপর ভিত্তি করে স্প্লিট করলে ইনফরমেশন গেইন কোলেস্টোরেল এর তুলনায় স্প্লিটিং তুলনায় বেশী আসে। সুতরাং ১ম লেভেলের ক্ষেত্রে আমরা সেক্সকেই স্প্লিটিং এর জন্য বেছে নেব এবং এভাবে আমাদের ট্রি আগাতে থাকবে যতক্ষন না পর্যন্ত লিফ নোড না পাওয়া যায়।
ডিসিশন ট্রি’র কিছু বৈশিষ্ট্য
ডিসিশন ট্রি’কে খুব সহজেই ব্যাখ্যা করা যায়
ডিসিশন ট্রি’র জন্য ডেটাসেটকে স্কেলাইজড করার প্রয়োজন হয় না। •
অনেক ক্ষেত্রে কন্টিনিউয়াস ভ্যালু প্রিডিকশনের ক্ষেত্রে ডিসিশন ট্রি খুব বেশী কার্যকরী নয়।
ডিসিশন ট্রি মডেল ট্রেইনিং এর ক্ষেত্রে তুলনামূলক বেশী সময় নেয়।
রোগীর জন্য ঔষধ বাছাই
ক্লাসিফিকেশন এন্ড রিগ্রেশন ট্রি'র ব্যবহার দেখার জন্য আমরা ডিসিশন ট্রি'র মাধ্যমে একটি ক্লাসিফিকেশন প্রবলেমের সমাধান করবো। ধরুন আপনার কাছে একটি ডেটাসেট আছে যেখানে বিভিন্ন রোগীর বয়স, লিঙ্গ , রক্তচাপ, কোলেস্টোরেল এবং রক্তে সোডিয়াম-পটাশিয়ামের পরিমানের উপর ভিত্তি করে চিকিৎসক রোগীদের কি ঔষধ দেয় তার ডেটা রয়েছে। আপনার এখন এমন একটি মডেল বানাতে হবে যেটি নতুন রোগীর ক্ষেত্রে তার জন্য কোন ঔষধটি ভালো হবে সেটি অনুমান করতে পারবে।
প্রথমেই আমরা প্রয়োজনীয় লাইব্রেরী ইমপোর্ট এবং ডেটাসেট লোড করে নিচ্ছি,
আমাদের ডেটাসেটটি দেখতে অনেকটা এরকম,
এবার ডেটাসেটের ফিচার এট্রিবিউটসে যে ক্যাটেগরিক্যাল ভ্যারিয়েবল গুলো (Sex, BP, Cholesterol) ব্যবহার করবো তাদের ম্যাপ ফাংশন ব্যবহার করে ডামি ভ্যালু বসিয়ে দেব,
ফিচার এবং টার্গেট ভ্যারিয়েবল সেট করে নেই,
ট্রেইনিং ডেটাসেট দিয়ে মডেলকে ট্রেইন করি,
এবার চলুন ডিসিশন ট্রি ভিজুয়ালাইজ করি !
এবার কনফিউশন ম্যাট্রিক্স এর মাধ্যমে আমাদের মডেলের অ্যাকুরেসি চেক করার পালা ,
মনে করুন যদু মিয়া নামের নতুন একজন রোগী যার বয়স ৩০ বছর , লিঙ্গ পুরুষ (১), রক্তচাপ স্বাভাবিক (১), কোলেস্টোরেল স্বাভাবিক ( ০) এবং সোডিয়াম-পটাশিয়াম এর পরিমান ১০ ইউনিট। এই রোগীর জন্য কোন ঔষধ প্রযোজ্য হবে ?
array(['drugX'], dtype=object) মডেলের প্রেডিকশন অনুযায়ী তাকে drugX প্রেসক্রাইব করতে হবে।
ডিসিশন ট্রি'র মাধ্যমে রিগ্রেশন প্রবলেম সমাধান করার জন্য আমরা
from sklearn.tree import DecisionTreeRegressor
jইমপোর্ট করবো এবংDecisionTreeRegressor()
এর মাধ্যমে মডেল তৈরি করবো। এই পদ্ধতিতে অ্যাকুরেসি নির্ণয়ের জন্য আমরা লিনিয়ার রিগ্রেশনে যে পদ্ধতি অবলম্বন করেছিলাম সেই একই পদ্ধতি অনুসরন করবো।