# ক্লাসিফিকেশন এন্ড রিগ্রেশন ট্রি

ক্লাসিফিকেশন এন্ড রিগ্রেশন ট্রি বা CART অ্যালগরিদমের মাধ্যমে ক্লাসিফিকেশন এবং রিগ্রেশন উভয় ধরনের প্রবলেমই সল্ভ করা যায়। সংক্ষেপে অনেকে এটিকে ডিসিশন ট্রি'ও বলে থাকেন। ডিসিশন ট্রি দেখতে অনেকটা গাছের শাখা-প্রশাখার মত, এজন্যই এর নামের সাথে ' ট্রি ' শব্দটি যুক্ত আছে। গাছের যেমন শুরু হয় শেকড় থেকে তেমনি ডিসিশন ট্রিও শুরু হয় **' রুট নোড '** থেকে। রুট নোড থেকে বিভিন্ন ডিসিশন কন্ডিশনের মাধ্যমে এই ট্রি'র শাখা প্রশাখা ছড়াতে থাকে , এধরনের নোডকে বলা হয় **ডিসিশন নোড**, এই নোড শেষমেশ গিয়ে চুড়ান্ত সিদ্ধান্ত প্রদান করে  এদেরকে বলা হয় **লিফ নোড**। &#x20;

![ছবি - ডিসিশন ট্রি ( সূত্র- ইন্টারনেট )](/files/-M9n3dr4_JinKSpnQNhY)

**ডিসিশন ট্রি'র বিভিন্ন প্যারামিটার**

* **স্প্লিটিং**- রুট নোড থেকে শুরু করে বিভিন্ন ভ্যারিয়েবলের উপর ভিত্তি করে ডেটাসেটকে ক্রমাগত বিভক্ত করে ডিসিশনের দিকে এগিয়ে যাওয়াকে স্প্লিটিং বলা হয়।&#x20;
* **এনট্রপি** - এনট্রপি হচ্ছে বিশৃঙ্খলতার পরিমান। ট্রি'কে স্প্লিট করা হলে প্রতিটি নোডে একই ধরনের / ক্লাসের ডেটার পরিমান হচ্ছে পিউরিটি।  একটি পিওর নোডে সকল ডেটা একই ক্লাসের হয়ে থাকে। পিওরিটি যত কম হবে এনট্রপি তত বাড়বে, অর্থাৎ একই নোডে বিভিন্ন ক্লাসের ডেটার পরিমান বাড়বে।  আবার এনট্রপি যত কম হবে পিওরিটি বেশী হবে।&#x20;
* **ইনফরমেশন গেইন-** পিওরিটির পরিমাপক হচ্ছে ইনফরমেশন গেইন। ইনফরমেশন গেইন যত বেশী হবে ট্রি ততো বেশী পিওর নোড তৈরি করতে পারবে।&#x20;
* **গিনি ইনডেক্স-**  গিনি হচ্ছে কোন নোডের সকল সদস্য যে একই ক্লাসের হবে তার প্রবাবিলিটির মান। এই মান ০ থেকে ১ এর ভেতরে হয়ে থাকে।গিনির মান ০ মানে ঐ নোডের সকল সদস্য একই ক্লাসের , আর গিনির মান ১ মানে ঐ নোডের সদস্যরা র‍্যান্ডমলি ডিস্ট্রিবিউটেড বা বিভিন্ন ক্লাসের অর্থাৎ এনট্রপি অনেক বেশী। গিনির মান যদি ০.৫ হয় তবে বুঝতে হবে দুই ক্লাসের সদস্যরা সমান ভাবে আছে (যদি ক্লাসের সংখ্যা ২ টি হয়)

![](/files/-M7rcgq6aPbmLlAfGD3j)

কোন ডেটাসেট থেকে ডিসিশন ট্রি তৈরি করার সময় বিভিন্ন ভাবে স্প্লিট করে দেখা হয় কোন পদ্ধতিতে স্প্লিটিং করলে পারফরম্যান্স সবথেকে ভালো আসে। নিচের ছবিতে আমরা দেখতে পাচ্ছি সেক্স ভ্যারিয়েবলের উপর ভিত্তি করে স্প্লিট করলে ইনফরমেশন গেইন কোলেস্টোরেল এর তুলনায় স্প্লিটিং তুলনায় বেশী আসে। সুতরাং ১ম লেভেলের ক্ষেত্রে আমরা সেক্সকেই স্প্লিটিং এর জন্য বেছে নেব এবং এভাবে আমাদের ট্রি আগাতে থাকবে যতক্ষন না পর্যন্ত লিফ নোড না পাওয়া যায়।&#x20;

![ছবি - ডিসিশন ট্রি স্প্লিটিং (সূত্র- ইন্টারনেট)](https://lh5.googleusercontent.com/4CsKZEkx2CY3TNySyHmHGJEKH83pTf8XiBHNlk4GJTxjvC6RzduOhHroFl1WCzzlriai5Ua3X3zFWy5zAlIYUU3_1vFav2bYtt80tnYqlhtk6hlL7055OyhsUSFerDENJ-DICfhaz3g)

**ডিসিশন ট্রি’র কিছু বৈশিষ্ট্য**&#x20;

* ডিসিশন ট্রি’কে খুব সহজেই ব্যাখ্যা করা যায়&#x20;
* ডিসিশন ট্রি’র জন্য ডেটাসেটকে স্কেলাইজড করার প্রয়োজন হয় না। •
* অনেক ক্ষেত্রে কন্টিনিউয়াস ভ্যালু প্রিডিকশনের ক্ষেত্রে ডিসিশন ট্রি খুব বেশী কার্যকরী নয়।&#x20;
* ডিসিশন ট্রি মডেল ট্রেইনিং এর ক্ষেত্রে তুলনামূলক বেশী সময় নেয়।

**রোগীর জন্য ঔষধ বাছাই**&#x20;

ক্লাসিফিকেশন এন্ড রিগ্রেশন ট্রি'র ব্যবহার দেখার জন্য আমরা ডিসিশন ট্রি'র মাধ্যমে একটি ক্লাসিফিকেশন প্রবলেমের সমাধান করবো। ধরুন আপনার কাছে একটি ডেটাসেট আছে যেখানে বিভিন্ন রোগীর বয়স, লিঙ্গ , রক্তচাপ, কোলেস্টোরেল এবং রক্তে সোডিয়াম-পটাশিয়ামের পরিমানের উপর ভিত্তি করে চিকিৎসক রোগীদের কি ঔষধ দেয় তার ডেটা রয়েছে। আপনার এখন এমন একটি মডেল বানাতে হবে যেটি নতুন রোগীর ক্ষেত্রে তার জন্য কোন ঔষধটি ভালো হবে সেটি অনুমান করতে পারবে।&#x20;

প্রথমেই  আমরা প্রয়োজনীয় লাইব্রেরী ইমপোর্ট  এবং ডেটাসেট লোড করে নিচ্ছি,&#x20;

```
import numpy as np 
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix,accuracy_score

url='https://raw.githubusercontent.com/FazlyRabbiBD/Data-Science-Book/master/data-drugs.csv'
df = pd.read_csv(url)
df.head()
```

আমাদের ডেটাসেটটি দেখতে অনেকটা এরকম,

![](/files/-M7rLikMSIKRyR-mYQyt)

এবার ডেটাসেটের ফিচার এট্রিবিউটসে যে ক্যাটেগরিক্যাল ভ্যারিয়েবল গুলো (Sex, BP, Cholesterol) ব্যবহার করবো তাদের ম্যাপ ফাংশন ব্যবহার করে ডামি ভ্যালু বসিয়ে দেব,&#x20;

```
d = {'HIGH': 2, 'LOW': 0, 'NORMAL': 1}
df['BP'] = df['BP'].map(d)

d = {'M': 1, 'F': 0}
df['Sex'] = df['Sex'].map(d)

d = {'HIGH': 1, 'NORMAL': 0}
df['Cholesterol'] = df['Cholesterol'].map(d)
```

ফিচার এবং টার্গেট ভ্যারিয়েবল সেট করে নেই,&#x20;

```
features = ['Age', 'Sex', 'BP', 'Cholesterol','Na_to_K']
x = df[features]
y = df['Drug']
```

ট্রেইনিং ডেটাসেট দিয়ে মডেলকে ট্রেইন করি,&#x20;

```
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=3)
drugTree = DecisionTreeClassifier()
drugTree.fit(x_train,y_train)
```

এবার চলুন ডিসিশন ট্রি ভিজুয়ালাইজ করি !&#x20;

```
import graphviz
dot_data = tree.export_graphviz(drugTree, out_file=None, feature_names=x.columns,class_names=df.Drug,filled=True, rounded=True, special_characters=True)
valgTre = graphviz.Source(dot_data) 
valgTre
```

![](/files/-M7rL9JxOP3OD66g8NnT)

এবার কনফিউশন ম্যাট্রিক্স এর মাধ্যমে আমাদের মডেলের অ্যাকুরেসি চেক করার পালা ,&#x20;

```
y_pred  = drugTree.predict(x_test)
print(classification_report(y_test, y_pred))
print('\nAccuracy: {0:.4f}'.format(accuracy_score(y_test, y_pred)))
predictions = drugTree.predict(x_test)
print('Confusion Matrix:\n',confusion_matrix(y_test, predictions))
```

![](/files/-M7rLMzNGpxQ2PLDbSDO)

মনে করুন যদু মিয়া নামের নতুন একজন রোগী যার বয়স ৩০ বছর , লিঙ্গ পুরুষ (১), রক্তচাপ স্বাভাবিক (১), কোলেস্টোরেল স্বাভাবিক ( ০) এবং সোডিয়াম-পটাশিয়াম এর পরিমান ১০ ইউনিট। এই রোগীর জন্য কোন ঔষধ প্রযোজ্য হবে ?&#x20;

```
new_observation = [[30,1,1,0,10]]
drugTree.predict(new_observation)
```

array(\['drugX'], dtype=object) মডেলের প্রেডিকশন অনুযায়ী তাকে drugX প্রেসক্রাইব করতে হবে।&#x20;

> ডিসিশন ট্রি'র মাধ্যমে রিগ্রেশন প্রবলেম সমাধান করার জন্য আমরা   `from sklearn.tree import DecisionTreeRegressor` jইমপোর্ট করবো এবং  `DecisionTreeRegressor()` এর মাধ্যমে মডেল তৈরি করবো। এই পদ্ধতিতে অ্যাকুরেসি নির্ণয়ের জন্য আমরা লিনিয়ার রিগ্রেশনে যে পদ্ধতি অবলম্বন করেছিলাম সেই একই পদ্ধতি অনুসরন করবো।&#x20;

![](/files/-M9cHSns2SFQ_CQSIckj)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://datasinsightsbd.gitbook.io/dsbook/supervised-ml/cart.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
