গ্রাডিয়েন্ট বুস্টিং
গ্রাডিয়েন্ট বুস্টিং অ্যালগরিদমটিও সিকোয়েন্সিয়াল এনসেম্বল লার্নিং পদ্ধতি অনুসরন করে। এই পদ্ধতিতে লস অপটিমাইজেশনের মাধ্যমে ক্রমান্বয়ে উয়িক লার্নার গুলো তার আগের উয়িক লার্নারের তুলনায় ভালো হতে থাকে। উদাহরন হিসাবে বলা যেতে পারে ২য় উয়িক লার্নার ১ম টির চেয়ে ভালো হয়, আবার ৩য় উয়িক লার্নার ২য় টির চেয়ে ভালো হয়ে থাকে, এভাবে উয়িক লার্নারের পর্যায়ক্রম বৃদ্ধির সাথে সাথে মডেলে এররের পরিমান কমতে থাকে এবং মডেলটি শক্তিশালী লার্নারে পরিনত হয়। রিগ্রেশন ধরনের প্রবলেমের জন্য গ্রাডিয়েন্ট বুস্টিং অ্যালগরিদমটি অপেক্ষাকৃত ভালো কাজ করে থাকে।
অ্যাডা বুস্টিং-এর সাথে গ্রাডিয়েন্ট বুস্টিং এর পার্থক্য হোল, অ্যাডা বুস্টে ভুল প্রিডিক্ট হাওয়া স্যাম্পলে অধিক ওয়েট আপডেট করে উয়িক লার্নারকে ক্রমান্বয়ে এরর কমিয়ে আনা হয়, অপরদিকে গ্রাডিয়েন্ট বুস্টিং-এ লস ফাংশনকে অপটিমাইজ করা হয়্ এর ফলে প্রতিটি উয়িক লার্নারে ক্রমান্বয়ে লস ফাংশন কমতে থাকে এবং এররের পরিমাণও কমতে থাকে। এই লস ফাংশন অপটিমাইজ করার জন্য প্রতিটি উয়িক লার্নার তার পরিবর্তী উয়িক লার্নারের মডেলে কিছুটা পরিবর্তন আনে যাতে পরবর্তী উয়িক লার্নারটি আগেরটির চেয়ে ভালো হয়।
গ্রাডিয়েন্ট বুস্টিং তাই ৩ টি উপাদানের সমন্বয়ে গঠিত,
উয়িক লার্নার
লস ফাংশন অপটিমাইজেশন
অ্যাডেটিভ মডেল
গ্রাডিয়েন্ট বুস্টিং এর কিছু বৈশিষ্ট্য
লস ফাংশন অপটিমাইজেশন এবং হাইপার প্যারামিটার টিউনিং এর কারনে অ্যালগরিদমটি তুলনামূলক ফ্লাক্সিবল।
ডেটা স্কেলিং এর প্রয়োজন হয় না এবং মিসিং ভ্যালু হ্যান্ডেল করতে পারে।
আউটলায়ার থাকলে মডেল ওভারফিট করতে পারে।
তুলনমূলক ভাবে বেশী সময় নেয় / ধীর গতির এবং অধিক মেমরির প্রয়োজন হয়।
পাইথনে গ্রাডিয়েন্ট বুস্টিং
প্রথমেই লাইব্রেরী ইমপোর্ট এবং ডেটাসেট লোড করে নিচ্ছি,
আমরা গ্রাডিয়েন্ট বুস্টিং এর প্রয়োগ দেখার জন্য যে ডেটাসেটটি ব্যবহার করবো সেটি একটি অটোমোবাইল ডেটাসেট , এখানে বিভিন্ন গাড়ির বিভিন্ন উপাত্ত এবং তাদের কার্বন-ডাই-অক্সাইড নির্গমনের উপাত্ত দেয়া আছে। এই ডেটাসেটের ব্যবহার ইতোমধ্যে লিনিয়ার রিগ্রেশন অধ্যায়ে দেয়া হয়েছে। তাই এখানে ডেটাসেটের বর্ণনা পুনরায় করা হচ্ছে না।
এবার নিউম্যারিক্যাল ভ্যারিয়েবল সমূহকে আমরা ফিচার এবং টার্গেট ভ্যারিয়েবল হিসাবে সেট করে নেব,
এখন টেস্ট এর জন্য ৩০% ডেটা রেখে বাকি ডেটা দিয়ে মডেল ট্রেইন করবো,
আমরা আগেই আলোচনা করেছি, বিভিন্ন বুস্টিং অ্যালগোরিদম এর মাধ্যমে একই সাথে ক্লাসিফিকেশন এবং রিগ্রেশন উভয় ধরনের সমস্যার সমাধান করা যায়। এপর্যায়ে আমরা গ্রাডিয়েন্ট বুস্টিং এর মাধ্যমে রিগ্রেশন মডেল তৈরি করবো।
মডেল কতখানি নির্ভুল প্রেডিকশন করলো সেটাই সবথেকে গুরুত্বপূর্ণ। এবার অ্যাকুরেসি চেক করার পালা।
এই ডেটাসেটটি আমরা লিনিয়ার রিগ্রেশন অ্যালগরিদমে ব্যবহার করে প্রিডিকশনে ৮৮.৫৩% অ্যাকুরেসি পেয়েছিলাম। একই ডেটাসেটে আমরা গ্রাডিয়েন্ট বুস্টিং-এ অ্যাকুরেসি পেলাম ৯৩.৫০% অ্যাাকুরেসি। সুতরাং আমরা বুঝতে পাচ্ছি বুস্টিং অ্যালগোরিদম আসলেই পারফরম্যান্স বাড়ায় !
এবার ' ফিচার ইম্পরট্যান্স ' , এই ফাংশনের মাধ্যমে মডেলের জন্য কোন ফিচার ভ্যারিয়েবল গুলো বেশী গুরুত্বপূর্ণ সেটা জেনে নেয়া যাক ,
Last updated