সাপোর্ট ভেক্টর মেশিন
Last updated
Was this helpful?
Last updated
Was this helpful?
সাপোর্ট ভেক্টর মেশিন অ্যালগরিদমটি ক্লাসিফিকেশন এবং রিগ্রেশন উভয় ধরনের সমস্যার ক্ষেত্রেই ব্যবহার করা যায়। তবে অপেক্ষাকৃত জটিল ধরনের ছোট বা মাঝারি ক্লাসিফিকেশন ডেটাসেটের জন্য এসভিএম বেশ জনপ্রিয়। এই অ্যালগরিদমে ডেটা পয়েন্টকে একটি হাইপারপ্লেইন এর মাধ্যমে আলাদা করা হয়, এক্ষেত্রে হাইপারপ্লেইনটি কেমন হবে সেটা কার্নেল এর মাধ্যমে নির্ধারণ করা হয়।
সাপোর্ট ভেক্টর মেশিন এর বিভিন্ন উপাদান
সাপোর্ট ভেক্টরস- ডেটাসেটের বিভিন্ন ক্লাসের প্রান্ত দেশে থাকা ডেটা পয়েন্ট গুলো যা ক্লাসগুলোর মধ্যে পার্থক্য গড়ে দেয়, এমন ডেটাই হচ্ছে সাপোর্ট ভেক্টরস।
হাইপারপ্লেইন- হাইপারপ্লেইন হচ্ছে একটি সিদ্ধান্ত মূলক রেখা বা লাইন যা একাধিক শ্রেনির ডেটার ভেতরে পার্থক্য নির্ধারণ করে।
মার্জিন- মার্জিন হচ্ছে একাধিক শ্রেনির ডেটার ভেতরের দূরত্ব । মার্জিন নির্ধারণ করা হয় সাপোর্ট ভেক্টরের মধ্যকার দূরত্বের মাধ্যমে। দুইটি ক্লাসের ভেতরের মার্জিন যত বেশী হবে তাকে তত বেশী ভালো মার্জিন বলা হবে।
সাপোর্ট ভেক্টর মেশিন এর বিভিন্ন ধরনের কার্নেল
সাধারন স্কাটার প্লটে আমরা যদি একাধিক ভ্যারিয়েবলকে প্লট করি অনেক ক্ষেত্রেই সেই প্লটের মাধ্যমে দুই বা ততধিক ডেটা ক্লাসকে আলাদা করা যায় না। সাপোর্ট ভেক্টর মেশিন এর কার্নেল হচ্ছে একটি বিশেষ ধরনের কৌশল যা লোয়ার ডাইমেনশনাল ডেটা কে হাইয়ার ডাইমেনশনাল স্পেসে কনভার্ট করতে পারে এবং এর ফলে ক্লাসগুলোর মধ্যকার পার্থক্য স্পস্ট হয়।
লিনিয়ার কার্নেল- লিনিয়ার কার্নেল হচ্ছে একটি লিনিয়ার লাইন বা সরলরেখা যার মাধ্যমে ডেটাপয়েন্টকে আলাদা করা হয়।
পলিনমিয়াল কার্নেল - পলিনমিয়াল লাইন হচ্ছে নন-লিনিয়ার লাইন বা বক্ররেখা। অনেক ক্ষেত্রেই লিনিয়ার লাইনের মাধ্যমে ডেটাপয়েন্ট আলাদা করা যায় না এসব ক্ষেত্রে পলিনমিয়াল কার্নেল ব্যবহার করতে হয়।
রেডিয়াল বেসিস ফাংশন কার্নেল- রেডিয়াল বেসিস ফাংশনও একধরনের নন-লিনিয়ার ফাংশন। এই ফাংশনটিই সাপোর্ট ভেক্টর মেশিন এর সবথেকে জনপ্রিয় ফাংশন। এই কার্নেল কোন ইনপুটকে ইনফাইনাইট ডাইমেনশনাল স্পেসে ম্যাপ করতে পারে।
লিনিয়ার প্রবলেমের ক্ষেতে সাপোর্ট ভেক্টর মেশিন যেভাবে কাজ করে
প্রথমে একাধিক হাইপারপ্লেইন জেনারেট করা হয় , নিচের প্রথম ছবিতে ( বাম পাশে ) আমরা দেখতে পাচ্ছি ক্লাসিফিকেশনের জন্য তিনটি হাইপারপ্লেইন জেনারেট করা হয়েছে। এরপর প্রতিটি হাইপারপ্লেইনের ক্লাসিফিকেশন এরর ক্যালকুলেট করা হয়, দেখা হয় কোন হাইপারপ্লেইনের জন্য এরর সবথেকে কম এবং সেই হাইপারপ্লেইনটিকেই ক্লাসিফিকেশনের জন্য বাছাই করা হয়।
নন-লিনিয়ার প্রবলেমের ক্ষেতে সাপোর্ট ভেক্টর মেশিন যেভাবে কাজ করে
অনেক ডেটাসেটকেই ক্লাসিফিকেশনের জন্য লিনিয়ারলি সেপারেট করার মত অবস্থায় পাওয়া যাবে না , সেক্ষেত্রে নন-লিনিয়ার কার্নেল ডেটাকে হাইয়ার ডাইমেশনে ট্রান্সফরমেশন করে নেয় ফলে এটি ক্লাসিফিকেশনের উপযোগী হয়ে উঠে।
সাপোর্ট ভেক্টর মেশিন এর কিছু বৈশিষ্ট্য
হাই ডাইমেনশনাল স্পেসের জন্য সাপোর্ট ভেক্টর মেশিন অত্যন্ত কার্যকরী।
এই অ্যালগরিদমটি তুলনামূলক কম মেমোরি ব্যবহার করে।
অনেক বড় ডেটাসেটের জন্য সাপোর্ট ভেক্টর মেশিন তেমন কার্যকরী নয়।
ডেটাসেটে ওভারল্যাপিং ক্লাস এবং নয়েজ থাকলে মডেল সহজেই প্রভাবিত হয়।
প্রথমেই লাইব্রেরী ইমপোর্ট এবং ডেটাসেট লোড করে নিচ্ছি,
আমাদের জানামতে এই ডেটাসেটে কিছু নাল ভ্যালু রয়েছে, আসলেই সেটা আছে কিনা তা আমরা নিচের কোডের মাধ্যমে সহজেই জেনে নিতে পারি।
True
এবার আমরা চাই নাল ভ্যালুগুলোকে দেখে নিতে,
আমরা এখন নাল ভ্যালু থাকা রো সমূহকে মুছে ফেলবো,
ডেটাসেটে জেন্ডার ভ্যারিয়েবলটি ক্যাটেগরিক্যাল , এটিকে ম্যাপ ফাংশন ব্যবহার করে প্রসেস করে নেব,
এবার ফিচার এবং টার্গেট ভ্যারিয়েরবল সেট করে নিচ্ছি,
এবার টেস্ট এর জন্য ২০% ডেটা রেখে বাকি ডেটা দিয়ে মডেল ট্রেইন করবো।
এবার অ্যাকুরেসি চেকের পালা,
অন্যান্য কার্নেলের ব্যবহার
লিনিয়ার কার্নেল - svm.SVC(kernel='linear')
পলিনমিয়াল কার্নেল - svm.SVC(C=2.0, kernel='poly', degree=3)