কে-মিনস ক্লাস্টারিং
সাদৃশ্যতার উপর ভিত্তি করে ডেটার ভেতরে কোন গ্রুপ আছে কিনা সেটা খুঁজে বের করা হয় কে-মিনস ক্লাস্টারিং এর মাধ্যমে। এটি একটি আনসুপারভাইজড লার্নিং। আমরা অনেক সময় ক্লাস্টারিং এবং ক্লাসিফিকেশন এর বিষয়ে কনফিউজড হয়ে যাই, তবে এই বিষয় দুইটি সম্পূর্ণ আলাদা এবং প্রয়োগ ক্ষেত্রও আলাদা।
ক্লাসিফিকেশন - ক্লাসিফিকেশন হচ্ছে সুপারভাইজড লার্নিং। ক্লাসিফিকেশনে লেবেল ডেটার মাধ্যমে মেশিনকে ট্রেইনিং দেয়া হয়। এরপর একটি অজানা ডেটা ইনপুট দিয়ে সেটি কোন ক্লাসের তা প্রেডিক্ট করা হয়। উদাহরন হিসেবে আইরিস ডেটাসেটের কথা বলা যেতে পারে। বিভিন্ন আইরিস ফুলের বৃত্তাংশ ও পাপড়ির পরিমাপ মেশিনকে ইনপুট দেয়া হয় একই সাথে বলে দেয়া হয় ফুলটি কোন প্রজাতির ছিল। এরপর একটি অজানা ফুলের বৃত্তাংশ ও পাপড়ির পরিমাপ ইনপুট দিলে মডেল অনুমান করতে পারে নতুন ফুলটি কোন প্রজাতির।
ক্লাস্টারিং- ক্লাস্টারিং হচ্ছে আনসুপারভাইজড লার্নিং। এই পদ্ধতিতে মেশিনকে কোন লেবেল ডেটা দিয়ে ট্রেইনিং দেয়া হয় না, বরং মেশিন নিজ থেকেই আবিস্কার করে ডেটাগুলোর সাদৃশ্যতার উপর ভিত্তি করে এদের ভেতর কয়টি গ্রুপ রয়েছে।
কে-মিনস ক্লাস্টারিং যেভাবে করা হয়
প্রথমে একটি র্যান্ডমলি কে-এর মান নির্ধারণ করা হয় । ক্লাস্টার এর সংখ্যা কয়টি হবে সেটি কে দ্বারা প্রকাশ করা হয়।
প্রতিটি ক্লাস্টারের জন্য আলাদা আলাদা সেন্ট্রয়েড ভ্যালু অ্যাসাইন করা হয় । সেন্ট্রয়েড গুলোর সাথে ডেটা পয়েন্টের দূরত্ব কত সেটাও বের করা হয়।
সেন্ট্রয়েডগুলোর পজিশন পরিবর্তন করে ডেটাপয়েন্টে গুলোর সাথে ডিসট্যান্স পুনরায় গননা করা হয় এবং দেখা হয় এরফলে এভারেজ ডিসট্যান্স কমেছে কিনা ?
এভাবে উপরের ধাপগুলো বার বার করা হয় যতক্ষন না প্রতিটি ক্লাস্টারের সেন্ট্রয়েড তার ডেটা পয়েন্টের সাথে মিনিমাম ডিসট্যান্স এ না আসে।
ডিস্ট্যান্স নির্ণয়
কে-মিনস ক্লাস্টারিং-এ যেকোনো ডেটা পয়েন্টের পরস্পরের দূরত্ব নির্ণয়ের জন্য আমরা ইউক্লিডিয়ান ডিস্ট্যান্স ব্যবহার করে থাকি। নিচের উদাহরনের দিকে লক্ষ্য করলে দেখবেন দুইজন কাস্টমারের ডেটার দূরত্ব নির্ণয় করা হয়েছে। ইউক্লিডিয়ান ডিস্ট্যান্স-এ ভ্যারিয়েবলের সংখ্যা বাড়তে থাকলে আমরা কেবল বিয়োগে ভ্যারিয়েবলের সংখ্যা বাড়াতে থাকি।
কে মিনস ক্লাস্টারিং এর কিছু বৈশিষ্ট্য
ইমপ্লিমেন্ট করা তুলনামূলক সহজ এবং প্রাপ্ত ফলাফল ইন্টারপ্রেট করাও সহজ।
অপেক্ষাকৃত দ্রুত কাজ করে।
প্রাথমিক ভাবে সঠিক কে-এর মান নির্ণয় কষ্টকর , যদিও এলবো মেথড প্রয়োগ করে তা নির্ণয় করা সম্ভব।
নয়েজ এবং আউটলায়ার থাকলে মডেল প্রভাবিত হয়।
বাস্তব প্রয়োগ ক্ষেত্র
একাডেমিক পারফরম্যান্স ভিত্তিক ক্লাস্টার তৈরিতে
মার্কেটিং ,সেলস এবং কাস্টমার সেগমেন্টেশন তৈরিতে
ডকুমেন্টস ক্লাস্টার তৈরিতে
সার্চ ইঞ্জিন
টেলিকমিউনিকেশন ইন্ডাস্ট্রিতে
হেলথকেয়ার গবেষণায়
বয়স এবং আয়ের ক্লাস্টারিং
কে-মিনস ক্লাস্টারিং এর জন্য আমরা যে ডেটাসেট টি ব্যবহার করবো সেটি কিছু ব্যাক্তির বয়স এবং ইনকাম এর ডেটাসেট। আমাদের কাজ হবে বিভিন্ন মানুষদের বয়স এবং আয়ের উপর ভিত্তি করে তাদেরকে আলাদা আলাদা গ্রুপে ভাগ করা।
ডেটাসেটের বিবরন,
Name- ব্যাক্তির নাম
Age- ব্যাক্তির বয়স
Income- ব্যাক্তির আয়
কে-মিনস ক্লাস্টারিং এর জন্য আমরা প্রয়োজনীয় লাইব্রেরী ইমপোর্ট এবং ডেটাসেট লোড করে নেব,
আমাদের ডেটাসেটটি দেখতে অনেকটা এরকম,
এ পর্যায়ে আমরা Name কলামটি মুছে ফেলবো এবং dfp নামক আরেকটি ডেটাফ্রেমে তৈরি করবো।ক্যাটেগরিক্যাল ভ্যালুকে স্কেলাইজড করা যায় না এজন্যই ডেটা স্কেলাইজড করার আগে আমরা Name কলামটি মুছে ফেলবো।
কে-মিনস ক্লাস্টারিং এর জন্য আমাদের ডেটাসেট কে স্কেলাইজড করতে হবে। এজন্য আমরা বিভিন্ন পদ্ধতী অবলম্বন করতে পারি। তবে এখানে আমরা ম্যাক্স-মিন স্কেলার ব্যবহার করবো।
স্কেলাইজড হবার পরে আমাদের ডেটাসেটের ভ্যালুসমূহ ম্যাক্স-মিন স্কেলে পরিবর্তিত হয়ে যাবে।
কে-মিনস ক্লাস্টারিং-এ কে এর মান কত হবে বা ক্লাস্টারের সংখ্যা কয়টি হবে সেটা অনুমান করা বেশ কঠিন, তবে এলবো মেথডের মাধ্যমে আমরা সহজেই তা বের করতে পারি। এলবো মেথডে কে এর মান বের করার জন্য নিচের কোডটুক রান করতে হবে।
নিচের ছবির দিকে লক্ষ্য করলে দেখা যাবে কে এর মান যখন ১ থেকে ২ এ নেমেছে তখন সাম অব স্কয়ারড ডিস্ট্যান্স ৫ থেকে ২-এ নেমে এসেছে। এর পর ২ থেকে ৩ এ নামার পর এই মান ২ থেকে প্রায় ০.৫ এ নেমে এসেছে।এরপর থেকে কে এর মান কমালেও সাম অব স্কয়ারড ডিস্ট্যান্স এর মান উল্লেখযোগ্য পরিমান কমে না, অর্থাৎ ব্যাবধান খুবই কম। সুতরাং আমরা কে এর মান ৩ কে অপটিমাল ভ্যালু হিসাবে ধরে নেব।
এবার ক্লাস্টারিং অ্যালগরিদম এর মাধ্যমে আমাদের ডেটাসেটকে ৩ টি ক্লাস্টারে ভাগ করবো ( যেহেতু কে এর মার ৩ পাওয়া গেছে)
আমরা চাইলে ডেটাসেটের সবগুলো রো এর সাথে ক্লাস্টার নাম্বার বসিয়ে ডেটাসেটটি দেখে নিতে পারি।
এবার আমরা প্রতিটি ক্লাস্টারের গড় ভ্যালু দেখবো। এর মাধ্যমে আমরা সহজেই বুঝতে পারবো কোন ক্লাস্টারের ডেটার বৈশিষ্ট্য কেমন । আমরা এখানে দেখতে পাচ্ছি প্রথম ক্লাস্টারের ব্যাক্তিদের গড় বয়স ২৮.৩৩ বছর এবং গড় আয় ৫৮৬১১.১১ ডলার। দ্বিতীয় ক্লাস্টারের ব্যাক্তিদের গড় বয়স ৩৮.২৮ বছর এবং গড় আয় ১৫০০০০ ডলার। তৃতীয় ক্লাস্টারের ব্যাক্তিদের গড় বয়স ৪০.৫ বছর এবং গড় আয় ৬৮৬৬৬.৬৬ ডলার
আমরা চাইলে কোন ক্লাস্টারে কয়টি ডেটা আছে সেটা দেখে নিতে পারি।
ক্লাস্টারগুলোকে স্কাটার প্লটের মাধ্যমে ভিজুয়ালাইজ করলে আমরা আলাদা আলাদা তিনটি ডেটা গ্রুপকে দেখতে পাবো।
Last updated