কে-নিয়ারেস্ট নেইবোরস
Last updated
Last updated
কেএনএন এর পূর্ণ রূপ হোল কে-নিয়ারেস্ট নেইবোরস । এটি মূলত একধরনের ক্লাসিফিকেশন টাইপ অ্যালগোরিদম। নিচের ছবিটির দিকে লক্ষ্য করুন, মনেকরুন আপনার কাছে একটি ক্লাসিফিকেশন ডেটাসেট আছে। কেএনএন ক্লাসিফায়ারে আপনার ইনপুট দেয়া নতুন কোন ডেটা কোন ক্লাসে পরবে সেটা নির্ভর করবে তার আশেপাশের প্রতিবেশির সংখ্যার উপর। এই প্রতিবেশির সংখ্যাকে কে-দ্বারা প্রকাশ করা হয়।
ধরুন আপনার ইনপুট দেয়া ডেটা উপরের ছবির স্টার চিহ্ন দেয়া জায়গায় অবস্থান করছে। আপনার ডেটা তাহলে কোন ক্লাসে পড়বে ?
আপনি যদি কে-এর মান ৩ নির্ধারণ করেন (তিনটি প্রতিবেশী) তাহলে দেখা যায় আপনার দুইটি প্রবিবেশী ক্লাস বি এবং একটি প্রতিবেশী ক্লাস এ। যেহেতু অধিকাংশ প্রতিবেশী ক্লাস বি'র তাই আমরা কে এর মান ৩ এর ক্ষেত্রে আমাদের ডেটা ক্লাস বি'র বলে ধরে নেব।
আপনি যদি কে-এর মান ৬ নির্ধারণ করেন (ছয়টি প্রতিবেশী) তাহলে দেখা যায় আপনার দুইটি প্রবিবেশী ক্লাস বি'র এবং চারটি প্রতিবেশী ক্লাস এ'র। যেহেতু অধিকাংশ প্রতিবেশী ক্লাস এ'র তাই আমরা কে এর মান ৬ এর ক্ষেত্রে আমাদের ডেটা ক্লাস এ'র বলে ধরে নেব।
আমাদের ডেটাসেটের জন্য কে-এর মান কত হবে সেটা জানা বেশ কষ্টকর। এজন্য বিভিন্ন কে-এর মান দিয়ে মডেলের পারফরম্যান্স তূলনা করা হয়। তবে এছাড়া আরেকটি উপায়ও আছে, আমরা একটু পড়েই দেখবো কিভাবে অপ্টিম্যাল কে-এর মান বের করতে হয়।
কে নিয়ারেস্ট নেইবোরস এর কিছু বৈশিষ্ট্য
কেএনএন-কে খুব সহজেই ইমপ্লিমেন্ট করা যায়, এর মাত্র দুটি প্যারামিটার রয়েছে এগুলো হচ্ছে নাম্বার অব কে এবং ডিস্ট্যান্স। •
কেএনএন-কে বলা হয় লেইজি অ্যালগরিদম, এটি ট্রেইনিং এর সময় কিছুই লার্ন করে না বরং প্রিডিকশনের সময় লার্ন করে।
এটি তুলনামূলক ধীর গতি সম্পন্ন এবং ডেটাসেটের সাইজ বড় হলে কিংবা ডাইমেশন অনেক বেশী হলে এই অ্যালগরিদমটি খুব বেশী কার্যকর নয়।
ডেটাসেটে নয়েজি ডেটা বা আউটলায়ার থাকলে সহজেই প্রভাবিত হয়
ডেটাসেটকে স্কেলাইজড করার প্রয়োজন হয়।
কেএনএন এর প্রয়োগ দেখার জন্য আমরা একটি টেলিকম কোম্পানির কাস্টমার ডেটাসেট ব্যবহার করবো। ডেটাসেটটি আইবিএম বিগডেটা ইউনিভার্সিটি থেকে সংগ্রহ করা হয়েছে। এই ডেটাসেটা টেলিকম কোম্পানির কাস্টমার/ফোন ইউজারদের ঠিকানা, বয়স , বৈবাহিক অবস্থা, চাকরির বয়স, জেন্ডার, ইনকাম ইত্যাদির উপর ভিত্তি করে চারটি ক্লাসে ভাগ করা হয়েছে। ক্লাসগুলো হচ্ছে 1- Basic Service 2- E-Service 3- Plus Service এবং 4- Total Service। আপনার কাজ হবে নতুন কোন ব্যাক্তি এই কোম্পানির কাস্টমার হলে তিনি কোন ক্লাসের হবে সেটা প্রিডিক্ট করা ?
প্রথমেই আমরা প্রয়োজনীয় লাইব্রেরী ইমপোর্ট এবং ডেটাসেট লোড করে নিচ্ছি,
আমাদের ডেটাসেটটি দেখতে অনেকটা এরকম,
টার্গেট ভ্যারিয়েবল এবং ফিচার ভ্যারিয়েবলস সেট করে নেব,
এবার টেস্ট এর জন্য ২৫% ডেটা রেখে বাকি ডেটা দিয়ে মডেল ট্রেইন করবো,
আমারা আগেই বলেছিলাম কে-এর মান কত হবে সেটা বের করা কিছুটা জটিল। সাধারন ভাবে আমরা ভিন্ন ভিন্ন কে-এর মান দিয়ে ভিন্ন ভিন্ন মডেল বানাতে পারি এবং সবগুলো মডেলের পারফরম্যান্স তুলনা করে কে-এর অপ্টিম্যাল ভ্যালু বের করতে পারি। তবে এই পদ্ধতি বেশ জটিল এবং সময় সাপেক্ষ। এই জটিলতা পরিহার করার জন্য আমরা নিচের পদ্ধতি অবলম্বন করতে পারি। কোডের প্রথমেই আমরা একটি রেঞ্জ নির্ধারণ করে দেব অর্থাৎ আমাদের এই প্রোগ্রাম সর্বনিম্ন এবং সর্বোচ্চ কত সীমার ভেতরে কে-এর অপ্টিম্যাল ভ্যালু খুঁজে বের করবে তা এই রেঞ্জের উপর ভিত্তি করেই করবে।
নিচের যে ছবিটি দেখা যাচ্ছে সেখানে কে-এর বিভিন্ন মানের জন্য মডেলের অ্যাকুরেসি পাওয়া যাচ্ছে। কে-এর মান ৩ হলে অ্যাকুরেসি বাড়ে আবার ৪ এ এসে কমে যায়। এভাবে ভিন্ন ভিন্ন কে-এর মানের জন্য মডেলের অ্যাকুরেসি কখনো বাড়ে আবার কখনো কমে যায়। আমরা দেখতে পাচ্ছি কে-এর মান ৭ হলে অ্যাকুরেসি মোটামুটি ম্যাক্সিমাম হয়। সুতরাং আমরা এই ডেটাসেটের জন্য কে-এর মান ৭ নির্ধারণ করবো।
কে এর মান ৭ ধরে আমরা কে-নিয়ারেস্ট নেইবোরস মডেল তৈরি করছি,
আমাদের মডেল এখন তৈরি। এবার অ্যাকুরেসি চেক করার পালা।
আমরা দেখতে পাচ্ছি আমাদের মডেল ৩৫% নির্ভুল ভাবে প্রিডিক্ট করতে পারে। মডেল হিসাবে এই মান খুব একটা ভালো নয় !
চলুন নতুন কাস্টমার কোন ক্লাসের হবে সেটা প্রেডিক্ট করি ,
array([1])
আমরা দেখতে পেলাম আমাদের নতুন কাস্টমার 1 অর্থাৎ Basic Service ক্লাসের।