অ্যাসোসিয়েশন রুলসঃ অ্যাপ্রিওরি অ্যালগরিদম
Last updated
Last updated
অ্যাসোসিয়েশন রুলস কি ?
অ্যাসোসিয়েশন রুলস হচ্ছে ডেটার ভেতর থেকে অদেখা ইনসাইটস বের করার চমৎকার একটি পদ্ধতি। অ্যাসোসিয়েশন রুলস বোঝানোর জন্য আমরা মূলত অ্যাপ্রিওরি অ্যালগরিদম নিয়েই আলোচনা করবো। অ্যাসোসিয়েশন রুলস শব্দটি থেকেই বোঝা যায় এর মানে হচ্ছে সম্পর্কের নিয়ম। ধরুন আপনি পুরান ঢাকায় গিয়েছেন কাচ্চি বিরিয়ানি খেতে। বিরিয়ানি খাওয়া শেষ হলে নিশ্চয়ই বোরহানি অর্ডার করবেন, সাধারনত বেশিরভাগ ক্ষেত্রে আমরা বিরিয়ানির সাথে বোরহানিও খেয়ে থাকি। সুতরাং বিরিয়ানির সাথে বোরহানির এই সম্পর্কটাই হচ্ছে অ্যাসোসিয়েশন রুলস। অ্যাসোসিয়েশন রুলসকে অনেকে " ব্রেড এন্ড বাটার " রুলস বলে থাকে, সাধারনত ব্রেড কিনলে তার সাথে বাটারও কিনতে হয় , বাটার দিয়ে ব্রেড খাওয়ার জন্য ( এই উদাহরনটি বাইরের দেশে বেশী প্রযোজ্য ) । অ্যাসোসিয়েশন রুলস এর মাধ্যমে যেটা করা হয় সেটা হচ্ছে মার্কেট বাস্কেট এনালাইসিস। বিভিন্ন পণ্যের ভেতরে একটির সাথে আরেকটির বিক্রি হবার সম্পর্কের প্রবাবিলিটি নির্ণয় করা হয়। তবে শুধু সুপারশপের পণ্য নয় বর্তমানে ই-কমার্সেও এরকমটি দেখতে পাবেন। ইউটিউবে একটি ভিডিও দেখলে সাথে সাথে ডজন খানেক ভিডিওর সাজেশন চলে আসে । আপনি হয়তো ইন্টারনেটে কিছু একটা সার্চ করেছিলেন অথবা অনলাইনে কোন একটা প্রডাক্ট দেখেছিলেন কোন ওয়েবসাইটে, তাহলে আপনার আর রক্ষা নেই, ফেসবুকে ঢুকলেই দেখবেন রিলেটেড ডজন ডজন প্রডাক্টের এড এসে হাজির আপনার সামনে। এরকম সবকিছুই করা হয় অ্যাসোসিয়েশন রুলস এর মাধ্যমে। অ্যাসোসিয়েশন রুলস ব্যবহার করে তৈরি করা হয় রিকমান্ডেশন ইঞ্জিন, যা আমাদের সামনে হাজির করে রিলেটেড শত শত বিষয় । আর আমাদের মনে হয় কম্পিউটার যেন আমাদের মনের কথা জানে !
এখন প্রশ্ন হচ্ছে এই অ্যাসোসিয়েশন রুলস কি কাজে লাগে ? ধরুন আপনার বিরাট এক সুপারশপ রয়েছে, সেলফে সেলফে সাজানো শত শত পণ্য। একজন কাস্টমার এসেছে আপনার সুপারশপে টুথপেস্ট কিনতে। তিনি টুথপেস্ট যে সেলফে সাজানো আছে সেখান থেকে টুথপেস্ট কিনলেন। তিনি মনে মনে ভালো কোন টুথব্রাশও খুজছিলেন , কিন্তু আপনার দোকানে টুথব্রাশ ছিল দূরের অন্য কোন সেলফে রাখা । আপনার কাস্টমারের আশেপাশে কোন টুথব্রাশ চোখে না পরায় তিনি শুধু টুথপেস্ট কিনেই বাড়ি ফিরে গেলেন। আপনি যদি অ্যাসোসিয়েশন রুলসকে কাজে লাগিয়ে জানতেন টুথপেস্টের সাথে টুথব্রাশের বেচা-বিক্রি হবার সম্পর্ক আছে তাহলে এই দুটি প্রডাক্টকে পাশাপাশি রাখতে পারতেন, ফলে একটি বিক্রি হলে আরেকটি বিক্রি হবারও সম্ভাবনা বেড়ে যেত। এচাড়াও আপনি টুথপেস্ট কেনার সাথে টুথব্রাশ কিনলে তার জন্য কোন বিশেষ কোন অফার বা ডিসকাউন্ট দিতে পারতেন, তাহলেও আপনার সেলস বেড়ে যেত। এটাই হচ্ছে অ্যাসোসিয়েশন রুলসের বাস্তব উদাহরন।
ভিনদেশী সুপারশপের গল্প
অ্যাসোসিয়েশন রুলস নিয়ে একটি চমৎকার বিদেশী গল্প প্রচলিত রয়েছে। এক ব্যক্তি হঠাৎ একদিন তার টিন এইজ মেয়ের মেইল বক্সে ' প্রেগন্যান্সি প্রডাক্টের অফার' নিয়ে একটি ইমেইল দেখলেন। তিনি ভাবলেন আমার টিন এইজ মেয়ের কাছে এই ইমেইল কেন ! যেই সুপারশপের পক্ষ থেকে মেইলটি এসেছিল তিনি ছুটে গিয়ে তার ম্যানেজারকে রীতিমত বকাঝকা শুরু করলেন। আমার মেয়ে তো মাত্র টিন এইজ তার কাছে প্রেগন্যান্ট মহিলাদের পণ্যের অফার নিয়ে মেইল যাবে কেন? গোবেচারা ম্যানেজার তখন কাচুমাচু হয়ে বললেন " স্যার এটা কম্পিউটার জেনেরেটেড মেইল তো, সফটওয়্যার নিজ থেকেই পাঠায়, আমরা ইচ্ছে করে পাঠাইনি , হয়তো ভুলে চলে গেছে, আমরা আন্তরিক ভাবে দুঃখিত"।
ম্যানেজারের কথায় বাড়িতে ফিরে এলেন লোকটি। কিছুদিন পরের ঘটনা। টিন এইজ মেয়ের বাবা হঠাৎ একদিন জানতে পেলেন তার মেয়ে প্রেগন্যান্ট ! ভদ্রলোকের মাথায় হাত ! পরে একদিন ছুটে গিয়ে ক্ষমা চেয়ে আসলেন সুপারশপের ম্যানেজারের কাছে। কম্পিউটার কিভাবে জানলো তার মেয়ে প্রেগন্যান্ট ছিল ? এটাই হচ্ছে বিহেভিয়ার প্যাটার্ন এনালাইসিস। অনেকেই প্রেগন্যান্সির আর্লি পিরিয়ডে নির্দিষ্ট কিছু প্রডাক্ট কিনে থাকে বা অনুসন্ধান করে থাকে। টিন এইজ মেয়েটিও এমনটি করেছিল, সেই থেকেই কম্পিউটার তাকে সম্ভাব্য প্রেগন্যান্ট হিসাবে ধরে নিয়েছি, আর একারনেই তার মেইলে এসেছিল প্রেগন্যান্সি প্রডাক্টের অফার !
এই গল্পটিই হচ্ছে অ্যাসোসিয়েশন রুলস এর বাস্তব উদাহরন। আপনার-আমার বিহেভিয়ার এনালিসিস করে আমাদের পছন্দ-অপছন্দ অনেক কিছুই আজকাল কম্পিউটারের কাছে অজানা নয়, বরং আমাদের সম্পর্কে কোন কোন ক্ষেত্রে আমাদের থেকেও ভালো জানে কম্পিউটার।
অ্যাসোসিয়েশন রুলস কিভাবে কাজ করে ?
অ্যাসোসিয়েশন রুলসকে বলা হয় IF-THEN বা যদি-তাহলে রুলস অর্থাৎ একটি প্রোডাক্ট কিনলে অন্য একটি প্রোডাক্ট কেনার সম্ভাবনা কত ? ধরুন ব্রেড বিক্রির সাথে বাটার বিক্রির অ্যাসোসিয়েশন রুলস জানতে চাচ্ছেন, সেক্ষেত্রে ব্রেড হচ্ছে Antecedent বা IF আর বাটার হচ্ছে Consequent বা THEN।
অ্যাসোসিয়েশন রুলসকে আমরা ব্যখ্যা করবো একটি গ্রোসারি শপের ডেটাসেটের মাধ্যমে। ধরুন গ্রোসারি শপের ছয়টি ট্রানজেকশনের ডেটা নিচে দেয়া রয়েছে। এই ডেটাসেট থেকে আমরা দেখতে পাচ্ছি কোন ট্রানজেকশনে কি কি পণ্য বিক্রি হয়েছিল সেই ডেটা দেয়া রয়েছে।
অ্যাসোসিয়েশন রুলস বের করার জন্য প্রথমেই আমাদের ডেটাসেটটিকে নিচের মত ফরম্যাটে নিয়ে আসতে হবে। আমরা দেখতে পাচ্ছি এখানে প্রতিটি প্রোডাক্টকে আলাদা আলাদা কলামে কনভার্ট করা হয়েছে এবং কোন ট্রানজেকশনে যেসকল প্রোডাক্ট বিক্রি হয়েছিল সেসব জায়গায় 1 দেয়া রয়েছে অন্যথায় 0 দেয়া রয়েছে।
অ্যাসোসিয়েশন রুলস এর বিভিন্ন উপাদান
Support - Support হচ্ছে প্রোডাক্ট গুলোর জনপ্রিয়তার পরিমাপ। কোন প্রোডাক্ট কত বার বিক্রি হয়েছে সেই সংখ্যাকে মোট ট্রানজেকশন বা বিক্রির পরিমান দ্বারা ভাগ করলে যা পাওয়া যাবে সেটাই হচ্ছে Support । এই মান যত বেশী হবে বুঝতে হবে সেই পণ্যটি তত বেশী বিক্রি হয় বা ততো বেশী জনপ্রিয়। আমাদের ডেটাসেটের প্রোডাক্টগুলোর Support বের করলে তার মানগুলো নিচের টেবিলের মত হবে। আমরা চাইলে একসাথে দুই বা ততোধিক প্রোডাক্টেরও বের করতে Support পারি।
Confidence - কোন ক্রেতা একটি প্রোডাক্ট কিনলে আরেকটি নির্দিষ্ট প্রোডাক্টও কিনবে তার সম্ভাবনা নির্ণয় করা হয় Confidence এর মাধ্যমে। একাধিক প্রোডাক্টের ক্ষেত্রেও Confidence নির্ণয় করা যায়। ধরুন আমরা জানতে চাচ্ছি ক্যান্ডি এবং চিপস কেউ যদি কেনে তাহলে সে বাটারও কিনবে তার সম্ভাবনা কেমন ? নিচের উদাহরণের মাধ্যমে আমরা তা নির্ণয় করেছি, এক্ষেত্রে আমাদের ডেটাসেট অনুযায়ী ক্যান্ডি এবং চিপস কেউ যদি কেনে তাহলে সে বাটারও কিনবে তার সম্ভাবনা ১ ।
Lift - Lift এর মাধ্যমে রিলেশনশিপ কতখানি শক্তিশালী সেটা বোঝা যায়। Lift অনেকটা কোরিলেশনের মত কাজ করে।
Lift =1 মানে কোন কোরিলেশন নেই
Lift > 1 মানে পজিটিভ কোরিলেশন রয়েছে
Lift < 1 মানে নেগেটিভ কোরিলেশন রয়েছে
Lift এর মান 1 এর যত বেশী হবে বুঝতে হবে রিলেশনশিপ তত বেশী শক্তিশালী। ক্যান্ডি এবং চিপস কেনার সাথে বাটার কেনার রিলেশনশিপ কতখানি শক্তিশালী সেটা আমরা Lift এর মাধ্যমে নিচে নির্ণয় করেছি,
Conviction - Conviction এর মান যত বেশী হবে অ্যাসোসিয়েশন রুলসটি বাস্তবায়নের সম্ভাবনা তত বেশী হবে। Conviction এর পারফেক্ট ভ্যালু হচ্ছে ইনফিনিটি।
অ্যাপ্রিওরি অ্যালগরিদমের কিছু বৈশিষ্ট্য
প্রাপ্ত ফলাফলকে ইন্টারপ্রেট করা অত্যন্ত সহজ।
বড় ডেটাসেটেও ব্যবহার করা যায়।
অপেক্ষাকৃত ধীর গতির।
Walmart এর অ্যাসোসিয়েশন রুলস
অ্যাসোসিয়েশন রুলস বের করার জন্য আমরা Walmart এর একটি ডেটাসেট ব্যবহার করবো। এই ডেটাসেটে বিভিন্ন দেশের Walmart চেইন শপের ট্রানজেকশন ডেটা রয়েছে। প্রথমেই আমরা ইউসিআই মেশিন লার্নিং রিপোজেটরি থেকে ডেটাসেট লোড করে নেব এবং প্রয়োজনীয় লাইব্রেরী ইমপোর্ট করে নেব।
আমরা দেখতে পাচ্ছি আমাদের ডেটাসেটে ইনভয়েস নাম্বার অনুযায়ী কোন ক্রেতা কি কি পণ্য কিনেছে সেই ডেটা দেয়া রয়েছে।
এই ডেটাসেটে কতগুলো দেশের ডেটা রয়েছে আমরা চাইলে তা দেখে নিতে পারি,
এবার ডেটাসেটের Description কলামে অতিরিক্ত স্পেস বাদ দেয়া, InvoiceNo না থাকলে সেই ট্রানজেকশন গুলো বাদ দেয়া এবং যেসব ট্রানজেকশন ক্রেডিট হয়েছে সেই ট্রানজেকশন সমূহ বাদ দেয়ার মাধ্যমে আমরা ডেটাসেটটি ক্লিন করে নেব।
এবার ডেটাসেট থেকে আমরা শুধু ইতালির ডেটা আলাদা করে নেব, এখানে শুধু InvoiceNo, Description এবং Quantity এর অংশ থাকবে।
ইতালির জন্য আমাদের বাস্কেটটি দেখতে এরকম হবে,
এবার ইতালির বাস্কেটটি আরও খানিকটা প্রসেস করে নেব , এরফলে যেকল ট্রানজেকশনে কোন প্রোডাক্ট একাধিক বার বিক্রি হয়েছে সেখানে 1 দেয়া থাকবে অন্যথায় 0 থাকবে।
এবার সেই কাঙ্ক্ষিত অ্যাসোসিয়েশন রুলস তৈরির পালা। সাপোর্টের মিনিমাম মান ০.০৫ বা ৫% ধরে আমরা রুলস তৈরি করবো, আপনি চাইলে আপনার প্রয়োজন অনুযায়ী এই মান নির্ধারণ করতে পারেন। বড় ডেটাসেটের ক্ষেত্রে এই মান পণ্যের সংখ্যা এবং ট্রানজেকশন এর সংখ্যা বেশী হলে সাধারনত এমনিতেই কম হয়।
উপরের ছবিতে আমরা দেখতে পাচ্ছি আমাদের অ্যাসোসিয়েশন রুলস , অর্থাৎ কোন প্রোডাক্ট বিক্রির সাথে কোন প্রোডাক্ট বিক্রির সম্পর্ক কেমন সেটাই এখানে বিস্তারিত ভাবে রয়েছে।
আমরা চাইলে এই রুলসকে আরও ফিল্টার করে নিতে পারি।
Transaction ID
Product
1
Candy, Chips, Bread, Butter
2
Candy, Bread, Butter
3
Bread, Butter
4
Chips
5
Candy, Chips, Bread, Butter
6
Candy, Chips, Butter
Transaction ID
Candy
Chips
Bread
Butter
1
1
1
1
1
2
1
0
1
1
3
0
0
1
1
4
0
1
0
0
5
1
1
1
1
6
1
1
0
1