ডেটার বিস্তার

“The richest person is not the one who has the most, but the one who needs the least.”― Arab proverb
রেঞ্জ - রেঞ্জ হচ্ছে ডেটার ম্যাক্সিমাম এবং মিনিমাম ভ্যালুর বিয়োগফল। নিচের ছবির ডেটাগুলোর ভেতরে ম্যাক্সিমাম ভ্যালু হচ্ছে ১৭ এবং মিনিমাম ভ্যালু হচ্ছে ১১ এবং এদের মধ্যকার পার্থক্য বা বিয়োগফল হচ্ছে ৬ , এটিই হচ্ছে রেঞ্জ বা বিস্তার। এর মাধ্যমে বোঝা যায় ডেটা কতখানি বৃস্তিত।
ছবি - রেঞ্জ
পার্সেন্টাইল- কোন ডেটাকে ১০০ টি ভাগে ভাগ করলে প্রতিটি ভাগকে এক একটি পার্সেন্টাইল বলে। পার্সেন্টাইলের মাধ্যমে কোন ভ্যালুর অবস্থান সম্পর্কে ধারনা পাওয়া যায়।ধরুন কিছু SAT শিক্ষার্থীর পরীক্ষার স্কোরের ডেটার পার্সেন্টাইল করলে ৭৫ তম পার্সেন্টাইল স্কোর পাওয়া গেলো ১৪০০, অর্থাৎ এর থেকে আমরা বুঝতে পারি ৭৫ তম পার্সেন্টাইলের নিচে যারা আছে তাদের স্কোর ১৪০০ এর সমান বা কম আবার ৭৫ তম পার্সেন্টাইলের উপরে যারা আছে তাদের স্কোর ১৪০০ এর বেশী।
ছবি - পার্সেন্টাইল ( সম্পাদিত )
কোয়ার্টাইলস এবং আইকিউআর- কোয়ার্টাইলসের মাধ্যমে ডেটাকে ৪ টি ভাগে ভাগ করা হয় । প্রতিটি ভাগে ২৫% ডেটা থাকে। এর ভেতর দ্বিতীয় কোয়ার্টাইলস এ ৫০% ডেটা থাকে এবং প্রথম ও শেষ কোয়ার্টাইলস এ ২৫% করে ডেটা থাকে।
ছবি - আই কিউ আর ( সুত্র- ইন্টারনেট )
৩য় কোয়ার্টাইল এবং ১ম কোয়ার্টাইল এর বিয়োগফলকে বলা হয় ইন্টার কোয়ার্টাইলস রেঞ্জ বা আই কিউ আর।
কোন ডেটার বক্স প্লট করা হলে ডেটার ম্যাক্সিমাম ও মিনিমাম ভ্যালু, আউটলায়ার, আইকিউআর ইত্যাদি ভিজুয়ালাইজ করা যায়।
ছবি - বক্স প্লট (সূত্র- ইন্টারনেট)
ভ্যারিয়্যান্স- ভ্যারিয়্যান্স হচ্ছে কোন ডেটা সেটের ডেটাগুলো তাদের গড় মান থেকে কতখানি দূরে অবস্থিত তার পরিমাপ। রেঞ্জ দ্বারা বোঝা যায় ডেটার বিস্তার কতখানি, কিন্তু এটি কেবল ম্যাক্সিমাম এবং মিনিমাম ভ্যালুর বিয়োগফল। তাই রেঞ্জ দ্বারা সমগ্র ডেটার চিত্র পাওয়া যায় না। ডেটাগুলো তাদের গড় মানের কতখানি দূরে বা কাছে অবস্থিত সেটা ভ্যারিয়্যান্স এর মাধ্যমে পরিমাপ করা হয়। ভ্যারিয়্যান্স এর মান যদি বেশী হয় তাহলে ডেটাগুলো তাদের গড় মান থেকে দূরে অবস্থিত , ভ্যারিয়্যান্স এর মান কম মানে গড় মানের কাছাকাছি অবস্থিত।
পপুলেশন এবং স্যাম্পল ডেটার ক্ষেত্রে ভ্যারিয়্যান্স নির্ণয়ের গানিতিক সমীকরন,
ছবি- ভ্যারিয়্যান্স নির্ণয়ের সমীকরন (সূত্র - ইন্টারনেট)
মনে করি বিভিন্ন প্রজাতির ৫ টি কুকুরের উচ্চতা যথাক্রমে 60 cm, 47 cm , 17 cm, 43 cm এবং 30 cm , সুতরাং কুকুরগুলোর গড় উচ্চতা হচ্ছে 39.4 cm
ছবি - ভ্যারিয়্যান্স ( সূত্র- ইন্টারনেট )
বিভিন্ন প্রজাতির কুকুরের উচ্চতার পপুলেশন ভ্যারিয়্যান্স নির্ণয়,
সুতরাং আমরা বুঝতে পারছি কুকুরগুলোর উচ্চতা তাদের গড় মান থেকে ২১৭.০৪ সেন্টিমিটার ভ্যারি বা পার্থক্য করতে পারে। ভ্যারিয়্যান্স এর মান ভিন্ন ভিন্ন ক্ষেত্রে আলাদা আলাদা হতে পারে , কুকুরগুলোর উচ্চতা যদি "ফুট" স্কেলে পরিমাপ করা হত সেক্ষেত্রে ভ্যারিয়্যান্স অনেক কম হত। তাই অনেক সময় ভ্যারিয়্যান্স থেকে সিদ্ধান্ত নেয়া কষ্টকর হয়ে যায়, এজন্য আমারা স্ট্যান্ডার্ড ডেভিয়েশন নামক আরেকটি পদ্ধতি ব্যাবহার করে থাকি।
স্ট্যান্ডার্ড ডেভিয়েশন- ভ্যারিয়্যান্স এর মানকে রুট করলে স্ট্যান্ডার্ড ডেভিয়েশন পাওয়া যায়।
স্ট্যান্ডার্ড ডেভিয়েশন থেকে কি বুঝবো ?
আমারা একটু আগে দেখতে পেয়েছি ৫ টি ভিন্ন প্রজাতির কুকুরের গড় উচ্চতা 39.4 cm এবং এদের স্ট্যান্ডার্ড ডেভিয়েশন 14.73 cm । অর্থাৎ কুকুরগুলোর উচ্চতা 39.4 cm +- 14.73 cm অথবা (24.67 mm অথবা 54.13 cm ) এর ভেতরে থাকবে।
কোন ডেটার স্ট্যান্ডার্ড ডেভিয়েশন যদি কম হয় তাহলে বেশিরভাগ মানই কেন্দ্রের কাছাকাছি থাকে অর্থাৎ ভ্যারিয়েশন কম থাকে। আবার স্ট্যান্ডার্ড ডেভিয়েশন বেশী মানে ডেটায় ভ্যারিয়েশন বেশী।
ধরুন উপরের কম স্ট্যান্ডার্ড ডেভিয়েশনের কার্ভটি হচ্ছে ব্যাটসম্যান "ক" এর রানের ডিস্ট্রিবিউশন এবং বেশী স্ট্যান্ডার্ড ডেভিয়েশনের কার্ভটি হচ্ছে ব্যাটসম্যান "খ" এর রানের ডিস্ট্রিবিউশন। এখান থেকে স্পষ্টতই বোঝা যায় "ক" ব্যাটসম্যান বেশী নির্ভরযোগ্য, বেশীর ভাগ ম্যাচেই সে কাছাকাছি রান করেছে। অপরদিকে "খ" অনেকটা আনপ্রিডিক্টেবল তার রানের ভ্যারিয়েশন অনেক বেশী, কোন ম্যাচে সে অনেক রান করেছে আবার কোন ম্যাচে একেবারেই কম রান করেছে।