ডেটার বিস্তার
“The richest person is not the one who has the most, but the one who needs the least.”― Arab proverb
Last updated
“The richest person is not the one who has the most, but the one who needs the least.”― Arab proverb
Last updated
রেঞ্জ - রেঞ্জ হচ্ছে ডেটার ম্যাক্সিমাম এবং মিনিমাম ভ্যালুর বিয়োগফল। নিচের ছবির ডেটাগুলোর ভেতরে ম্যাক্সিমাম ভ্যালু হচ্ছে ১৭ এবং মিনিমাম ভ্যালু হচ্ছে ১১ এবং এদের মধ্যকার পার্থক্য বা বিয়োগফল হচ্ছে ৬ , এটিই হচ্ছে রেঞ্জ বা বিস্তার। এর মাধ্যমে বোঝা যায় ডেটা কতখানি বৃস্তিত।
পার্সেন্টাইল- কোন ডেটাকে ১০০ টি ভাগে ভাগ করলে প্রতিটি ভাগকে এক একটি পার্সেন্টাইল বলে। পার্সেন্টাইলের মাধ্যমে কোন ভ্যালুর অবস্থান সম্পর্কে ধারনা পাওয়া যায়।ধরুন কিছু SAT শিক্ষার্থীর পরীক্ষার স্কোরের ডেটার পার্সেন্টাইল করলে ৭৫ তম পার্সেন্টাইল স্কোর পাওয়া গেলো ১৪০০, অর্থাৎ এর থেকে আমরা বুঝতে পারি ৭৫ তম পার্সেন্টাইলের নিচে যারা আছে তাদের স্কোর ১৪০০ এর সমান বা কম আবার ৭৫ তম পার্সেন্টাইলের উপরে যারা আছে তাদের স্কোর ১৪০০ এর বেশী।
কোয়ার্টাইলস এবং আইকিউআর- কোয়ার্টাইলসের মাধ্যমে ডেটাকে ৪ টি ভাগে ভাগ করা হয় । প্রতিটি ভাগে ২৫% ডেটা থাকে। এর ভেতর দ্বিতীয় কোয়ার্টাইলস এ ৫০% ডেটা থাকে এবং প্রথম ও শেষ কোয়ার্টাইলস এ ২৫% করে ডেটা থাকে।
৩য় কোয়ার্টাইল এবং ১ম কোয়ার্টাইল এর বিয়োগফলকে বলা হয় ইন্টার কোয়ার্টাইলস রেঞ্জ বা আই কিউ আর।
কোন ডেটার বক্স প্লট করা হলে ডেটার ম্যাক্সিমাম ও মিনিমাম ভ্যালু, আউটলায়ার, আইকিউআর ইত্যাদি ভিজুয়ালাইজ করা যায়।
ভ্যারিয়্যান্স- ভ্যারিয়্যান্স হচ্ছে কোন ডেটা সেটের ডেটাগুলো তাদের গড় মান থেকে কতখানি দূরে অবস্থিত তার পরিমাপ। রেঞ্জ দ্বারা বোঝা যায় ডেটার বিস্তার কতখানি, কিন্তু এটি কেবল ম্যাক্সিমাম এবং মিনিমাম ভ্যালুর বিয়োগফল। তাই রেঞ্জ দ্বারা সমগ্র ডেটার চিত্র পাওয়া যায় না। ডেটাগুলো তাদের গড় মানের কতখানি দূরে বা কাছে অবস্থিত সেটা ভ্যারিয়্যান্স এর মাধ্যমে পরিমাপ করা হয়। ভ্যারিয়্যান্স এর মান যদি বেশী হয় তাহলে ডেটাগুলো তাদের গড় মান থেকে দূরে অবস্থিত , ভ্যারিয়্যান্স এর মান কম মানে গড় মানের কাছাকাছি অবস্থিত।
পপুলেশন এবং স্যাম্পল ডেটার ক্ষেত্রে ভ্যারিয়্যান্স নির্ণয়ের গানিতিক সমীকরন,
মনে করি বিভিন্ন প্রজাতির ৫ টি কুকুরের উচ্চতা যথাক্রমে 60 cm, 47 cm , 17 cm, 43 cm এবং 30 cm , সুতরাং কুকুরগুলোর গড় উচ্চতা হচ্ছে 39.4 cm
বিভিন্ন প্রজাতির কুকুরের উচ্চতার পপুলেশন ভ্যারিয়্যান্স নির্ণয়,
সুতরাং আমরা বুঝতে পারছি কুকুরগুলোর উচ্চতা তাদের গড় মান থেকে ২১৭.০৪ সেন্টিমিটার ভ্যারি বা পার্থক্য করতে পারে। ভ্যারিয়্যান্স এর মান ভিন্ন ভিন্ন ক্ষেত্রে আলাদা আলাদা হতে পারে , কুকুরগুলোর উচ্চতা যদি "ফুট" স্কেলে পরিমাপ করা হত সেক্ষেত্রে ভ্যারিয়্যান্স অনেক কম হত। তাই অনেক সময় ভ্যারিয়্যান্স থেকে সিদ্ধান্ত নেয়া কষ্টকর হয়ে যায়, এজন্য আমারা স্ট্যান্ডার্ড ডেভিয়েশন নামক আরেকটি পদ্ধতি ব্যাবহার করে থাকি।
স্ট্যান্ডার্ড ডেভিয়েশন- ভ্যারিয়্যান্স এর মানকে রুট করলে স্ট্যান্ডার্ড ডেভিয়েশন পাওয়া যায়।
স্ট্যান্ডার্ড ডেভিয়েশন থেকে কি বুঝবো ?
আমারা একটু আগে দেখতে পেয়েছি ৫ টি ভিন্ন প্রজাতির কুকুরের গড় উচ্চতা 39.4 cm এবং এদের স্ট্যান্ডার্ড ডেভিয়েশন 14.73 cm । অর্থাৎ কুকুরগুলোর উচ্চতা 39.4 cm +- 14.73 cm অথবা (24.67 mm অথবা 54.13 cm ) এর ভেতরে থাকবে।
কোন ডেটার স্ট্যান্ডার্ড ডেভিয়েশন যদি কম হয় তাহলে বেশিরভাগ মানই কেন্দ্রের কাছাকাছি থাকে অর্থাৎ ভ্যারিয়েশন কম থাকে। আবার স্ট্যান্ডার্ড ডেভিয়েশন বেশী মানে ডেটায় ভ্যারিয়েশন বেশী।
ধরুন উপরের কম স্ট্যান্ডার্ড ডেভিয়েশনের কার্ভটি হচ্ছে ব্যাটসম্যান "ক" এর রানের ডিস্ট্রিবিউশন এবং বেশী স্ট্যান্ডার্ড ডেভিয়েশনের কার্ভটি হচ্ছে ব্যাটসম্যান "খ" এর রানের ডিস্ট্রিবিউশন। এখান থেকে স্পষ্টতই বোঝা যায় "ক" ব্যাটসম্যান বেশী নির্ভরযোগ্য, বেশীর ভাগ ম্যাচেই সে কাছাকাছি রান করেছে। অপরদিকে "খ" অনেকটা আনপ্রিডিক্টেবল তার রানের ভ্যারিয়েশন অনেক বেশী, কোন ম্যাচে সে অনেক রান করেছে আবার কোন ম্যাচে একেবারেই কম রান করেছে।