ডেটার সাথে পরিচয়

“Madness does not go to the mountains, it goes to people.”–Greek Proverb

ডেটা আসলে কি ? ডেটা শব্দটির সাথে পরিচিত নয় বর্তমান সময়ে এমন মানুষের সংখ্যা বোধহয় খুবই কম। আসলে দুনিয়াটা চলছেই ডেটার উপরে, যদিও ডেটা স্পর্শ করা যায় এমন কিছু নয়। ডেটা হচ্ছে ইনফরমেশন বা তথ্যের ক্ষুদ্র অংশ। একাধিক ডেটার সমন্বয়য়ে ইনফরমেশন তৈরি হয়। এই ধরুন এসএসসি পরীক্ষায় সারা বাংলাদেশে যত পরীক্ষার্থী অংশগ্রহণ করেছে , তারা কে কোন সাবজেক্টে কত নাম্বার পেল , এগুলো সবই ডেটা । কোটি কোটি ডেটা । এই অসংখ্য ডেটা থেকেই আমরা বের করি সারা দেশে পাশের হার কত, কোন বোর্ডে কত শতাংশ পাশ করলো। কোন স্কুল জিপিএ ৫ সবথেকে বেশী পেলো, এগুলি সবই ইনফরমেশন। অথছ ডেটা ছাড়া এই ইনফরমেশন পাওয়া সম্ভব নয়। অনেক ডেটার সমন্বয়ে গঠিত হয় ইনফরমেশন।

“Data are symbols that represent properties of objects, events and their environments. They are products of observation” - Ackoff, Russell L

ডেটা হচ্ছে ফ্যাক্ট বা ফিগার, পরিমাপের ক্ষুদ্র অংশ বিশেষ। ডেটা হচ্ছে অগোছালো কাঁচামাল, যা পক্রিয়াজাত করার পর ইনফরমেশন তৈরি হয়।ইংরেজিতে Data শব্দের প্রথম ব্যবহার হয় ১৬৪০ সালে। Data মূলত বহুবচন একটি ল্যাটিন শব্দ, যার একবচন হচ্ছে Datum.

ডেটা পক্রিয়াজাত না হলে আমরা বোধগম্য কিছুই পেতে পারি না। তাই সম্পর্কযুক্ত ডেটা থেকে ইনফরমেশন তৈরি হাওয়া জরুরি, অন্যথায় ডেটা অর্থহীন।

"The numbers have no way of speaking for themselves. We speak for them. We imbue them with meaning." —Statistician Nate Silver

ডেটার শেষমেশ চেহারা-ডেটাকে আমরা যেভাবেই পরিমাপ করি না কেন, কম্পিউটারে ডেটা শেষমেশ বাইনারি ফরম্যাটেই ডিজিটাল ডেটা হিসাবে সংরক্ষিত হয়।

ডেটার উৎস ডেটার উৎস হতে পারে অনেক। নির্দিষ্ট করে বলার উপায় নেই ডেটার উৎসের সংখ্যা কয়টি , কারন প্রতিনিয়ত প্রযুক্তির নতুন নতুন পরিবর্তনের সাথেও ডেটার উৎসের সংখাও বাড়ছে।

পৃথিবীর যেকোনো কিছুই হতে পারে ডেটার উৎস, যেকোনো কিছুই পর্যবেক্ষণ করা যাবে ডেটার মাধ্যমে। ডেটা উৎস হতে পারে আমাদের স্মার্টফোন থেকে জেনারেটেড বিভিন্ন ভ্যালু, আমাদের ফিন্যান্সিয়াল ট্রানজেকশন, প্রতিদিনের বিপুল পরিমান মেইল, ফেসবুক-টুইটারের লাইক,কমেন্ট, পোস্ট, ইউটিউবের ভিউ, টিভি-পত্রিকায় প্রকাশিত সংবাদ, হাজারো পিডিএফ ফাইল, অসংখ্য ছবি, সিসি টিভির ফুটেজ, প্লেনের ককপিট থেকে জেনারেটেড ফ্লাইট রেকর্ড, বৈজ্ঞানিক গবেষণা -অবজারভেশন, গুগোল ম্যাপ আর অসংখ্য জিপিএস লংগিচিউড-ল্যাটিচিউড, হাজার-হাজার ডিভাইসের সেন্সর জেনারেটেড ডেটা । ডেটা উৎসের কথা বলে তাই শেষ করা যাবে না, ধরে নিতে হবে দুনিয়ার যেকোনো কিছুই হতে পারে ডাটার উৎস।

DIKW পিরামিড

DIKW হোল Data, Information, Knowledge & Wisdom এর সংক্ষিপ্ত রূপ। ছোট-ছোট ডেটা কিভাবে সিদ্ধান্ত গ্রহনে ভূমিকা রাখতে পারে এই পিরামিডের মাধ্যমে সেটাই বোঝা যায়। ডেটা থেকে ইনফরমেশন, ইনফরমেশন থেকে জ্ঞান/নলেজ এবং নলেজ থেকে উইজডম বা প্রজ্ঞার যে সম্পর্ক সেটার ধারাবাহিকতাই মূলত DIKW পিরামিডের মাধ্যমে প্রকাশ পায়।

DIKW পিরামিডের বিষয়টিকে আরেকটু পরিস্কার ভাবে ব্যাখ্যা করা যায় নিচের উদাহরণটির মাধ্যমে। ধরা যাক কোন অবজারভেশন থেকে একটি ডাটা পাওয়া গেল, যার মান ‘১০০’। শুধু ১০০ দ্বারা কিছুই বোঝায় না। ১০০’র সাথে আরেকটি ডাটাকে সম্পর্কযুক্ত করা হোল , এবার ‘১০০ মাইল’ দ্বারা বোঝা যায় এটি দুটি স্থানের মধ্যবর্তী দূরত্ব। এটি হচ্ছে ইনফরমেশন। ১০০ মাইল কিন্তু কম দূরত্ব নয়, দুটি স্থানের দূরত্ব যদি ১০০ মাইল হয় তবে বুঝতে হবে স্থান দুটি বেশ দূরের। এটি হচ্ছে নলেজ না জ্ঞান। এত বড় দূরত্ব পায়ে হেটে যাওয়া প্রায় অসম্ভব বা অনেক কষ্টসাধ্য, কিন্তু গাড়ি বা অন্য কোন যানবাহনের মাধ্যমে এই দূরত্ব সহজেই পাড়ি দেওয়া সম্ভব। এই উপলব্ধিটি হচ্ছে উইজডম বা প্রজ্ঞা। প্রজ্ঞা থেকেই বিভিন্ন সিদ্ধান্ত গ্রহন সম্ভব।

ডাটা থেকে ধাপে ধাপে কিভাবে DIKW পিরামিডের মাধ্যমে অতীতের পর্যবেক্ষণ থেকে ভবিষ্যতের জন্য সিদ্ধান্ত নেয়া সেটা নিচের চিত্রের মাধ্যমে ব্যাখ্যা করা যায়।

ডেটার প্রকারভেদ ডেটার প্রকারভেদ বিভিন্ন নিয়ামকের ভিত্তিতে বিভিন্ন রকম হতে পারে। এই অধ্যায়ে ডেটা সাইন্স ও পরিসংখ্যান ভিত্তিক ডেটা এনালাইসিসের সাথে সম্পর্কিত বিষয়ের উপর ভিত্তি করে আমরা ডেটাকে বিভিন্ন শ্রেণীতে শ্রেণীবদ্ধ করব। ডেটার প্রকরন করার সাথে আরেকটি বিষয় চলে আসে সেটি হচ্ছে ভ্যারিয়েবল। ভ্যারিয়েবল মূলত ডেটাকে ধারন করে। উদাহরণ হিসাবে বালা যেতে পারে আপনি একটি ক্লাসের সকল শিক্ষার্থীদের ডেটাসেট তৈরি করবেন, সেখানে আপনি শিক্ষার্থীদের নাম , বয়স এবং উচ্চতার ডেটা রাখতে চাচ্ছেন। এক্ষেত্রে ' নাম ' একটি ভ্যারিয়েবল যা সকল শিক্ষার্থীদের নামকে ডেটা হিসাবে ধারন করবে। আবার ' ওজন' এবং ' উচ্চতা' এরাও ভ্যারিয়েবল যা ঐসকল শিক্ষার্থীদের ওজন এবং উচ্চতার ডেটা ধারন করবে। ভ্যারিয়েবল হচ্ছে পরিবর্তনশীল, যেমন মনে করুন ১ম শিক্ষার্থীর ক্ষেত্রে ভ্যেরিয়েবল এর মান হচ্ছে নাম = আলম, বয়স = ১৪ , উচ্চতা = ৫ ফুট ২ ইঞ্চি , আবার ২য় শিক্ষার্থীর ক্ষেত্রে ভ্যেরিয়েবল এর মান হচ্ছে নাম = হাসান, বয়স = ১৫ , উচ্চতা = ৫ ফুট ৪ ইঞ্চি । এভাবে অবজারভেশনের পরিবর্তনের সাথে সাথে ভ্যারিয়েবলের মানও পরিবর্তিত হয়।

কোয়ান্টিটেটিভ-কোয়ান্টিটেটিভ ভ্যারিয়েবল হোল মূলত পরিমাপ বাচক বা সংখ্যা ভিত্তিক ভ্যারিয়েবল। -কোয়ান্টিটেটিভ ভ্যারিয়েবলকে নিউম্যারিক্যাল ভ্যারিয়েবলও বলা হয়ে থাকে। যেমন বয়স(১০ বছর, ২৬ বছর), ওজন(৭০ কেজি, ৩৩ পাউন্ড), উচ্চতা(৪ ফুট, ১১ ইঞ্চি), দূরত্ব(১১ কিলোমিটার, ২৩ মাইল) ইত্যাদি । এধরনের ভ্যারিয়েবল সংখ্যা দ্বারা প্রকাশ করা হয়। কোয়ান্টিটেটিভ ভ্যারিয়েবল কে দুই শ্রেণীতে ভাগ করা যায়।

  • ডিসক্রিট-ডিসক্রিট হোল পূর্ণ সংখ্যা যেমন ১৫ জন মানুষ, ৫ টি গাড়ি ইত্যাদি। এধরনের ডেটাকে কাউন্ট করা যায় বা গোনা যায়। উদাহরণ হিসাবে বলা যায় একটি বাড়িতে কতজন মানুষ বসবাস করে তা আপনি গননা করতে পারবেন এবং মানুষের সংখ্যা অবশ্যই পূর্ণ সংখ্যা হবে অর্থাৎ কোন বাড়িতে ৪ জন, ৫ জন ইত্যাদি সংখ্যক মানুষ বসবাস করতে পারে কিন্তু কোন বাড়িতে কখনোই ২.৭ জন, ৩.৫ জন বা এধরনের সংখ্যক বসবাস করে না কারন মানুষের সংখ্যা ভগ্নংশ আকারে হাওয়া সম্ভব নয়।

  • কন্টিনিউয়াস-কন্টিনিউয়াস হচ্ছে ভগ্নাংশ আকারের ডেটা । যেমন এখন মানুষের উচ্চতা ৫ ফুট ৪ ইঞ্চি এটি একটি ভগ্নাংশ সংখ্যা । আপনি যদি একই মানুষের উচ্চতা মিলিমিটার স্কেলে পরিমাপ করেন তাহলে ৫ ফুট ৪ ইঞ্চির সাথে আরও কিছু মিলিমিটার ভগ্নাংশ আকারে পাবেন, আপনি চাইলে ন্যানোমিটার স্কেলেও পরিমাপ করতে পারেবেন। এভাবে আমরা স্কেল যত সূক্ষতম করবো আমাদের ফলাফলেও তত বেশী ভগ্নাংশ আসতে থাকবে। আরও উদাহরণ হিসাবে বলা যায় ২.৬ লিটার পেট্রোল, ৩.৭ কিলোমিটার দূরত্ব, ১২.৮ কিলগ্রাম ভর ইত্যাদি সবই কন্টিনিউয়াস ডেটার উদাহরণ।

কোয়ালিটেটিভ- কোয়ালিটেটিভ ভ্যারিয়েবল গুনবাচক বা বৈশিষ্ট্য মূলক ডেটা ধারন করে। কোয়ালিটেটিভ ভ্যারিয়েবলকে ক্যাটেগরিক্যাল ভ্যারিয়েবলও বলা হয়ে থাকে। যেমন মানুষের চুলের রং, লিঙ্গ, নাম , বিভিন্ন জায়গার নাম ইত্যাদি।

স্কেল অব মেজারমেন্ট

কোন ভ্যারিয়েবল যে ধরনের ডেটা ধারন করে তার উপর ভিত্তি করে আমরা স্কেল অব মেজারমেন্ট নির্ণয় করতে পারি, এই স্কেল অব মেজারমেন্ট হচ্ছে ডেটার প্রকৃতি

  • নমিনাল - নমিনাল স্কেলে শুধুমাত্র ক্যাটেগরি ভিত্তিক ভাগ করা যায়। এটাকে অনেকে সিম্পলি ' লেবেল' ও বলে থাকে। যেমন ধরুন মানুষের লিঙ্গ, কোন কিছুর রং, কোন ব্যক্তি , বস্তু বা স্থানের নাম ইত্যাদি। নমিনাল স্কেলে শুধু কাউন্ট করা সম্ভব

  • অর্ডিনাল - অর্ডিনাল স্কেলে অর্ডার বা ক্রম থাকে। কোন নমিনাল ডেটাকে যখন অর্ডার করা সম্ভব তখন সেটাকে অর্ডিনাল বলা যাবে।

    উদাহরণ হিসাবে বলা যায় কোন রেস্টুরেন্টের খাবারের রিভিউ (খুব ভালো, ভালো, মোটামুটি, খারাপ, একদম খারাপ) একটি অর্ডিনাল স্কেল, কারন কেউ যদি 'খুব ভাল' রিভিউ দেয় তাহলে এই স্কেলে এটিই সবথেকে বড় বোঝায় অপর দিকে ' একদম খারাপ' রিভিউ দিলে সবথেকে ছোট বোঝায়। আপনি যদি নমিনাল স্কেলের কথা চিন্তা করেন সেক্ষেতে একজন মানুষের চুলের রং ( সাদা, কালো, সোনালী ) এর কোন অর্ডার করতে পারবেন না , এটাই হচ্ছে নমিনাল এবং অর্ডিনাল স্কেলের পার্থক্য। অর্ডিনাল স্কেলে মোড, মিডিয়ান এবং পার্সেন্টাইল বের করা সম্ভব।

  • ইন্টারভ্যাল- ইন্টারভ্যাল স্কেলে ডেটার অর্ডার গুলোর ভেতরে একটি নির্দিষ্ট দূরত্ব বা পার্থক্য থাকে । অর্থাৎ অর্ডিনালের সকল বৈশিষ্ট্য থাকার পাশাপাশি এই স্কেলে ' নির্দিষ্ট দূরত্ব' নামের আরেকটি বৈশিষ্ট্য থাকে। এই স্কেলের একটি চমৎকার উদাহরণ হচ্ছে থার্মোমিটার। ধরুন কোন থার্মোমিটারের স্কেল গুলোর পার্থক্য ১০ ডিগ্রী সেলসিয়াস তাহলে এর ঘড় গুলো হবে ০,১০, ২০,৩০,৪০,৫০,৬০,৭০,৮০,৯০ ১০০,১১০ ইত্যাদি। অর্থাৎ এদের ভেতরে অর্ডার রয়েছে যেমন ১১০ সবথেকে বড় আবার ০ সবথেকে ছোট , এখানে লক্ষণীয় এই অর্ডারগুলোর ভেতরে একটি নির্দিষ্ট দূরত্ব বা পার্থক্য রয়েছে , প্রতিটি অর্ডারের মধ্যকার পার্থক্য হচ্ছে ১০ ডিগ্রী। এটাই ইন্টারভ্যাল স্কেলে। এই স্কেলে আগের স্কেল গুলোর সকল পরিমাপকের পাশাপাশি মিন, স্ট্যান্ডার্ড ডেভিয়েশন ইত্যাদি পরিমাপ করা যায়।

  • রেশিও- রেশিও স্কেলের সবথেকে বড় বৈশিষ্ট্য হচ্ছে " অ্যাবসুলেট জিরো " । এখন প্রশ্ন হচ্ছে অ্যাবসুলেট জিরো আসলে কি ? এই প্রশ্নের উত্তরের জন্য আমরা তাপমাত্রার পরিমাপকে উদাহরণ হিসাবে ব্যবহার করবো। আপনাকে যদি প্রশ্ন করা হয় ০ বা শূন্য ডিগ্রী তাপমাত্রা মানে কি আসলে কোন তাপমাত্রা নেই ? এর উত্তর হবে ০ বা শূন্য ডিগ্রী তাপমাত্রায়ও তাপমাত্রা থাকে কারন তাপমাত্রার স্কেলে তাপমাতার পরিমাপ মাইনাসও হতে পারে। সুতরাং থার্মোমিটারে যদি ০ ডিগ্রী তাপমাত্রা উঠে থাকে তাহলেও আপনি বলতে পারবেন না সেখানে কোন তাপমাত্রা নেই ! সুতরাং তাপমাত্রার পরিমাপে অ্যাবসুলেট জিরো নেই।

    অ্যাবসুলেট জিরো হচ্ছে সত্যিকারের শুন্যতা অর্থাৎ জিরো মানে আসলেই কিছু নেই। যেধরনের ডেটার পরিমাপে অ্যাবসুলেট জিরো থাকে সেটাই রেশিও স্কেলের আয়ত্তাভুক্ত। টাকার পরিমাপ, ওজন বা উচ্চতার পরিমাপ ইত্যাদি।

স্কেল অব মেজারমেন্টের একটি তুলনামূলক বৈশিষ্ট্য নিচে দেয়া রয়েছে, যদিও এখানকার অনেক শব্দ যেমন- মিন, মোড, মিডিয়ান, স্ট্যান্ডার্ড ডেভিয়েশন আপনাদের কাছে অপরিচিত মনে হতে পারে, কিন্তু এই বইয়ের পরিসংখ্যান অংশে আমরা সেগুলোর সাথে ধাপে ধাপে পরিচিত হব। তবে এই অধ্যায়ে শুধুমাত্র আলোচনার স্বার্থে উদাহরণ গুলো আনা হয়েছে

Last updated