# ডেটার সাথে পরিচয়

&#x20;                                             \
**ডেটা আসলে কি ?**\
ডেটা শব্দটির সাথে পরিচিত নয় বর্তমান সময়ে এমন মানুষের সংখ্যা বোধহয় খুবই কম। আসলে দুনিয়াটা চলছেই ডেটার উপরে, যদিও ডেটা  স্পর্শ করা যায় এমন কিছু নয়। ডেটা হচ্ছে ইনফরমেশন বা তথ্যের ক্ষুদ্র অংশ। একাধিক ডেটার সমন্বয়য়ে ইনফরমেশন তৈরি হয়। এই ধরুন এসএসসি পরীক্ষায় সারা বাংলাদেশে যত পরীক্ষার্থী অংশগ্রহণ করেছে , তারা কে কোন সাবজেক্টে কত নাম্বার পেল , এগুলো সবই ডেটা । কোটি কোটি ডেটা । এই অসংখ্য ডেটা থেকেই আমরা বের করি সারা দেশে পাশের হার কত, কোন বোর্ডে কত শতাংশ পাশ করলো। কোন স্কুল জিপিএ ৫ সবথেকে বেশী পেলো, এগুলি সবই ইনফরমেশন। অথছ ডেটা ছাড়া এই ইনফরমেশন পাওয়া সম্ভব নয়। অনেক ডেটার সমন্বয়ে গঠিত হয় ইনফরমেশন।

> *“Data are symbols that represent properties of objects, events and their environments. They are products of observation” - Ackoff, Russell L*

\
ডেটা  হচ্ছে ফ্যাক্ট বা ফিগার,  পরিমাপের ক্ষুদ্র অংশ বিশেষ। ডেটা হচ্ছে অগোছালো কাঁচামাল, যা পক্রিয়াজাত করার পর ইনফরমেশন তৈরি হয়।ইংরেজিতে Data শব্দের প্রথম ব্যবহার হয় ১৬৪০ সালে। Data মূলত বহুবচন একটি ল্যাটিন শব্দ, যার একবচন হচ্ছে Datum.

ডেটা পক্রিয়াজাত না হলে আমরা বোধগম্য কিছুই পেতে পারি না। তাই সম্পর্কযুক্ত ডেটা থেকে ইনফরমেশন তৈরি হাওয়া জরুরি, অন্যথায় ডেটা অর্থহীন।<br>

*"The numbers have no way of speaking for themselves. We speak for them. We imbue them with meaning." —Statistician Nate Silver* &#x20;

![](/files/-M9OmUfRRzaWLnrzw6ZY)

> **ডেটার শেষমেশ চেহারা-**&#x9A1;েটাকে আমরা যেভাবেই পরিমাপ করি না কেন, কম্পিউটারে ডেটা শেষমেশ বাইনারি ফরম্যাটেই ডিজিটাল ডেটা হিসাবে সংরক্ষিত হয়।&#x20;

**ডেটার উৎস**\
ডেটার উৎস হতে পারে অনেক। নির্দিষ্ট করে বলার উপায় নেই ডেটার উৎসের সংখ্যা কয়টি , কারন প্রতিনিয়ত প্রযুক্তির নতুন নতুন পরিবর্তনের সাথেও ডেটার উৎসের সংখাও বাড়ছে।

![চিত্র- বিভিন্ন ধরনের ডাটা ও ডাটার উৎস](https://lh3.googleusercontent.com/eupMXL1DOjBbOph1GQ2cqxVB6-_M7cH8-U5fihNNxwVQoIQRpn7tKhbcABe3OUzBAyrAbFXQnJHDTLS_pLqD9fxNee41fk4xJJrZtaZXdvGRMN5G3pxA9nBZQTa4xl6Z7y5AXg-Y)

পৃথিবীর যেকোনো কিছুই হতে পারে ডেটার উৎস, যেকোনো কিছুই পর্যবেক্ষণ করা যাবে ডেটার মাধ্যমে।  ডেটা উৎস হতে পারে আমাদের স্মার্টফোন থেকে জেনারেটেড বিভিন্ন ভ্যালু, আমাদের ফিন্যান্সিয়াল ট্রানজেকশন, প্রতিদিনের বিপুল পরিমান মেইল, ফেসবুক-টুইটারের লাইক,কমেন্ট, পোস্ট, ইউটিউবের ভিউ, টিভি-পত্রিকায় প্রকাশিত সংবাদ, হাজারো পিডিএফ ফাইল, অসংখ্য ছবি, সিসি টিভির ফুটেজ, প্লেনের ককপিট থেকে জেনারেটেড ফ্লাইট রেকর্ড, বৈজ্ঞানিক গবেষণা -অবজারভেশন, গুগোল ম্যাপ আর অসংখ্য জিপিএস লংগিচিউড-ল্যাটিচিউড, হাজার-হাজার ডিভাইসের সেন্সর জেনারেটেড ডেটা । ডেটা  উৎসের কথা বলে তাই শেষ করা যাবে না, ধরে নিতে হবে দুনিয়ার যেকোনো কিছুই হতে পারে ডাটার উৎস।

![চিত্র- ডাটা সাইন্টিস্ট Kirk Borne’র বিশ্লেষণ অনুযায়ী বিভিন্ন ধরনের ডাটার উৎস ও ধরন।](https://lh4.googleusercontent.com/q-nCdQQfc0S2PsFdmSWyBX5LvTUhlEBNRG6gj-HHjJEmWR_9nI1Y3JE5CuDQ8dSmfLWerA2a9Y8SGsFgAp0ceXeJ82k7So5HLs0vYau9eUzjexqCrtANzuyZYZ-Zw0h4u0Ibp-VL)

\
**DIKW পিরামিড**

DIKW হোল Data, Information, Knowledge & Wisdom এর সংক্ষিপ্ত রূপ। ছোট-ছোট ডেটা কিভাবে সিদ্ধান্ত গ্রহনে ভূমিকা রাখতে পারে এই পিরামিডের মাধ্যমে সেটাই বোঝা যায়। ডেটা থেকে ইনফরমেশন, ইনফরমেশন থেকে জ্ঞান/নলেজ এবং নলেজ থেকে উইজডম বা প্রজ্ঞার যে সম্পর্ক সেটার ধারাবাহিকতাই মূলত  DIKW পিরামিডের মাধ্যমে প্রকাশ পায়।

![চিত্র- DIKW পিরামিড](https://lh5.googleusercontent.com/Z5rw5E07aCAhHDBds8ktv4dlqHeqIT-GHcLRw5uKsJRSeTWg_N0ql6_3pgDmmNpr6M_5dL8rVdeQ8t3M8PK0O8VhP-wcx-ShSOybyIJ2S14ucc56x-gcPY19lB5ldFDuLDO4eGXZ)

DIKW পিরামিডের বিষয়টিকে আরেকটু পরিস্কার ভাবে ব্যাখ্যা করা যায় নিচের উদাহরণটির মাধ্যমে। ধরা যাক কোন অবজারভেশন থেকে একটি ডাটা পাওয়া গেল, যার মান ‘১০০’। শুধু ১০০ দ্বারা কিছুই বোঝায় না। ১০০’র সাথে আরেকটি ডাটাকে সম্পর্কযুক্ত করা হোল , এবার ‘১০০ মাইল’ দ্বারা বোঝা যায় এটি দুটি স্থানের মধ্যবর্তী দূরত্ব। এটি হচ্ছে ইনফরমেশন। ১০০ মাইল কিন্তু কম দূরত্ব নয়, দুটি স্থানের দূরত্ব যদি ১০০ মাইল হয় তবে বুঝতে হবে স্থান দুটি বেশ দূরের। এটি হচ্ছে নলেজ না জ্ঞান। এত বড় দূরত্ব পায়ে হেটে যাওয়া প্রায় অসম্ভব বা অনেক কষ্টসাধ্য, কিন্তু গাড়ি বা অন্য কোন যানবাহনের মাধ্যমে এই দূরত্ব সহজেই পাড়ি দেওয়া সম্ভব। এই উপলব্ধিটি হচ্ছে উইজডম বা প্রজ্ঞা। প্রজ্ঞা থেকেই বিভিন্ন সিদ্ধান্ত গ্রহন সম্ভব।

![চিত্র- DIKW পিরামিডে ডাটা থেকে উইজডম](https://lh6.googleusercontent.com/Qu2_Tx0F_SvlHbK50iS7xLK5QleWh-KmAPUBfyikApseN9FtE2MXRlH3pemA1oavcWp6UPjxDX3wu1S4-9VCKRX8MV3t04HmfCuwaS4Mieyy9azCIfWxGB9jdlTRfhC9pNTyMpHn)

ডাটা থেকে ধাপে ধাপে কিভাবে DIKW পিরামিডের মাধ্যমে অতীতের পর্যবেক্ষণ থেকে ভবিষ্যতের জন্য সিদ্ধান্ত নেয়া সেটা নিচের চিত্রের মাধ্যমে ব্যাখ্যা করা যায়।<br>

![চিত্র- ডাটা থেকে সিদ্ধান্ত গ্রহন প্রক্রিয়া](https://lh4.googleusercontent.com/UCEsoNZsUDJ_Ic2diWIbzhEG2JM5Ekys7bzRn3Qru7sWEXS0SYeKwLgOpYEZ_YUiyN1ZHgg97_K536NCbm-M3rivEBXyyJFTBMAztscf9ZdXV8xeLiy6OFujfaUEz-ve67sCmcmX)

**ডেটার প্রকারভেদ**\
ডেটার প্রকারভেদ বিভিন্ন নিয়ামকের ভিত্তিতে বিভিন্ন রকম হতে পারে। এই অধ্যায়ে ডেটা সাইন্স ও পরিসংখ্যান ভিত্তিক ডেটা এনালাইসিসের সাথে সম্পর্কিত বিষয়ের উপর ভিত্তি করে আমরা ডেটাকে বিভিন্ন শ্রেণীতে শ্রেণীবদ্ধ করব। ডেটার প্রকরন করার সাথে আরেকটি বিষয় চলে আসে সেটি হচ্ছে ভ্যারিয়েবল। ভ্যারিয়েবল মূলত ডেটাকে ধারন করে। উদাহরণ হিসাবে বালা যেতে পারে আপনি একটি ক্লাসের সকল শিক্ষার্থীদের ডেটাসেট তৈরি করবেন, সেখানে আপনি শিক্ষার্থীদের নাম , বয়স এবং উচ্চতার ডেটা রাখতে চাচ্ছেন। এক্ষেত্রে ' নাম ' একটি ভ্যারিয়েবল যা  সকল শিক্ষার্থীদের নামকে ডেটা হিসাবে ধারন করবে। আবার ' ওজন' এবং ' উচ্চতা' এরাও ভ্যারিয়েবল যা ঐসকল শিক্ষার্থীদের ওজন এবং উচ্চতার ডেটা ধারন করবে। ভ্যারিয়েবল হচ্ছে পরিবর্তনশীল, যেমন মনে করুন ১ম শিক্ষার্থীর ক্ষেত্রে ভ্যেরিয়েবল এর মান হচ্ছে নাম = আলম, বয়স = ১৪ , উচ্চতা = ৫ ফুট ২ ইঞ্চি , আবার ২য় শিক্ষার্থীর ক্ষেত্রে ভ্যেরিয়েবল এর মান হচ্ছে নাম = হাসান, বয়স = ১৫ , উচ্চতা = ৫ ফুট ৪ ইঞ্চি । এভাবে অবজারভেশনের পরিবর্তনের সাথে সাথে ভ্যারিয়েবলের মানও পরিবর্তিত হয়।

![](/files/-M9OmC6Xn8moQO2TPF--)

**কোয়ান্টিটেটিভ-**&#x995;োয়ান্টিটেটিভ ভ্যারিয়েবল হোল মূলত পরিমাপ বাচক বা সংখ্যা ভিত্তিক ভ্যারিয়েবল। **-**&#x995;োয়ান্টিটেটিভ ভ্যারিয়েবলকে নিউম্যারিক্যাল ভ্যারিয়েবলও বলা হয়ে থাকে।  যেমন বয়স(১০ বছর, ২৬ বছর), ওজন(৭০ কেজি, ৩৩ পাউন্ড), উচ্চতা(৪ ফুট, ১১ ইঞ্চি), দূরত্ব(১১ কিলোমিটার, ২৩ মাইল) ইত্যাদি । এধরনের ভ্যারিয়েবল সংখ্যা দ্বারা প্রকাশ করা হয়। কোয়ান্টিটেটিভ ভ্যারিয়েবল  কে দুই শ্রেণীতে ভাগ করা যায়।

* **ডিসক্রিট-**&#x9A1;িসক্রিট হোল পূর্ণ সংখ্যা যেমন ১৫ জন মানুষ, ৫ টি গাড়ি ইত্যাদি। এধরনের ডেটাকে কাউন্ট করা যায় বা গোনা যায়। উদাহরণ হিসাবে বলা যায় একটি বাড়িতে কতজন মানুষ বসবাস করে তা আপনি গননা করতে পারবেন এবং মানুষের সংখ্যা অবশ্যই পূর্ণ সংখ্যা হবে অর্থাৎ কোন বাড়িতে ৪ জন, ৫ জন ইত্যাদি সংখ্যক মানুষ বসবাস করতে পারে কিন্তু কোন বাড়িতে কখনোই ২.৭ জন, ৩.৫ জন বা এধরনের সংখ্যক বসবাস করে না কারন মানুষের সংখ্যা ভগ্নংশ আকারে হাওয়া সম্ভব নয়।
* **কন্টিনিউয়াস-**&#x995;ন্টিনিউয়াস হচ্ছে ভগ্নাংশ আকারের ডেটা । যেমন এখন মানুষের উচ্চতা ৫ ফুট ৪ ইঞ্চি এটি একটি ভগ্নাংশ সংখ্যা । আপনি যদি একই মানুষের উচ্চতা মিলিমিটার স্কেলে পরিমাপ করেন তাহলে ৫ ফুট ৪ ইঞ্চির সাথে আরও কিছু মিলিমিটার ভগ্নাংশ আকারে পাবেন, আপনি চাইলে ন্যানোমিটার স্কেলেও পরিমাপ করতে পারেবেন। এভাবে আমরা স্কেল যত সূক্ষতম করবো আমাদের ফলাফলেও তত বেশী ভগ্নাংশ আসতে থাকবে। আরও উদাহরণ হিসাবে বলা যায় ২.৬ লিটার পেট্রোল, ৩.৭ কিলোমিটার দূরত্ব, ১২.৮ কিলগ্রাম ভর ইত্যাদি সবই কন্টিনিউয়াস ডেটার উদাহরণ।

**কোয়ালিটেটিভ-** কোয়ালিটেটিভ ভ্যারিয়েবল গুনবাচক বা বৈশিষ্ট্য মূলক ডেটা ধারন করে। কোয়ালিটেটিভ ভ্যারিয়েবলকে ক্যাটেগরিক্যাল   ভ্যারিয়েবলও বলা হয়ে থাকে। যেমন মানুষের চুলের রং, লিঙ্গ, নাম , বিভিন্ন জায়গার নাম ইত্যাদি।

**স্কেল অব মেজারমেন্ট**&#x20;

কোন ভ্যারিয়েবল যে ধরনের ডেটা ধারন করে তার উপর ভিত্তি করে আমরা স্কেল অব মেজারমেন্ট নির্ণয় করতে পারি, এই স্কেল অব মেজারমেন্ট হচ্ছে ডেটার প্রকৃতি&#x20;

* **নমিনাল -** নমিনাল স্কেলে শুধুমাত্র ক্যাটেগরি ভিত্তিক ভাগ করা যায়। এটাকে অনেকে সিম্পলি ' লেবেল' ও বলে থাকে। যেমন ধরুন মানুষের লিঙ্গ, কোন কিছুর রং, কোন ব্যক্তি , বস্তু বা স্থানের নাম ইত্যাদি। নমিনাল স্কেলে শুধু কাউন্ট করা সম্ভব&#x20;
* **অর্ডিনাল -** অর্ডিনাল স্কেলে অর্ডার বা ক্রম থাকে। কোন নমিনাল ডেটাকে যখন অর্ডার করা সম্ভব তখন সেটাকে অর্ডিনাল বলা যাবে।&#x20;

  উদাহরণ হিসাবে বলা যায় কোন রেস্টুরেন্টের খাবারের  রিভিউ (খুব ভালো, ভালো, মোটামুটি, খারাপ, একদম খারাপ) একটি  অর্ডিনাল স্কেল, কারন কেউ যদি 'খুব ভাল' রিভিউ দেয় তাহলে এই স্কেলে এটিই সবথেকে বড় বোঝায় অপর দিকে ' একদম খারাপ' রিভিউ দিলে সবথেকে ছোট বোঝায়। আপনি যদি নমিনাল স্কেলের কথা চিন্তা করেন সেক্ষেতে একজন মানুষের চুলের রং ( সাদা, কালো, সোনালী ) এর কোন অর্ডার করতে পারবেন না , এটাই হচ্ছে নমিনাল এবং অর্ডিনাল স্কেলের পার্থক্য। অর্ডিনাল স্কেলে মোড, মিডিয়ান এবং পার্সেন্টাইল বের করা সম্ভব।&#x20;
* **ইন্টারভ্যাল**-  ইন্টারভ্যাল স্কেলে ডেটার অর্ডার গুলোর ভেতরে একটি নির্দিষ্ট দূরত্ব বা পার্থক্য থাকে । অর্থাৎ অর্ডিনালের সকল বৈশিষ্ট্য থাকার পাশাপাশি এই স্কেলে ' নির্দিষ্ট দূরত্ব' নামের আরেকটি বৈশিষ্ট্য থাকে।  এই স্কেলের একটি চমৎকার উদাহরণ হচ্ছে থার্মোমিটার। ধরুন কোন থার্মোমিটারের স্কেল গুলোর পার্থক্য ১০ ডিগ্রী সেলসিয়াস তাহলে এর ঘড় গুলো হবে ০,১০, ২০,৩০,৪০,৫০,৬০,৭০,৮০,৯০ ১০০,১১০ ইত্যাদি। অর্থাৎ এদের ভেতরে অর্ডার রয়েছে যেমন ১১০ সবথেকে বড় আবার ০ সবথেকে ছোট , এখানে লক্ষণীয় এই অর্ডারগুলোর ভেতরে একটি নির্দিষ্ট দূরত্ব বা পার্থক্য রয়েছে , প্রতিটি অর্ডারের মধ্যকার পার্থক্য  হচ্ছে ১০ ডিগ্রী। এটাই ইন্টারভ্যাল স্কেলে। এই স্কেলে আগের স্কেল গুলোর সকল পরিমাপকের পাশাপাশি মিন, স্ট্যান্ডার্ড ডেভিয়েশন ইত্যাদি পরিমাপ করা যায়।&#x20;
* **রেশিও-** রেশিও স্কেলের সবথেকে বড় বৈশিষ্ট্য হচ্ছে " অ্যাবসুলেট জিরো " । এখন প্রশ্ন হচ্ছে অ্যাবসুলেট জিরো আসলে কি ? এই প্রশ্নের উত্তরের জন্য আমরা তাপমাত্রার পরিমাপকে উদাহরণ হিসাবে ব্যবহার করবো। আপনাকে যদি প্রশ্ন করা হয় ০ বা শূন্য ডিগ্রী তাপমাত্রা মানে কি আসলে কোন তাপমাত্রা নেই ? এর উত্তর হবে   ০ বা শূন্য ডিগ্রী তাপমাত্রায়ও তাপমাত্রা থাকে কারন তাপমাত্রার স্কেলে তাপমাতার পরিমাপ মাইনাসও হতে পারে। সুতরাং থার্মোমিটারে যদি ০ ডিগ্রী তাপমাত্রা উঠে থাকে তাহলেও আপনি বলতে পারবেন না সেখানে কোন তাপমাত্রা নেই !  সুতরাং তাপমাত্রার পরিমাপে অ্যাবসুলেট জিরো  নেই।&#x20;

  অ্যাবসুলেট জিরো হচ্ছে সত্যিকারের শুন্যতা অর্থাৎ জিরো মানে আসলেই কিছু নেই। যেধরনের ডেটার পরিমাপে অ্যাবসুলেট জিরো থাকে সেটাই রেশিও স্কেলের আয়ত্তাভুক্ত। টাকার পরিমাপ, ওজন বা উচ্চতার পরিমাপ ইত্যাদি।&#x20;

স্কেল অব মেজারমেন্টের একটি তুলনামূলক বৈশিষ্ট্য নিচে দেয়া রয়েছে, যদিও এখানকার অনেক শব্দ যেমন- মিন, মোড, মিডিয়ান, স্ট্যান্ডার্ড ডেভিয়েশন আপনাদের কাছে অপরিচিত মনে হতে পারে, কিন্তু এই বইয়ের পরিসংখ্যান অংশে আমরা সেগুলোর সাথে ধাপে ধাপে পরিচিত হব। তবে এই অধ্যায়ে শুধুমাত্র আলোচনার স্বার্থে উদাহরণ গুলো আনা হয়েছে&#x20;

![](/files/-M9OmLLO9_d5b0in6tS6)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://datasinsightsbd.gitbook.io/dsbook/introduction-to-data.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
