এক্সপ্লোরেটরি ডেটা এনালাইসিস

এক্সপ্লোরেটরি ডেটা এনালাইসিস (ইডিএ) হোল ডেটার ভেতরের অদেখা প্যাটার্ন সম্পর্কে জানা। ইডিএ এর মাধ্যমে মাধ্যমে আমরা ডেটা সেট থেকে বিভিন্ন ইনফরমেশন বের করে আনতে পারি , সেগুলো যেমন বিভিন্ন সিদ্ধান্ত গ্রহনে সহায়ক হয় তেমনি মেশিন লার্নিং মডেল নির্বাচনের জন্যও সহায়ক হয়। বিভিন্ন ধরনের পরিসংখ্যান পদ্ধতি, ডেটা ভিজুয়ালাইজেশন ইত্যাদির মাধ্যমে ইডিএ করা হয়।

এক্সপ্লোরেটরি ডেটা এনালাইসিস এর প্রাথমিক উদ্দেশ্য

  • ডেটাসেট এবং বিভিন্ন ভ্যারিয়েবল সম্পর্কে অনুসন্ধান / ইনভেস্টিগেশন করা।

  • নাল ভ্যালু এবং অন্যান্য অনাকাংখিত ভ্যালু সম্পর্কে অনুসন্ধান করা।

  • ডেটা সেটের ডেসক্রিপটিভ স্ট্যাটিস্টিক্স সম্পর্কে জানা ।

  • বিভিন্ন ভ্যারিয়েবলের মধ্যকার সম্পর্ক সম্পর্কে জানা ।

  • বিভিন্ন হিডেন ইনফরমেশন এক্সট্রাক্ট করা ।

  • মেশিন লার্নিং মডেল সম্পর্কে সিদ্ধান্ত নেয়া ।

ডেটা এনালাইসিসের জন্য আমরা যে ডেটা সেটটি ব্যাবহার করবো সেটি ১৯৫৮ সাল থেকে ২০১৬ সাল পর্যন্ত ঢাকার আবহাওয়ার ডেটা । ডেটা সেটটি বাংলাদেশ আবহাওয়া অধিদপ্তর থেকে সংগ্রহ করা হয়েছে।

ডেটাসেটের ভ্যারিয়েবল গুলোর পরিচয় ,

  • YEAR- Observation year

  • Month- Month

  • MaxTemp- Mean Maximum temperature per month (Unit-Celsius)

  • MinTemp- Mean Minimum temperature per month (Unit-Celsius)

  • RelativeHumidity- Mean RelativeHumidity per month (Unit-%)

  • Rainfall- Total Rainfall per month (Unit-mm)

১। ডেটা লোড করাঃ ঢাকার আবহাওয়ার ডেটা এনালাইসিসের জন্য প্রথমেই আমরা প্রয়োজনীয় লাইব্রেরী ইমপোর্ট করে নেব।আমাদের ডেটাসেটটি অনলাইনে রাখা আছে , তাই সেখান থেকেই আমরা সরাসরি লোড করে নেব। এরপর ডেটার প্রথম ৫ টি রো এর মাধ্যমে জেনে নেব আমাদের এই ডেটার চেহারা কেমন ।

২। নাল ভ্যালু চেকিংঃ এরপর আমরা দেখবো আমাদের ডেটাসেটে কোন নাল ভ্যালু আছে কিনা। নাল ভ্যালু চেকিং এর মাধ্যমে আমরা জেনে নিলাম আমাদের ডেটাসেটে কোন নাল ভ্যালু নেই। অর্থাৎ আমরা পরবর্তী এনালাইসিসের জন্য প্রস্তুত।

False

৩। বর্ণনামূলক পরিসংখ্যানঃ এরপর describe( ) ফাংশনের মাধ্যমে আমারা ডেটাসেটের বর্ণনামূলক পরিসংখ্যান সম্পর্কে জানবো। এর মাধ্যমে আমরা দেখতে পাই,

  • গড় বৃষ্টিপাতের পরিমান ১৬৮.৩৭ মিমি, কোন কোন মাসে একেবারেই কোন বৃষ্টি হয়নি আবার কোন মাসে ৮৫৬ মিমি পর্যন্ত বৃষ্টিপাত হয়েছে ।

  • আবহাওয়ার গড় আদ্রতা বা হিউমিডিটি ৭৫.২০ । আদ্রতার স্ট্যান্ডার্ড ডেভিয়েশন অপেক্ষাকৃত কম অর্থাৎ হিউমিডিটির ভ্যারিয়্যান্স বা উঠানামা কম।

  • বাতাসের সর্বনিম্ন তাপমাত্রার গড় ২১.৫১ ডিগ্রী সেলসিয়াস , এই মানের মিনিমাম ভ্যালু ৯.৫ এবং ম্যাক্সিমাম ভ্যালু ২৮.১ ডিগ্রী সেলসিয়াস।

  • বাতাসের সর্বোচ্চ তাপমাত্রার গড় ৩৩.৪৩ ডিগ্রী সেলসিয়াস।

    সর্বোচ্চ তাপমাত্রার স্ট্যান্ডার্ড ডেভিয়েশন সর্বনিম্ন তাপমাত্রার

    স্ট্যান্ডার্ড ডেভিয়েশন এর তুলনায় কম। অর্থাৎ উষ্ণতার ক্ষেত্রে পার্থক্য বা উঠানামা শৈত্যের তুলনায় কম।

৪। কোরিলেশন- কোরিলেশন ফাংশনের মাধ্যমে আমরা সহজেই দেখতে পাই বিভিন্ন ভ্যারিয়্যাবেলের মাঝে পরস্পরের লিনিয়ার কোরিলেশন কেমন। এর মাধ্যমে আমরা অপেক্ষাকৃত শক্তিশালী কোরিলেশন থেকে বিভিন্ন ভ্যারিয়্যাবেলের মাঝে সম্পর্ক খুঁজে পাই।

আমরা দেখতে পাই বৃষ্টিপাতের সাথে সবথেকে উল্লেখযোগ্য শক্তিশালী সম্পর্ক রয়েছে হিউমিডিটির এবং পরবর্তী শক্তিশালী সম্পর্ক রয়েছে বাতাসের সর্বনিম্ন তাপমাত্রার।

৫। হিট্ম্যাপ-

৬। মাসভিত্তিক গড় বৃষ্টিপাত- গ্রুপবাই এবং মিন ফাংশনের মাধ্যমে আমরা প্রতি মাসের গড় বৃষ্টিপাত জানতে পারি। এর মাধ্যমে আমরা বুঝতে পারি বছরের মাঝামাঝি সময়ে বৃষ্টিপাত সাধারনত বেশী হয়। অপরদিকে বছরের শুরু এবং শেষে বৃষ্টিপাত অপেক্ষাকৃত কম হয়।

৭। ডিস্ট্রিবিউশন প্লট - নিচের ফাংশনের মাধ্যমে আমরা কোন ভ্যারিয়্যাবেলের ডিস্ট্রিবিউশন প্লট আঁকতে পারি।

৮। সবথেকে বৃষ্টিবহুল মাস- সর্টিং এর মাধ্যমে আমরা সহজেই জানতে পারি কোন মাসগুলোতে সবথেকে বেশী বৃষ্টিপাত হয় এবং কোন মাসগুলোতে সবথেকে কম বৃষ্টিপাত হয়।

৯। পুরো ডেটাসেটের বক্সপ্লট- নিচের ফাংশনের মাধ্যমে আমরা একসাথে পুরো ডেটাসেটের বক্সপ্লট তৈরি করতে পারি। বক্স প্লটের মাধ্যমে আমরা ডেটায় কোন এক্সট্রিম ভ্যালু থাকলে সহজেই বুঝতে পারি।

১০। আলাদা আলাদা বক্সপ্লট- পুরো ডেটাসেটের বক্সপ্লট থেকে অনেক সময় এর অর্থ বুঝতে কষ্ট হতে পারে, কারন একসাথে অনেক ভ্যারিয়্যাবল এবং তাদের ভ্যালুর রেঞ্জের পার্থক্য বেশী থাকলে অনেক সময় বিষয়টি অনেকটা হিজিবিজি হয়ে যায়। এক্ষেত্রে আমরা চাইলে আলাদা আলাদা বক্স প্লট তৈরি করতে পারি। বৃষ্টিপাতের বক্সপ্লট থেকে আমরা দেখতে পাই বৃষ্টিপাতের মিনিমাম ভ্যালু শূন্য এবং ম্যাক্সিমাম ভ্যালু ৭০০ বা এর কাছাকাছি। এর পরের ভ্যালু গুলোকে এক্সট্রিম ভ্যালু বা আউটলায়ার হিসাবে দেখানো হয়েছে। অর্থাৎ এগুলো ব্যাতিক্রমি। হয়তো এগুলো অতিবৃষ্টি কালীন ভ্যালু। অপরদিকে বেশিরভাগ বৃষ্টিপাতের রেঞ্জ শূন্য থেকে ৩০০ এর ভেতরে থাকে।

১১। একসাথে দুটি ভ্যারিয়েবলের বক্সপ্লট- আমরা চাইলে একসাথে দুটি ভ্যারিয়েবলের বক্সপ্লট করতে পারি। বৃষ্টিপাত এবং হিউমিডিটির বক্সপ্লট থেকে আমরা দেখতে পাই হিউমিডিটির বৃদ্ধির সাথে সাথে বৃষ্টিপাতও বৃদ্ধি পেয়েছে।

১২। ক্যাটেগরি বক্সপ্লট- ক্যাটেগরি বক্সপ্লট এর মাধ্যমে আমরা ক্যাটেগরিক্যাল ভ্যারিয়েবলের সাথে অন্য কোন ভ্যারিয়েবলের বক্সপ্লট করতে পারি। মাসের সাথে বৃষ্টিপাতের ক্যাটেগরি বক্সপ্লট করলে আমরা দেখতে পাই বছরের মাঝের মাসগুলোতে বৃষ্টিপাতের পরিমান বেশী , এই মাসগুলোর ডেটার বিস্তৃতিও বেশী । আবার যে মাসগুলোতে বৃষ্টিপাত কম হয় সেই মাসগুলোর ডেটার বিস্তৃতি কম।

১৩। হিস্টোগ্রাম- নিচের ফাংশনের মাধ্যমে আমরা পুরো ডেটাসেটের হিস্টোগ্রাম একসাথে আঁকতে পারি।

১৪। পেয়ারপ্লট- পেয়ার প্লট হচ্ছে ডেটাসেটের প্রতিটি ভ্যারিয়েবলের সাথে প্রতিটি ভ্যারিয়েবলের স্কাটার প্লট এবং প্রতিটি ভ্যারিয়েবলের ডিস্ট্রিবিউশন প্লট একসাথে আঁকার পদ্ধতি।

১৫। স্কাটার প্লট- আমরা চাইলে যেকোন দুটি ভ্যারিয়েবলের মধ্যকার সম্পর্ককে আলাদা ভাবে স্কটার প্লটেও আঁকতে পারি। বৃষ্টিপাত এবং হিউমিডিটির ভেতরের স্কটার প্লটের থেকে আমরা পরিষ্কার বুঝতে পারি হিউমিডিটি বৃদ্ধির সাথে সাথে বৃষ্টিপাত বৃদ্ধি পায় । ভ্যারিয়েবলগুলোর মধ্যকার সম্পর্ক যত বেশী হবে স্কাটার প্লটে ডট গুলো লিনিয়ার লাইনের মত তত কাছাকাছি থাকবে।

১৬। জয়েন্ট প্লট- এটি মূলত স্কাটার প্লট এবং ডিস্ট্রিবিউশন প্লটকে একসাথে ভিজুয়ালাইজ করতে ব্যাবহার করা হয়।

১৭। টাইম সিরিজ প্লট- আমরা লাইন প্লট আঁকার মাধ্যমে সময়ের সাথে পুরো ডেটা সেটের টাইম সিরিজ প্লট আঁকতে পারি। এর মাধ্যমে দেখতে পাই সময়ের সাথে বিভিন্ন ভ্যারিয়েবলের মান কিভাবে পরিবর্তিত হয়েছে (ঊর্ধ্বমুখী বা নিম্নমুখী)

১৮। নিম্ন তাপমাত্রা পরিবর্তনের টাইম সিরিজ -নিচের ছোট কোডের মাধ্যমে আমরা দেখতে পাই ১৯৫৩ সাল থেকে শুরু করে ২০১৬ সাল পর্যন্ত বাতাসের নিম্ন তাপমাত্রা ক্রমান্বয়ে বৃদ্ধি পেয়েছে।

১৯। গড় আদ্রতার টাইম সিরিজ- ১৯৫৩ সাল থেকে শুরু করে ২০১৬ সাল পর্যন্ত বার্ষিক আদ্রতার গড় নিয়ে তাইম সিরিজ করলে আমরা দেখতে পাই বাতাসের আদ্রতা ক্রমান্বয়ে কমেছে।

এক্সপ্লোরেটরি ডেটা এনালাইসিসের ফলাফল

  • ডেটাসেটে কোন নাল বা গারবেজ ভ্যালু নেই।

  • বৃষ্টিপাতের ডেটায় অনেক এক্সট্রিম ভ্যালু রয়েছে।

  • জুন , জুলাই এবং আগস্ট মাসে সবথেকে বেশী বৃষ্টিপাত হয়।

  • জুন , জুলাই এবং আগস্ট মাসে বাতাসের আদ্রতা / হিউমিডিটিও সবথেকে বেশী থাকে।

  • জানুয়ারি , ফেব্রুয়ারি এবং ডিসেম্বরে বাতাসের নিম্ন তাপমাত্রা সবথেকে কম থাকে।

  • এপ্রিল, মে , জুন ও জুলাই মাসে বাতাসের উচ্চ তাপমাত্রা সবথেকে বেশী থাকে।

  • বৃষ্টিপাতের সাথে আদ্রতার সবথেকে বেশী কোরিলেশন রয়েছে । বৃষ্টিপাতের সাথে দ্বিতীয় সর্বোচ্চ বাতাসের নিম্ন তাপমাত্রার।

  • বৃষ্টিপাতের সিজনালিটি রয়েছে অর্থাৎ প্রতি বছর নির্দিষ্ট মাসগুলোতে অধিক বৃষ্টিপাত হয়।

  • বাতাসের নিম্ন তাপমাত্রা সময়ের সাথে বেড়েছে।

  • বাতাসের আদ্রতা সময়ের সাথে কমেছে।

Last updated

Was this helpful?