ডেটা সাইন্স কি ?
Last updated
Last updated
যেখানেই ডেটা , সেখানেই ডেটা সাইন্স। ডেটা সাইন্স ডেটাকে নিয়ে আলোচনা করে। ডেটা আবার অনেকের সম্পত্তি। গনিতবিদের সম্পত্তি, পরিসংখ্যান বিদের সম্পত্তি আর কম্পিউটার বিজ্ঞানীদেরও সম্পত্তি। তাই ডেটা সাইন্সের মালিক এরা সবাই। মূলত ডেটা সাইন্সের ভিত্তি হচ্ছে গনিত এবং পরিসংখ্যান আর প্রয়োগের হাতিয়ার হচ্ছে কম্পিউটার সাইন্স ।
ডেটা সাইন্সের হরেক রকম সংজ্ঞা দেয়া যাবে। তবে সবথেকে উপযোগী সংজ্ঞা হচ্ছে " ডেটা সাইন্স হচ্ছে এমন একটি বিজ্ঞান যা ডেটাকে সিদ্ধান্ত নেয়া বা ডেটাকে কর্মক্ষম করতে পরিনত করে"
"Data science is the science of transformation of data into actionable insights."
ডেটা সাইন্স দেখায় ডেটার ভেতরের অনেক অদেখা রূপ, নানা রহস্য, নানা প্যাটার্ন ।
আপনাকে যদি উপরের ডেটাসেট টি ২ মিনিট দেখতে দিয়ে প্রশ্ন করি " এই ডেটা সেট থেকে আপনি কি বুঝতে পারলেন ? " তখন আপনার পক্ষে কিছুই উত্তর দেয়া সম্ভব হবে না। আপনি যদি আরও কিছুটা জোড় করে উত্তর দিতে চান , সেক্ষেত্রে আপনি হয়তো বলবেন এই ডেটা সেটে অনেক নিউম্যারিকাল ভ্যারিয়েবল আছে, কিছু ক্যটেগরিক্যাল ভ্যারিয়েবল আছে , অমুক আছে তমুক আছে ইত্যাদি ইত্যাদি। আসল কথা হচ্ছে আপনি কিছুই বুঝতে পারেন নি। আসলে এই ডেটার ভেতরে কি আছে সেটা শুধুমাত্র চোখের দৃষ্টিতে বোঝা সম্ভব নয়। এরকম বিশাল বিশাল ডেটাসেট যাতে শত শত ভ্যারিয়েবল এবং লাখ লাখ রো রয়েছে তা কোন মানুষের পক্ষেই বোঝার কথা নয়। অবশ্য সুপার হিউম্যান হলে ভিন্ন কথা !
এধরনের ডেটাসেটের ভেতরে কি রয়েছে ? ইনসাইটস কি? কোন প্যাটার্ন আছে কিনা? এর ভেতরের বিভিন্ন ইনফরমেশন এক্সট্রাক্ট করা ইত্যাদি হচ্ছে ডেটা সাইন্সের কাজ।
উপরের যে ডেটাসেটটি আমারা দেখলাম সেটি একটি মেডিকেল ডেটাসেট , যেখানে বিভিন্ন রোগীদের টিউমার ম্যালিগন্যান্ট (এধরনের টিউমার থেকে ক্যান্সার হয়) নাকি বিনাইন সেটা দেয়া রয়েছে। এই সেটের মেশিন লার্নিং মডেল করলে আমরা টিউমার ক্লাসিফিকেশন করতে পারি । এখন যদি আমাদের মডেলকে নতুন কোন রোগীর ডেটা ইনপুট দেয়া হয় সেক্ষেত্রে কম্পিউটার সহজেই প্রিডিক্ট করতে পারবে তার টিউমারটি কি ম্যালিগন্যান্ট নাকি বিনাইন।
ম্যালিগন্যান্ট- ম্যালিগন্যান্ট টিউমার হচ্ছে ক্যান্সার কোষ দ্বারা গঠিত টিউমার ।
বিনাইন- বিনাইন টিউমার ক্যান্সার কোষ দ্বারা গঠিত নয় , এটি সাধারনত ক্ষতিকর নয়।
ডেটা থেকে যে সিদ্ধান্ত নেবার ক্ষমতা আমরা পেলাম এটাই ডেটা সাইন্সের একটি বাস্তব উদাহরন, এটাই ডেটা সাইন্স।
একজন ডেটা সাইন্টিস্ট এর দক্ষতা
একজন ডেটা সাইন্টিস্ট এর জন্য সবথেকে গুরুত্বপূর্ণ হোল পরিসংখ্যান বিষয়ক জ্ঞান। মূলত পরিসংখ্যান এবং গনিত হচ্ছে ডেটা সাইন্সের ভিত্তি, আর এই ভিত্তির উপর দাড়িয়েই কম্পিউটার প্রোগ্রামের মাধ্যমে ডেটা সাইন্সের বিভিন্ন তত্ত্বের বাস্তব প্রয়োগ ঘটানো হয়। ডেটা সাইন্সের ক্ষেত্রে আরেকটি গুরুত্বপূর্ণ বিষয় হচ্ছে ডোমাইন নলেজ বা বিষয় ভিত্তিক জ্ঞান। একজন ডেটা সাইন্টিস্টকে বিভিন্ন বিষয়ের উপর কাজ করতে হবে, কখনো হয়তো তাকে হেলথকেয়ার ডেটা নিয়ে কাজ করতে হবে কখনো আবার বিজনেস ডেটা নিয়ে কাজ করতে হবে। কর্ম ক্ষেত্র যাই হোক না কেন প্রবলেম সল্ভ করতে হলে সেই বিষয় সম্পর্কে ফান্ডামেন্টাল নলেজ জেনে নিতে হবে এটাই হচ্ছে ডোমেইন নলেজ।
ডেটা সাইন্সের জন্য সবথেকে গুরুত্বপূর্ণ বিষয় হচ্ছে পরিসংখ্যান। অনেকেই পরিসংখ্যানকে বাদ দিয়েই ডেটা সাইন্স শিখতে চায়, এরকমটি করলে কখনোই প্রকৃত ডেটা সাইন্স শেখা সম্ভব হবে না। পরিসংখ্যান সম্পর্কে সঠিক জ্ঞান না থাকলে কম্পিউটার প্রোগ্রামের ফলাফলকে আমরা ইন্টারপ্রেট করতে পারবো না। তাই ডেটা সাইন্স শিখতে হলে সবার আগে শিখতে হবে পরিসংখ্যান।
কে একজন ডেটা সাইন্টিস্ট , তার সংজ্ঞা চমৎকার ভাবে দিয়েছেন জোস উইলস। তিনি বলেছেন " একজন ডেটা সাইন্টিস্টের পরিসংখ্যান বিষয়ক জ্ঞান একজন সফটওয়্যার ইঞ্জিনিয়ারের থেকে বেশী থাকতে হবে, অপরদিকে প্রোগ্রামিং বিষয়ক জ্ঞান একজন পরিসংখ্যানবিদের চেয়ে বেশী থাকতে হবে।"
তার এই চমৎকার সংজ্ঞা থেকে আমরা বুঝতে পারলাম একজন ডেটা সাইন্টিস্ট এর পরিসংখ্যান এবং প্রোগ্রামিং দুই বিষয়েই জ্ঞান থাকতে হবে, তবে কোন বিষয়েই মহাজ্ঞানী হবার দরকার নেই।