রিইনফোর্সমেন্ট লার্নিং

রিইনফোর্সমেন্ট লার্নিং সম্পর্কে আমরা আগেই কিছুটা আলোচনা করেছি। রিইনফোর্সমেন্ট লার্নিং হচ্ছে ফিডব্যাক বেজড লার্নিং, এই পদ্ধতিতে ডেটাসেট ছাড়াই এজেন্টকে শেখানো হয়। রিইনফোর্সমেন্ট লার্নিং এ এজেন্ট মূলত এনভারমেন্ট থেকে শিখে থাকে।

লার্নিং এর এই ব্যতিক্রমী এই পদ্ধতিকে ' ট্রায়াল এন্ড এরর ' বেজড পদ্ধতিও বলা হয়। একটি উদাহরনের মাধ্যমে বিষয়টি বোঝানোর চেষ্টা করছি। ধরুন একটি বাড়িতে অনেকগুলো কক্ষ রয়েছে। এই কক্ষগুলোর ভেতরে একটি কক্ষে মাছ রাখা রয়েছে। ঐ বাড়িতে থাকা একটি বিড়াল প্রতিদিন মাছের সন্ধানে বের হয়। বিড়ালটি মাছ খুঁজে বের করার জন্য একটি কক্ষ থেকে আরেকটি কক্ষে যেতে থাকে। বিড়ালটি যদি সঠিক কক্ষের সন্ধান পায় তাহলে তাকে পুরস্কার হিসাবে ১০০ পয়েন্ট দেয়া হবে, অপরদিকে বিড়ালটি যদি ভুল কক্ষে যায় সেক্ষেত্রে ০ পয়েন্ট দেয়া হবে।

স্বাভাবিক ভাবেই প্রথম দিকে বিড়ালটিকে মাছ খুঁজে পেতে বেশ বেগ পেতে হবে। প্রথমদিকে হয়তো সে বেশিরভাগ সময়েই ব্যর্থ হবে কারন এনভারমেন্ট তার কাছে অপরিচিত। বাড়ির বিভিন্ন কক্ষগুলো কোথায় অবস্থিত , কোন রাস্তায় গেলে একটি কক্ষ থেকে অন্য কক্ষে যাওয়া যাবে ইত্যাদি কোন তথ্যই তার কাছে থাকবে না। তবে বিড়ালটি যতবার মাছ খুজতে বের হবে প্রতিবারই সে এনভারমেন্ট সম্পর্কে নতুন তথ্য পেতে থাকবে , এভাবেই সে সময়ের সাথে সাথে দক্ষ হয়ে উঠবে।

রিইনফোর্সমেন্ট লার্নিং পদ্ধতি এবং বিভিন্ন উপাদান

রিইনফোর্সমেন্ট লার্নিং শেখার জন্য আমরা কিউ লার্নিং অ্যালগরিদম ব্যবহার করবো। কিউ লার্নিং সম্পর্কে জানার আগে রিইনফোর্সমেন্ট লার্নিং কিছু উপাদান সম্পর্কে জেনে নেয়া যাক,

  • এজেন্ট- এজেন্ট হচ্ছে ক্রিয়ানক বা যা এনভারমেন্টে নির্দিষ্ট লক্ষ্য পূরনের জন্য পারফর্ম করে থাকে।

  • এনভারমেন্ট - এনভারমেন্ট হচ্ছে নির্দিষ্ট বৈশিষ্ট্য সংবলিত কোন ক্ষেত্র যেখানে এজেন্ট ক্রিয়া সম্পাদন করে থাকে। যেমন বিড়ালটি যে বাড়িতে মাছ অনুসন্ধান করে সেই বাড়িটি হচ্ছে এনভারমেন্ট।

  • গোল- এজেন্ট যা অর্জনের জন্য এনভারমেন্টে কাজ করে থাকে সেটাই হচ্ছে গোল বা লক্ষ্য। যেমন বিড়াল কাছে মাছের সন্ধান পাওয়া হচ্ছে গোল।

  • একশন - এজেন্টের সম্ভাব্য পদক্ষেপই হচ্ছে একশন। যেমন বিড়ালটি তার বর্তমান অবস্থান থেকে সামনে, পেছনে, ডানে বা বামে যেতে পারে। এগুলোই হচ্ছে একশন।

  • স্টেট - স্টেট হচ্ছে এজেন্টের বর্তমান অবস্থান। উদাহরন হিসাবে বলা যেতে পারে বিড়ালটি বর্তমানে যেই কক্ষে অবস্থান করছে সেটিই হচ্ছে বিড়ালটির স্টেট।

  • পলিসি- পলিসি হচ্ছে কিছু কৌশল বা ইনফরমেশন যার উপর ভিত্তি করে এজেন্ট সিদ্ধান্ত নিতে পারে বর্তমান স্টেটের সাপেক্ষে পরবর্তী একশন কি হাওয়া উচিৎ।

  • রিওয়ার্ড- রিওয়ার্ড হচ্ছে এনভারমেন্ট থেকে পাওয়া ফিডব্যাক। রিওয়ার্ড পজেটিভ , নেগেটিভ বা শূন্য হতে পারে।

বেলম্যান ইকুয়েশন

বেলম্যান ইকুয়েশনের মাধ্যমে রিইনফোর্সমেন্ট লার্নিং এজেন্ট এনভারমেন্টের প্রতিটি স্টেটের জন্য আলাদা আলাদা ফুটপ্রিন্ট ভ্যালু নির্ণয় করে থাকে। বেলম্যান ইকুয়েশনকে মেমরির সাথে তুলনা করা যেতে পারে। এজেন্ট বিভন্ন পথে লক্ষ্য অর্জনের চেষ্টার সাথে কেমন রিওয়ার্ড পেয়েছিল সেই তথ্যই এজেন্টের মেমরি। মূলত এই ভ্যালুর উপর ভিত্তি করেই এজেন্ট পলিসি নির্ধারণ করে থাকে। ইকুয়েশনটি দেখতে এরকম,

বেলম্যান ইকুয়েশনের বিভিন্ন প্যারামিটার,

  • s = এজেন্টের স্টেট

  • a = এজেন্টের একশন

  • s′ = পরবর্তী স্টেট

  • 𝜸 = ডিসকাউন্ট ফ্যাক্টর

  • R(s, a) = রিওয়ার্ড ফাংশন

  • V(s) = বেলম্যান ইকুয়েশনের মাধ্যমে নির্ণীত মান

ডিসকাউন্ট ফ্যাক্টর- ডিসকাউন্ট ফ্যাক্টর হচ্ছে গামার মান। এই মান ম্যাক্সিমাম ১ পর্যন্ত হতে পারে। এই মান বেশী হওয়া মানে হচ্ছে এজেন্ট এজেন্ট এনভারমেন্ট থেকে বেশী ইনফরমেশন সংগ্রহে আগ্রহী থাকবে। এই মান কম হলে এজেন্ট এনভারমেন্ট থেকে কম ইনফরমেশন সংগ্রহ করবে এবং নতুন ইনফরমেশন সংগ্রহ করার পরিবর্তে তার কাছে ইতোমধ্যে যা তথ্য আছে সেটি ব্যবহার করে রিওয়ার্ড পাবার চেষ্টা করবে।

প্রাথমিক ভাবে এজেন্টের কাছে সম্পূর্ণ এনভারমেন্ট সম্পর্কে একেবারে কোন তথ্যই থাকবে না, অর্থাৎ ভ্যালু ম্যাট্রিক্সটি শূন্য থাকবে। এজেন্টের এক্সপ্লোরেশনের সংখ্যা বাড়ার সাথে সাথে পর্যায়ক্রমে এনভারমেন্ট সম্পর্কে ইনফরমেশনও বাড়তে থাকবে। বাস্তবে দেখা যাবে এজেন্টের সামনে পরবর্তী একশন কি হবে তার জন্য একাধিক অপশন আসবে, এসকল ক্ষেত্রে এজেন্ট কোন অপশন বেছে নেবে তা মার্কভ ডিসিশন প্রসেসে এর মাধ্যমে বেছে নেয়া হয়,

মার্কভ ডিসিশন প্রসেস মূলত বেলম্যান ইকুয়েশনের মাধ্যমেই তৈরি করা হয়, যার মূল উদ্দেশ্য থাকে রিওয়ার্ড ম্যাক্সিমাইজেশন করা।এই ইকুয়েশনে একাধিক সম্ভাব্য স্টেটের সাপেক্ষে কোন স্টেটে যাবার জন্য একশন গ্রহন করলে এজেন্টের রিওয়ার্ড ম্যাক্সিমাম হবে তা নির্ণয় করা হয়। আলোচনা সংক্ষিপ্ত করার জন্য আমরা বিস্তারিত গানিতিক বর্ণনায় যাব না, পাইথনের মাধ্যমে আমরা এর ব্যবহার সহজেই দেখে নেব। শুধুমাত্র মৌলিক বিষয়বস্তুর সাথে পরিচিতি লাভের জন্য এগুলোর অবতারনা করা হয়েছে।

  • এক্সপ্লোরেশন- এক্সপ্লোরেশন হচ্ছে এনভারমেন্টকে আবিস্কার করা বা এনভারমেন্ট সম্পর্কে নতুন নতুন ইনফরমেশন সংগ্রহ করা। ডিসকাউন্ট ফ্যাক্টর বেশী হলে এজেন্ট অধিক হারে এনভারমেন্টকে আবিস্কার করবে অর্থাৎ মাছ খুঁজে পাবার জন্য নতুন নতুন পথ খুঁজে বের করবে।

  • এক্সপ্লোয়েটেশন - এক্সপ্লোইয়েটেশন হচ্ছে ইতোমধ্যে যেসকল ইনফরমেশন পাওয়া গেছে সেগুলোর উপর ভিত্তি করে মেক্সিমাম রিওয়ার্ড পাবার চেষ্টা করা। ডিসকাউন্ট ফ্যাক্টর কম হলে এজেন্ট মাছ খুঁজে বের করার জন্য নতুন নতুন পথ আবিস্কারের ঝুকি নিবে না বরং এর পরিবর্তে ইতোমধ্যে তার কাছে থাকা পথের ইনফরমেশনের উপর ভিত্তিতেই রিওয়ার্ড ম্যাক্সিমাইজ করার চেষ্টা করবে।

মাছ খুঁজে বের করা বিড়াল রোবট

আমাদের লক্ষ্য হচ্ছে আমরা এমন একটি সফট বিড়াল রোবট তৈরি করবো যেটি মাছ খুঁজে বের করার চেষ্টা করবে। এরপর রোবটটিকে আমরা একটি এনভারমেন্টে ছেড়ে দেব, অবশ্য এই এনভারমেন্টটিও আমরা আগেই তৈরি করে রাখবো। এনভারমেন্টের কোথায় মাছ পাওয়া যাবে সেটা নির্দিষ্ট করা থাকবে কিন্তু কোন পথে গেলে এই মাছ পাওয়া যাবে সেটা অবশ্য বিড়ালটিকে জানাবো না। এরপর বিড়ালটিকে মাছের খোঁজে এনভারমেন্টটে ছেড়ে দেয়া হবে। বিড়ালটি বিভিন্ন রাস্তায় মাছের খোঁজ করতে থাকবে, বিড়ালটি যদি মাছের সন্ধান পায় তবে ১০০ পয়েন্ট পাবে। এভাবে বিড়ালটি প্রতিনিয়ত মাছের সন্ধানের জন্য নিজ থেকেই শিখতে শুরু করবে এবং সময়ের সাথে সাথে একটি দক্ষ মাছ শিকারি বিড়ালে পরিনত হবে !

এনভারমেন্ট তৈরি করা

রিইনফোর্সমেন্ট লার্নিং এর জন্য প্রয়োজনীয় লাইব্রেরী ইমপোর্ট করে নিচ্ছি। এখানে networkx লাইব্রেরীটি নেটওয়ার্ক গ্রাফ তৈরি করার জন্য ব্যবহার করা হয়েছে

import numpy as np 
import pylab as pl 
import networkx as nx 

আমরা এমন একটি এনভারমেন্ট তৈরি করতে চাই যেখানে ৫ টি নোড থাকবে, এই নোডগুলো বিভিন্ন ভাবে কানেক্ট হয়ে পথ তৈরি করবে। আমাদের এজেন্ট (বিড়াল) এই পথগুলোতে অনুসন্ধান করে কোথায় মাছ রাখা আছে সেটি খুঁজে বের করবে। পথগুলোর কানেকশন কেমন হবে সেটা edgesএ আমরা ডিফাইন করে দেব। এখানেই আমরা গোল সেট করে দেব অর্থাৎ কোন নোডে গেলে বিড়ালটি মাছের সন্ধান পাবে সেটাই হচ্ছে গোল।

edges = [(2,3), (0, 4), (4, 3), (1, 3), (1, 5),(1,4)] 
  
goal = 5
G = nx.Graph() 
G.add_edges_from(edges) 
pos = nx.spring_layout(G) 
nx.draw_networkx_nodes(G, pos) 
nx.draw_networkx_edges(G, pos) 
nx.draw_networkx_labels(G, pos) 
pl.show() 

উপরের ছবিটিই আমাদের এনভারমেন্ট। এখানে বেশ কিছু রাস্তা রয়েছে। প্রাথমিক ভাবে বিড়ালটি 0 নোডে অবস্থান করে। বিড়ালটির কাজ হবে কোথায় মাছ রাখা আছে সেটি খুঁজে বের করা।

রিওয়ার্ড ম্যাট্রিক্স

এবার আমরা রিওয়ার্ড ম্যাট্রিক্স তৈরি করবো। বিড়ালটি যদি লক্ষ্যে পৌছাতে পারে সেক্ষেত্রে সে ১০০ পয়েন্ট পাবে। অন্যথায় ০ পয়েন্ট পাবে।

MATRIX_SIZE = 6
M = np.matrix(np.ones(shape =(MATRIX_SIZE, MATRIX_SIZE))) 
M *= -1
  
for point in edges: 
    print(point) 
    if point[1] == goal: 
        M[point] = 100
    else: 
        M[point] = 0
  
    if point[0] == goal: 
        M[point[::-1]] = 100
    else: 
        M[point[::-1]]= 0
        # reverse of point 
  
M[goal, goal]= 100
print(M) 

আমাদের রিওয়ার্ড ম্যাট্রিক্স অনেকগুলো -1 দেয়া রয়েছে। এগুলোর অর্থ হচ্ছে এই নোড গুলোর মাঝে সরাসরি কোন কানেকশন নেই। আর সরাসরি কানেশন থাকলে 0 দেয়া রয়েছে। উদাহরন হিসেবে বলা যায় 0 নোডের সাথে কেবল মাত্র 4 এর সরাসরি কানেকশন রয়েছে এজন্য ক্ষেত্রে এই মান [-1. -1. -1. -1. 0. -1.] দেয়া রয়েছে , অর্থাৎ

  • (0,0) = -1

  • (0,1) = -1

  • (0,2) = -1

  • (0,3) = -1

  • (0,4) = 0

  • (0,5) = -1

কিউ ম্যাট্রিক্স

এই ধাপে বিড়াল এজেন্ট কিভাবে তার বর্তমান অবস্থায় তার জন্য সম্ভাব্য পরবর্তী পদক্ষেপ কি কি হতে পারে সেটা জানার জন্য ফাংশন তৈরি করবো। আমাদের ফাংশন তার জন্য কোন পলিসি বেস্ট হবে সেটারও খোঁজ করবে। এভাবে প্রতিনিয়ত পলিসি আপডেট হতে থাকবে এবং এই ভ্যালু গুলো দ্বারা কিউ ম্যাট্রিক্স গঠিত হবে। বিড়ালটি যত বেশিবার মাছ খুজতে যাবে কিউ ম্যাট্রিক্স-এ এনভারমেন্ট সম্পর্কে ইনফরমেশন তত বাড়তে থাকবে, অর্থাৎ বিড়ালটি সময়ের সাথে ততো বেশী পারদর্শী হয়ে উঠতে থাকবে।

available_action = available_actions(initial_state) 
  
# Chooses one of the available actions at random 
def sample_next_action(available_actions_range): 
    next_action = int(np.random.choice(available_action, 1)) 
    return next_action 
  
  
action = sample_next_action(available_action) 
  
def update(current_state, action, gamma): 
  
  max_index = np.where(Q[action, ] == np.max(Q[action, ]))[1] 
  if max_index.shape[0] > 1: 
      max_index = int(np.random.choice(max_index, size = 1)) 
  else: 
      max_index = int(max_index) 
  max_value = Q[action, max_index] 
  Q[current_state, action] = M[current_state, action] + gamma * max_value 
  if (np.max(Q) > 0): 
    return(np.sum(Q / np.max(Q)*100)) 
  else: 
    return (0) 
# Updates the Q-Matrix according to the path chosen 
  
update(initial_state, action, gamma) 

সময়ের সাথে লার্ন করা

এবার চূড়ান্ত ধাপ। এই ধাপে আমরা আমাদের রিইনফোর্সমেন্ট লার্নিং এজেন্টকে আমাদের সৃষ্ট এনভারমেন্টে ১০০০ বার মাছের খোজে পাঠাবো। প্রতিবার বিড়ালটি ০ নোড থেকে বিভিন্ন পথে মাছের জন্য অনুসন্ধান করবে। প্রতিবার অনুসন্ধান শেষে বিড়ালটি এনভারমেন্ট সম্পর্কে যে ইনফরমেশন পায় সেটি দ্বারা কিউ ম্যাট্রিক্স প্রতিনিয়ত আপডেট হতে থাকে, এভাবে সময়ের সাথে সাথে বিড়ালটি আরও বেশী দক্ষ হয়ে উঠতে থাকে।

scores = [] 
for i in range(1000): 
    current_state = np.random.randint(0, int(Q.shape[0])) 
    available_action = available_actions(current_state) 
    action = sample_next_action(available_action) 
    score = update(current_state, action, gamma) 
    scores.append(score) 
  
# print("Trained Q matrix:") 
# print(Q / np.max(Q)*100) 
# You can uncomment the above two lines to view the trained Q matrix 
  
# Testing 
current_state = 0
steps = [current_state] 
  
while current_state != 5: 
  
    next_step_index = np.where(Q[current_state, ] == np.max(Q[current_state, ]))[1] 
    if next_step_index.shape[0] > 1: 
        next_step_index = int(np.random.choice(next_step_index, size = 1)) 
    else: 
        next_step_index = int(next_step_index) 
    steps.append(next_step_index) 
    current_state = next_step_index 
  
print("Most efficient path:") 
print(steps) 
  
pl.plot(scores) 
pl.xlabel('No of iterations') 
pl.ylabel('Reward gained') 
pl.show() 

উপরের ছবি থেকে আমরা দেখতে পাচ্ছি মাছের সন্ধান পাবার জন্য সবথেকে ভালো পথটি হচ্ছে ০,৪,১,৫ । বিড়ালটির পারফরম্যান্স সময়ের সাথে বৃদ্ধি পেয়েছে এবং প্রায় ২০০ বার ইটারেশন বা মাছ খোজার পরে বিড়ালটি চুড়ান্ত দক্ষতা অর্জন করতে পেরেছে।

এটাই হচ্ছে রিইনফোর্সমেন্ট লার্নিং এর সারকথা, এজেন্ট পরিবেশ থেকে শেখে। শেখার সময় ভুল বা সঠিক যাই ফিডব্যাক লাভ করুক সেই ফিডব্যাক থেকেও শেখে , এভাবেই সময়ের সাথে সাথে এজেন্টের দক্ষতা বৃদ্ধি পেতে থাকে।

Last updated