রিইনফোর্সমেন্ট লার্নিং

রিইনফোর্সমেন্ট লার্নিং সম্পর্কে আমরা আগেই কিছুটা আলোচনা করেছি। রিইনফোর্সমেন্ট লার্নিং হচ্ছে ফিডব্যাক বেজড লার্নিং, এই পদ্ধতিতে ডেটাসেট ছাড়াই এজেন্টকে শেখানো হয়। রিইনফোর্সমেন্ট লার্নিং এ এজেন্ট মূলত এনভারমেন্ট থেকে শিখে থাকে।
লার্নিং এর এই ব্যতিক্রমী এই পদ্ধতিকে ' ট্রায়াল এন্ড এরর ' বেজড পদ্ধতিও বলা হয়। একটি উদাহরনের মাধ্যমে বিষয়টি বোঝানোর চেষ্টা করছি। ধরুন একটি বাড়িতে অনেকগুলো কক্ষ রয়েছে। এই কক্ষগুলোর ভেতরে একটি কক্ষে মাছ রাখা রয়েছে। ঐ বাড়িতে থাকা একটি বিড়াল প্রতিদিন মাছের সন্ধানে বের হয়। বিড়ালটি মাছ খুঁজে বের করার জন্য একটি কক্ষ থেকে আরেকটি কক্ষে যেতে থাকে। বিড়ালটি যদি সঠিক কক্ষের সন্ধান পায় তাহলে তাকে পুরস্কার হিসাবে ১০০ পয়েন্ট দেয়া হবে, অপরদিকে বিড়ালটি যদি ভুল কক্ষে যায় সেক্ষেত্রে ০ পয়েন্ট দেয়া হবে।
স্বাভাবিক ভাবেই প্রথম দিকে বিড়ালটিকে মাছ খুঁজে পেতে বেশ বেগ পেতে হবে। প্রথমদিকে হয়তো সে বেশিরভাগ সময়েই ব্যর্থ হবে কারন এনভারমেন্ট তার কাছে অপরিচিত। বাড়ির বিভিন্ন কক্ষগুলো কোথায় অবস্থিত , কোন রাস্তায় গেলে একটি কক্ষ থেকে অন্য কক্ষে যাওয়া যাবে ইত্যাদি কোন তথ্যই তার কাছে থাকবে না। তবে বিড়ালটি যতবার মাছ খুজতে বের হবে প্রতিবারই সে এনভারমেন্ট সম্পর্কে নতুন তথ্য পেতে থাকবে , এভাবেই সে সময়ের সাথে সাথে দক্ষ হয়ে উঠবে।
ছবি - রিইনফোর্সমেন্ট লার্নিং (সম্পাদিত)
রিইনফোর্সমেন্ট লার্নিং পদ্ধতি এবং বিভিন্ন উপাদান
রিইনফোর্সমেন্ট লার্নিং শেখার জন্য আমরা কিউ লার্নিং অ্যালগরিদম ব্যবহার করবো। কিউ লার্নিং সম্পর্কে জানার আগে রিইনফোর্সমেন্ট লার্নিং কিছু উপাদান সম্পর্কে জেনে নেয়া যাক,
  • এজেন্ট- এজেন্ট হচ্ছে ক্রিয়ানক বা যা এনভারমেন্টে নির্দিষ্ট লক্ষ্য পূরনের জন্য পারফর্ম করে থাকে।
  • এনভারমেন্ট - এনভারমেন্ট হচ্ছে নির্দিষ্ট বৈশিষ্ট্য সংবলিত কোন ক্ষেত্র যেখানে এজেন্ট ক্রিয়া সম্পাদন করে থাকে। যেমন বিড়ালটি যে বাড়িতে মাছ অনুসন্ধান করে সেই বাড়িটি হচ্ছে এনভারমেন্ট।
  • গোল- এজেন্ট যা অর্জনের জন্য এনভারমেন্টে কাজ করে থাকে সেটাই হচ্ছে গোল বা লক্ষ্য। যেমন বিড়াল কাছে মাছের সন্ধান পাওয়া হচ্ছে গোল।
  • একশন - এজেন্টের সম্ভাব্য পদক্ষেপই হচ্ছে একশন। যেমন বিড়ালটি তার বর্তমান অবস্থান থেকে সামনে, পেছনে, ডানে বা বামে যেতে পারে। এগুলোই হচ্ছে একশন।
  • স্টেট - স্টেট হচ্ছে এজেন্টের বর্তমান অবস্থান। উদাহরন হিসাবে বলা যেতে পারে বিড়ালটি বর্তমানে যেই কক্ষে অবস্থান করছে সেটিই হচ্ছে বিড়ালটির স্টেট।
  • পলিসি- পলিসি হচ্ছে কিছু কৌশল বা ইনফরমেশন যার উপর ভিত্তি করে এজেন্ট সিদ্ধান্ত নিতে পারে বর্তমান স্টেটের সাপেক্ষে পরবর্তী একশন কি হাওয়া উচিৎ।
  • রিওয়ার্ড- রিওয়ার্ড হচ্ছে এনভারমেন্ট থেকে পাওয়া ফিডব্যাক। রিওয়ার্ড পজেটিভ , নেগেটিভ বা শূন্য হতে পারে।
বেলম্যান ইকুয়েশন
বেলম্যান ইকুয়েশনের মাধ্যমে রিইনফোর্সমেন্ট লার্নিং এজেন্ট এনভারমেন্টের প্রতিটি স্টেটের জন্য আলাদা আলাদা ফুটপ্রিন্ট ভ্যালু নির্ণয় করে থাকে। বেলম্যান ইকুয়েশনকে মেমরির সাথে তুলনা করা যেতে পারে। এজেন্ট বিভন্ন পথে লক্ষ্য অর্জনের চেষ্টার সাথে কেমন রিওয়ার্ড পেয়েছিল সেই তথ্যই এজেন্টের মেমরি। মূলত এই ভ্যালুর উপর ভিত্তি করেই এজেন্ট পলিসি নির্ধারণ করে থাকে। ইকুয়েশনটি দেখতে এরকম,
বেলম্যান ইকুয়েশনের বিভিন্ন প্যারামিটার,
  • s = এজেন্টের স্টেট
  • a = এজেন্টের একশন
  • s′ = পরবর্তী স্টেট
  • 𝜸 = ডিসকাউন্ট ফ্যাক্টর
  • R(s, a) = রিওয়ার্ড ফাংশন
  • V(s) = বেলম্যান ইকুয়েশনের মাধ্যমে নির্ণীত মান
ডিসকাউন্ট ফ্যাক্টর- ডিসকাউন্ট ফ্যাক্টর হচ্ছে গামার মান। এই মান ম্যাক্সিমাম ১ পর্যন্ত হতে পারে। এই মান বেশী হওয়া মানে হচ্ছে এজেন্ট এজেন্ট এনভারমেন্ট থেকে বেশী ইনফরমেশন সংগ্রহে আগ্রহী থাকবে। এই মান কম হলে এজেন্ট এনভারমেন্ট থেকে কম ইনফরমেশন সংগ্রহ করবে এবং নতুন ইনফরমেশন সংগ্রহ করার পরিবর্তে তার কাছে ইতোমধ্যে যা তথ্য আছে সেটি ব্যবহার করে রিওয়ার্ড পাবার চেষ্টা করবে।
প্রাথমিক ভাবে এজেন্টের কাছে সম্পূর্ণ এনভারমেন্ট সম্পর্কে একেবারে কোন তথ্যই থাকবে না, অর্থাৎ ভ্যালু ম্যাট্রিক্সটি শূন্য থাকবে। এজেন্টের এক্সপ্লোরেশনের সংখ্যা বাড়ার সাথে সাথে পর্যায়ক্রমে এনভারমেন্ট সম্পর্কে ইনফরমেশনও বাড়তে থাকবে। বাস্তবে দেখা যাবে এজেন্টের সামনে পরবর্তী একশন কি হবে তার জন্য একাধিক অপশন আসবে, এসকল ক্ষেত্রে এজেন্ট কোন অপশন বেছে নেবে তা মার্কভ ডিসিশন প্রসেসে এর মাধ্যমে বেছে নেয়া হয়,
মার্কভ ডিসিশন প্রসেস মূলত বেলম্যান ইকুয়েশনের মাধ্যমেই তৈরি করা হয়, যার মূল উদ্দেশ্য থাকে রিওয়ার্ড ম্যাক্সিমাইজেশন করা।এই ইকুয়েশনে একাধিক সম্ভাব্য স্টেটের সাপেক্ষে কোন স্টেটে যাবার জন্য একশন গ্রহন করলে এজেন্টের রিওয়ার্ড ম্যাক্সিমাম হবে তা নির্ণয় করা হয়। আলোচনা সংক্ষিপ্ত করার জন্য আমরা বিস্তারিত গানিতিক বর্ণনায় যাব না, পাইথনের মাধ্যমে আমরা এর ব্যবহার সহজেই দেখে নেব। শুধুমাত্র মৌলিক বিষয়বস্তুর সাথে পরিচিতি লাভের জন্য এগুলোর অবতারনা করা হয়েছে।
  • এক্সপ্লোরেশন- এক্সপ্লোরেশন হচ্ছে এনভারমেন্টকে আবিস্কার করা বা এনভারমেন্ট সম্পর্কে নতুন নতুন ইনফরমেশন সংগ্রহ করা। ডিসকাউন্ট ফ্যাক্টর বেশী হলে এজেন্ট অধিক হারে এনভারমেন্টকে আবিস্কার করবে অর্থাৎ মাছ খুঁজে পাবার জন্য নতুন নতুন পথ খুঁজে বের করবে।
  • এক্সপ্লোয়েটেশন - এক্সপ্লোইয়েটেশন হচ্ছে ইতোমধ্যে যেসকল ইনফরমেশন পাওয়া গেছে সেগুলোর উপর ভিত্তি করে মেক্সিমাম রিওয়ার্ড পাবার চেষ্টা করা। ডিসকাউন্ট ফ্যাক্টর কম হলে এজেন্ট মাছ খুঁজে বের করার জন্য নতুন নতুন পথ আবিস্কারের ঝুকি নিবে না বরং এর পরিবর্তে ইতোমধ্যে তার কাছে থাকা পথের ইনফরমেশনের উপর ভিত্তিতেই রিওয়ার্ড ম্যাক্সিমাইজ করার চেষ্টা করবে।
মাছ খুঁজে বের করা বিড়াল রোবট
আমাদের লক্ষ্য হচ্ছে আমরা এমন একটি সফট বিড়াল রোবট তৈরি করবো যেটি মাছ খুঁজে বের করার চেষ্টা করবে। এরপর রোবটটিকে আমরা একটি এনভারমেন্টে ছেড়ে দেব, অবশ্য এই এনভারমেন্টটিও আমরা আগেই তৈরি করে রাখবো। এনভারমেন্টের কোথায় মাছ পাওয়া যাবে সেটা নির্দিষ্ট করা থাকবে কিন্তু কোন পথে গেলে এই মাছ পাওয়া যাবে সেটা অবশ্য বিড়ালটিকে জানাবো না। এরপর বিড়ালটিকে মাছের খোঁজে এনভারমেন্টটে ছেড়ে দেয়া হবে। বিড়ালটি বিভিন্ন রাস্তায় মাছের খোঁজ করতে থাকবে, বিড়ালটি যদি মাছের সন্ধান পায় তবে ১০০ পয়েন্ট পাবে। এভাবে বিড়ালটি প্রতিনিয়ত মাছের সন্ধানের জন্য নিজ থেকেই শিখতে শুরু করবে এবং সময়ের সাথে সাথে একটি দক্ষ মাছ শিকারি বিড়ালে পরিনত হবে !
এনভারমেন্ট তৈরি করা
রিইনফোর্সমেন্ট লার্নিং এর জন্য প্রয়োজনীয় লাইব্রেরী ইমপোর্ট করে নিচ্ছি। এখানে networkx লাইব্রেরীটি নেটওয়ার্ক গ্রাফ তৈরি করার জন্য ব্যবহার করা হয়েছে
import numpy as np
import pylab as pl
import networkx as nx
আমরা এমন একটি এনভারমেন্ট তৈরি করতে চাই যেখানে ৫ টি নোড থাকবে, এই নোডগুলো বিভিন্ন ভাবে কানেক্ট হয়ে পথ তৈরি করবে। আমাদের এজেন্ট (বিড়াল) এই পথগুলোতে অনুসন্ধান করে কোথায় মাছ রাখা আছে সেটি খুঁজে বের করবে। পথগুলোর কানেকশন কেমন হবে সেটা edgesএ আমরা ডিফাইন করে দেব। এখানেই আমরা গোল সেট করে দেব অর্থাৎ কোন নোডে গেলে বিড়ালটি মাছের সন্ধান পাবে সেটাই হচ্ছে গোল।
edges = [(2,3), (0, 4), (4, 3), (1, 3), (1, 5),(1,4)]
goal = 5
G = nx.Graph()
G.add_edges_from(edges)
pos = nx.spring_layout(G)
nx.draw_networkx_nodes(G, pos)
nx.draw_networkx_edges(G, pos)
nx.draw_networkx_labels(G, pos)
pl.show()
ছবি - এনভারমেন্ট এর পথ (বিড়াল এবং মাছের ছবিটি আলাদা ভাবে যুক্ত করা হয়েছে ))
উপরের ছবিটিই আমাদের এনভারমেন্ট। এখানে বেশ কিছু রাস্তা রয়েছে। প্রাথমিক ভাবে বিড়ালটি 0 নোডে অবস্থান করে। বিড়ালটির কাজ হবে কোথায় মাছ রাখা আছে সেটি খুঁজে বের করা।
রিওয়ার্ড ম্যাট্রিক্স
এবার আমরা রিওয়ার্ড ম্যাট্রিক্স তৈরি করবো। বিড়ালটি যদি লক্ষ্যে পৌছাতে পারে সেক্ষেত্রে সে ১০০ পয়েন্ট পাবে। অন্যথায় ০ পয়েন্ট পাবে।
MATRIX_SIZE = 6
M = np.matrix(np.ones(shape =(MATRIX_SIZE, MATRIX_SIZE)))
M *= -1
for point in edges:
print(point)
if point[1] == goal:
M[point] = 100
else:
M[point] = 0
if point[0] == goal:
M[point[::-1]] = 100
else:
M[point[::-1]]= 0
# reverse of point
M[goal, goal]= 100
print(M)
আমাদের রিওয়ার্ড ম্যাট্রিক্স অনেকগুলো -1 দেয়া রয়েছে। এগুলোর অর্থ হচ্ছে এই নোড গুলোর মাঝে সরাসরি কোন কানেকশন নেই। আর সরাসরি কানেশন থাকলে 0 দেয়া রয়েছে। উদাহরন হিসেবে বলা যায় 0 নোডের সাথে কেবল মাত্র 4 এর সরাসরি কানেকশন রয়েছে এজন্য ক্ষেত্রে এই মান [-1. -1. -1. -1. 0. -1.] দেয়া রয়েছে , অর্থাৎ
  • (0,0) = -1
  • (0,1) = -1
  • (0,2) = -1
  • (0,3) = -1
  • (0,4) = 0
  • (0,5) = -1
কিউ ম্যাট্রিক্স
এই ধাপে বিড়াল এজেন্ট কিভাবে তার বর্তমান অবস্থায় তার জন্য সম্ভাব্য পরবর্তী পদক্ষেপ কি কি হতে পারে সেটা জানার জন্য ফাংশন তৈরি করবো। আমাদের ফাংশন তার জন্য কোন পলিসি বেস্ট হবে সেটারও খোঁজ করবে। এভাবে প্রতিনিয়ত পলিসি আপডেট হতে থাকবে এবং এই ভ্যালু গুলো দ্বারা কিউ ম্যাট্রিক্স গঠিত হবে। বিড়ালটি যত বেশিবার মাছ খুজতে যাবে কিউ ম্যাট্রিক্স-এ এনভারমেন্ট সম্পর্কে ইনফরমেশন তত বাড়তে থাকবে, অর্থাৎ বিড়ালটি সময়ের সাথে ততো বেশী পারদর্শী হয়ে উঠতে থাকবে।
available_action = available_actions(initial_state)
# Chooses one of the available actions at random
def sample_next_action(available_actions_range):
next_action = int(np.random.choice(available_action, 1))
return next_action
action = sample_next_action(available_action)
def update(current_state, action, gamma):
max_index = np.where(Q[action, ] == np.max(Q[action, ]))[1]
if max_index.shape[0] > 1:
max_index = int(np.random.choice(max_index, size = 1))
else:
max_index = int(max_index)
max_value = Q[action, max_index]
Q[current_state, action] = M[current_state, action] + gamma * max_value
if (np.max(Q) > 0):
return(np.sum(Q / np.max(Q)*100))
else:
return (0)
# Updates the Q-Matrix according to the path chosen
update(initial_state, action, gamma)
সময়ের সাথে লার্ন করা
এবার চূড়ান্ত ধাপ। এই ধাপে আমরা আমাদের রিইনফোর্সমেন্ট লার্নিং এজেন্টকে আমাদের সৃষ্ট এনভারমেন্টে ১০০০ বার মাছের খোজে পাঠাবো। প্রতিবার বিড়ালটি ০ নোড থেকে বিভিন্ন পথে মাছের জন্য অনুসন্ধান করবে। প্রতিবার অনুসন্ধান শেষে বিড়ালটি এনভারমেন্ট সম্পর্কে যে ইনফরমেশন পায় সেটি দ্বারা কিউ ম্যাট্রিক্স প্রতিনিয়ত আপডেট হতে থাকে, এভাবে সময়ের সাথে সাথে বিড়ালটি আরও বেশী দক্ষ হয়ে উঠতে থাকে।
scores = []
for i in range(1000):
current_state = np.random.randint(0, int(Q.shape[0]))
available_action = available_actions(current_state)
action = sample_next_action(available_action)
score = update(current_state, action, gamma)
scores.append(score)
# print("Trained Q matrix:")
# print(Q / np.max(Q)*100)
# You can uncomment the above two lines to view the trained Q matrix
# Testing
current_state = 0
steps = [current_state]
while current_state != 5:
next_step_index = np.where(Q[current_state, ] == np.max(Q[current_state, ]))[1]
if next_step_index.shape[0] > 1:
next_step_index = int(np.random.choice(next_step_index, size = 1))
else:
next_step_index = int(next_step_index)
steps.append(next_step_index)
current_state = next_step_index
print("Most efficient path:")
print(steps)
pl.plot(scores)
pl.xlabel('No of iterations')
pl.ylabel('Reward gained')
pl.show()
উপরের ছবি থেকে আমরা দেখতে পাচ্ছি মাছের সন্ধান পাবার জন্য সবথেকে ভালো পথটি হচ্ছে ০,৪,১,৫ । বিড়ালটির পারফরম্যান্স সময়ের সাথে বৃদ্ধি পেয়েছে এবং প্রায় ২০০ বার ইটারেশন বা মাছ খোজার পরে বিড়ালটি চুড়ান্ত দক্ষতা অর্জন করতে পেরেছে।
এটাই হচ্ছে রিইনফোর্সমেন্ট লার্নিং এর সারকথা, এজেন্ট পরিবেশ থেকে শেখে। শেখার সময় ভুল বা সঠিক যাই ফিডব্যাক লাভ করুক সেই ফিডব্যাক থেকেও শেখে , এভাবেই সময়ের সাথে সাথে এজেন্টের দক্ষতা বৃদ্ধি পেতে থাকে।