s00 a0
, s00 a1
, s00 a2
, s00 a3
, s01 a0
, ..., s04 a3
, s10 a0
, ... の順番に空白区切りで、 1 試行につき 1 行ずつ入力してください。入力方法については以下のコードを参考にしてください。 必ずしもこれに従う必要はありません。
import numpy as np import random N = 1_000_000 # 試行回数 H = 5 # 盤面の縦サイズ W = 5 # 盤面の横サイズ ACTIONS = 4 # 上下左右の行動数 def main(): # Q 値を初期化 q = np.zeros((H, W, ACTIONS)) # 繰り返し (1 から N まで) for round in range(1, N + 1): # Q 値を更新する (省略) # ... # 1000 回に 1 回出力 # 小数点以下 3 桁まで表示 if round % 1000 == 0: for i in range(H): for j in range(W): for k in range(ACTIONS): print(f"{q[i][j][k]:.3f}", end=' ') print() if __name__ == "__main__": main()
Line: 0 / 0