Q-Learning Visualizer

Usage

青いのはスタート、赤いのはゴールです。
矢印が Q 値を表します。灰色っぽいのはマイナス値、オレンジがプラス値です。 0 に近いほど白っぽくなります。
矢印の上にカーソルを合わせると、 Q 値が表示されます。
s00 a0, s00 a1, s00 a2, s00 a3, s01 a0, ..., s04 a3, s10 a0, ... の順番に空白区切りで、 1 試行につき 1 行ずつ入力してください。
あまりに行数が多いとフリーズすることがあります。 100 万回全部を表示するのではなく、 1000 回に 1 回表示するなど、行数を減らしてみてください。
スマホ利用は想定していません。見づらいかもしれませんが、動くとは思います。

サンプルコード

入力方法については以下のコードを参考にしてください。必ずしもこれに従う必要はありません。


import numpy as np
import random


N = 1_000_000  # 試行回数
H = 5          # 盤面の縦サイズ
W = 5          # 盤面の横サイズ
ACTIONS = 4    # 上下左右の行動数


def main():
    # Q 値を初期化
    q = np.zeros((H, W, ACTIONS))

    # 繰り返し (1 から N まで)
    for round in range(1, N + 1):
        # Q 値を更新する (省略)
        # ...

        # 1000 回に 1 回出力
        # 小数点以下 3 桁まで表示
        if round % 1000 == 0:
            for i in range(H):
                for j in range(W):
                    for k in range(ACTIONS):
                        print(f"{q[i][j][k]:.3f}", end=' ')
            print()


if __name__ == "__main__":
    main()

Input

Result

Line: 0 / 0

お知らせ + 宣伝

このページはオープンソースです。 GitHub で公開しています。バグかも？と思ったら GitHub の Issue でも WebClass でも、何かしらの方法でご連絡ください！リポジトリ: a01sa01to/univ-vis
プログラミングサークル Maximum をよろしくお願いします！
WebClass で提出したレポートをいちいちダウンロードしないといけないの面倒じゃないですか？そんなあなたに、便利な Chrome 拡張機能があります。