minor fix

findmyway · findmyway · commit 61eef70327a5 · 2019-02-03T00:20:19.000+08:00
diff --git a/Dockerfile b/Dockerfile
@@ -2,5 +2,5 @@ FROM julia:1.1
 
 ADD . /RLIntro
 WORKDIR /RLIntro
-RUN ["julia", "-e", "using Pkg; Pkg.develop(PackageSpec(path=pwd())); Pkg.instantiate(); pkg\"precompile\""]
+RUN ["julia", "-e", "using Pkg; Pkg.Registry.add(\"General\"); Pkg.Registry.add(RegistrySpec(url = \"https://github.com/Ju-jl/Registry.git\")); Pkg.add(\"Plots\"); Pkg.develop(PackageSpec(path=pwd())); Pkg.instantiate(); pkg\"precompile\""]
 CMD ["julia"]
diff --git a/src/RLIntro.jl b/src/RLIntro.jl
@@ -22,7 +22,7 @@ include("chapter13/chapter13.jl")
 function plot_all(fig_dir=".")
     for f in names(RLIntro)
         if startswith(string(f), "fig")
-            @eval $f()
+            @eval $f($fig_dir)
         end
     end
 end
diff --git a/src/chapter02/chapter02.jl b/src/chapter02/chapter02.jl
@@ -1,6 +1,7 @@
 @reexport module Chapter02TenArmedTestbed
 
-export fig_2_1, fig_2_2, fig_2_3, fig_2_4, fig_2_5, fig_2_6
+# export fig_2_1
+export fig_2_2, fig_2_3, fig_2_4, fig_2_5, fig_2_6
 
 include("ten_armed_testbed.jl")
 
diff --git a/src/chapter02/ten_armed_testbed.jl b/src/chapter02/ten_armed_testbed.jl
@@ -25,59 +25,59 @@ end
 
 ##############################
 
-# function fig_2_1()
+# function fig_2_1(fig_dir=".")
 #     env = MultiArmBanditsEnv()
 #     f = render(env)
-#     savefig(f, "figure_2_1.png")
+#     savefig(f, joinpath(fig_dir, "figure_2_1.png"))
 #     f
 # end
 
 
-function fig_2_2()
+function fig_2_2(fig_dir=".")
     learner(ϵ) = QLearner(TabularQ(1, 10), EpsilonGreedySelector(ϵ), 0., cached_inverse_decay())
     p = plot(layout=(2, 1), dpi=200)
     for ϵ in [0.1, 0.01, 0.0]
         stats = [bandit_testbed(learner(ϵ)) for _ in 1:2000]
         plot!(p, mean(x[1] for x in stats), subplot=1, legend=:bottomright, label="epsilon=$ϵ")
         plot!(p, mean(x[2] for x in stats), subplot=2, legend=:bottomright, label="epsilon=$ϵ")
     end
-    savefig(p, "figure_2_2.png")
+    savefig(p, joinpath(fig_dir, "figure_2_2.png"))
     p
 end
 
-function fig_2_3()
+function fig_2_3(fig_dir=".")
     learner1() = QLearner(TabularQ(1, 10, 5.), EpsilonGreedySelector(0.0), 0., 0.1)
     learner2() = QLearner(TabularQ(1, 10), EpsilonGreedySelector(0.1), 0., 0.1)
     p = plot(legend=:bottomright, dpi=200)
     plot!(p, mean(bandit_testbed(learner1())[2] for _ in 1:2000), label="Q_1=5, epsilon=0.")
     plot!(p, mean(bandit_testbed(learner2())[2] for _ in 1:2000), label="Q_1=0, epsilon=0.1")
-    savefig(p, "figure_2_3.png")
+    savefig(p, joinpath(fig_dir, "figure_2_3.png"))
     p
 end
 
-function fig_2_4()
+function fig_2_4(fig_dir=".")
     learner1() = QLearner(TabularQ(1, 10), UpperConfidenceBound(10), 0., 0.1)
     learner2() = QLearner(TabularQ(1, 10), EpsilonGreedySelector(0.1), 0., 0.1)
     p = plot(legend=:bottomright, dpi=200)
     plot!(p, mean(bandit_testbed(learner1())[1] for _ in 1:2000), label="UpperConfidenceBound, c=2")
     plot!(p, mean(bandit_testbed(learner2())[1] for _ in 1:2000), label="epsilon-greedy, epsilon=0.1")
-    savefig(p, "figure_2_4.png")
+    savefig(p, joinpath(fig_dir, "figure_2_4.png"))
     p
 end
 
-function fig_2_5()
+function fig_2_5(fig_dir=".")
     learner(alpha, baseline) = GradientBanditLearner(TabularQ(1, 10), WeightedSample(), alpha, baseline)
     truevalue = 4.0
     p = plot(legend=:bottomright, dpi=200)
     plot!(p, mean(bandit_testbed(learner(0.1, sample_avg()), truevalue)[2] for _ in 1:2000), label="alpha = 0.1, with baseline")
     plot!(p, mean(bandit_testbed(learner(0.4, sample_avg()), truevalue)[2] for _ in 1:2000), label="alpha = 0.4, with baseline")
     plot!(p, mean(bandit_testbed(learner(0.1, 0.), truevalue)[2] for _ in 1:2000), label="alpha = 0.1, without baseline")
     plot!(p, mean(bandit_testbed(learner(0.4, 0.), truevalue)[2] for _ in 1:2000), label="alpha = 0.4, without baseline")
-    savefig(p, "figure_2_5.png")
+    savefig(p, joinpath(fig_dir, "figure_2_5.png"))
     p
 end
 
-function fig_2_6()
+function fig_2_6(fig_dir=".")
     ϵ_greedy_learner(ϵ) = QLearner(TabularQ(1, 10), EpsilonGreedySelector(ϵ), 0., cached_inverse_decay())
     gradient_learner(alpha) = GradientBanditLearner(TabularQ(1, 10), WeightedSample(), alpha, sample_avg())
     UpperConfidenceBound_learner(c) = QLearner(TabularQ(1, 10), UpperConfidenceBound(10, c), 0., cached_inverse_decay())
@@ -88,6 +88,6 @@ function fig_2_6()
     plot!(p, -5:1, [mean(mean(bandit_testbed(gradient_learner(2.0^i))[1] for _ in 1:2000)) for i in -5:1], label="gradient")
     plot!(p, -4:2, [mean(mean(bandit_testbed(UpperConfidenceBound_learner(2.0^i))[1] for _ in 1:2000)) for i in -4:2], label="UCB")
     plot!(p, -2:2, [mean(mean(bandit_testbed(greedy_with_init_learner(2.0^i))[1] for _ in 1:2000)) for i in -2:2], label="greedy with initialization")
-    savefig(p, "figure_2_6.png")
+    savefig(p, joinpath(fig_dir, "figure_2_6.png"))
     p
 end
diff --git a/src/chapter03/grid_world.jl b/src/chapter03/grid_world.jl
@@ -30,18 +30,18 @@ const GridWorldActions = [CartesianIndex(-1, 0),
 
 const GridWorldEnvModel = DeterministicDistributionModel([nextstep(GridWorldCartesianIndices[s], a) for s in 1:25, a in GridWorldActions])
 
-function fig_3_2()
+function fig_3_2(fig_dir=".")
     V, π = TabularV(25), RandomPolicy(fill(0.25, 25, 4))
     policy_evaluation!(V, π, GridWorldEnvModel)
     p = heatmap(1:5, 1:5, reshape(V.table, 5,5), yflip=true)
-    savefig(p, "figure_3_2.png")
+    savefig(p, joinpath(fig_dir, "figure_3_2.png"))
     p
 end
 
-function fig_3_5()
+function fig_3_5(fig_dir=".")
     V, π = TabularV(25), DeterministicPolicy(rand(1:4, 25), 4)
     policy_iteration!(V, π, GridWorldEnvModel)
     p = heatmap(1:5, 1:5, reshape(V.table, 5,5), yflip=true)
-    savefig(p, "figure_3_5.png")
+    savefig(p, joinpath(fig_dir, "figure_3_5.png"))
     p
 end
diff --git a/src/chapter04/car_rental.jl b/src/chapter04/car_rental.jl
@@ -48,12 +48,12 @@ end
 
 const CarRentalEnvModel = DeterministicDistributionModel([nextstep(s, a) for s in 1:(MaxCars+1)^2, a in 1:length(Actions)])
 
-function fig_4_2(max_iter=100)
+function fig_4_2(fig_dir=".", max_iter=100)
     V, π = TabularV((1+MaxCars)^2), DeterministicPolicy(zeros(Int,21^2), length(Actions))
     policy_iteration!(V, π, CarRentalEnvModel; γ=0.9, max_iter=max_iter)
     p1 = heatmap(0:MaxCars, 0:MaxCars, reshape([decode_action(x) for x in π.table], 1+MaxCars,1+MaxCars))
-    savefig(p1, "figure_4_2_policy.png")
+    savefig(p1, joinpath(fig_dir, "figure_4_2_policy.png"))
     p2 = heatmap(0:MaxCars, 0:MaxCars, reshape(V.table, 1+MaxCars,1+MaxCars))
-    savefig(p2, "figure_4_2_value.png")
+    savefig(p2, joinpath(fig_dir, "figure_4_2_value.png"))
     p1, p2
 end
diff --git a/src/chapter04/gambler_problem.jl b/src/chapter04/gambler_problem.jl
@@ -26,10 +26,10 @@ end
 
 const GamblerProblemEnvModel = DeterministicDistributionModel([nextstep(s, a) for s in 1:(WinCapital+1), a in 1:WinCapital])
 
-function fig_4_3(max_iter=typemax(Int))
+function fig_4_3(fig_dir=".", max_iter=typemax(Int))
     V = TabularV(1+WinCapital)
     value_iteration!(V, GamblerProblemEnvModel; γ=1.0, max_iter=max_iter)
     p = plot(V.table[2:end-1])
-    savefig(p, "figure_4_3.png")
+    savefig(p, joinpath(fig_dir, "figure_4_3.png"))
     p
 end
diff --git a/src/chapter04/grid_world.jl b/src/chapter04/grid_world.jl
@@ -25,10 +25,10 @@ const GridWorldActions = [CartesianIndex(-1, 0),
 
 const GridWorldEnvModel = DeterministicDistributionModel([nextstep(GridWorldCartesianIndices[s], a) for s in 1:16, a in GridWorldActions])
 
-function fig_4_1()
+function fig_4_1(fig_dir=".")
     V, π = TabularV(16), RandomPolicy(fill(0.25, 16, 4))
     policy_evaluation!(V, π, GridWorldEnvModel; γ=1.0)
     p = heatmap(1:4, 1:4, reshape(V.table, 4,4), yflip=true)
-    savefig(p, "figure_4_1.png")
+    savefig(p, joinpath(fig_dir, "figure_4_1.png"))
     p
 end
diff --git a/src/chapter05/blackjack.jl b/src/chapter05/blackjack.jl
@@ -18,7 +18,7 @@ const player_policy = begin
     DeterministicPolicy(table, 2)
 end
 
-function fig_5_1(n=10000)
+function fig_5_1(fig_dir=".", n=10000)
     agent = Agent(MonteCarloLearner(TabularV(length(Indices)), player_policy, 1.0),
                   EpisodeSARDBuffer(),
                   preprocessor)
@@ -29,13 +29,13 @@ function fig_5_1(n=10000)
                             for dealer_card in 2:11, player_sum in 11:21]
     p1 = heatmap(usable_ace_values)
     p2 = heatmap(no_usable_ace_values)
-    savefig(p1, "figure_5_1_usable_ace_n_$n.png")
-    savefig(p2, "figure_5_1_no_usable_ace_n_$n.png")
+    savefig(p1, joinpath(fig_dir, "figure_5_1_usable_ace_n_$n.png"))
+    savefig(p2, joinpath(fig_dir, "figure_5_1_no_usable_ace_n_$n.png"))
     p1, p2
 end
 
 "TODO: WARNING!!! result is not the same with the implementation by Python"
-function fig_5_2(n=1000000)
+function fig_5_2(fig_dir=".", n=1000000)
     agent = Agent(MonteCarloExploringStartLearner(TabularQ(length(Indices), length(actionspace(BlackJackEnv))),
                                         player_policy,
                                         RandomPolicy(fill(0.5, length(Indices), length(actionspace(BlackJackEnv)))),
@@ -56,14 +56,14 @@ function fig_5_2(n=1000000)
     p2 = heatmap(no_usable_ace_values)
     p3 = heatmap(usable_ace_policy)
     p4 = heatmap(no_usable_ace_policy)
-    savefig(p1, "figure_5_2_usable_ace_n_$n.png")
-    savefig(p2, "figure_5_2_no_usable_ace_n_$n.png")
-    savefig(p3, "figure_5_2_usable_ace_policy_n_$n.png")
-    savefig(p4, "figure_5_2_no_usable_ace_policy_n_$n.png")
+    savefig(p1, joinpath(fig_dir, "figure_5_2_usable_ace_n_$n.png"))
+    savefig(p2, joinpath(fig_dir, "figure_5_2_no_usable_ace_n_$n.png"))
+    savefig(p3, joinpath(fig_dir, "figure_5_2_usable_ace_policy_n_$n.png"))
+    savefig(p4, joinpath(fig_dir, "figure_5_2_no_usable_ace_policy_n_$n.png"))
     p1, p2, p3, p4
 end
 
-function fig_5_3(n=10000)
+function fig_5_3(fig_dir=".", n=10000)
     init_internal_state = [1, 13, 2]
     s = preprocessor(BlackJack.encode(init_internal_state...))
 
@@ -93,6 +93,6 @@ function fig_5_3(n=10000)
     end
     p = plot(mean((run() .- (-0.27726)).^2 for _ in 1:100), label="Weighted Importance Sampling")
     p = plot!(p, mean((run(:OrdinaryImportanceSampling) .- (-0.27726)).^2 for _ in 1:100), xscale=:log10, label="Ordinary Importance Sampling")
-    savefig(p, "figure_5_3.png")
+    savefig(p, joinpath(fig_dir, "figure_5_3.png"))
     p
 end
diff --git a/src/chapter05/leftright.jl b/src/chapter05/leftright.jl
@@ -6,7 +6,7 @@ gr()
 
 
 
-function fig_5_4()
+function fig_5_4(fig_dir=".")
     function value_collect()
         values = []
         function f(env, agent)
@@ -31,6 +31,6 @@ function fig_5_4()
         train!(LeftRightEnv(), agent; callbacks = callbacks)
         plot!(p, callbacks[2](), xscale = :log10)
     end
-    savefig(p, "figure_5_4.png")
+    savefig(p, joinpath(fig_dir, "figure_5_4.png"))
     p
 end
diff --git a/src/chapter06/cliff_walking.jl b/src/chapter06/cliff_walking.jl
@@ -51,7 +51,7 @@ function gen_env_Qagent(α=0.5)
     env, agent
 end
 
-function fig_6_3_a()
+function fig_6_3_a(fig_dir=".")
     function rewards(env, agent)
         callbacks=(stop_at_episode(500, false), rewards_of_each_episode())
         train!(env, agent; callbacks=callbacks)
@@ -61,11 +61,11 @@ function fig_6_3_a()
     p = plot(legend=:bottomright, dpi=200)
     plot!(p, mean(rewards(gen_env_Qagent()...) for _ in 1:100), label="QLearning")
     plot!(p, mean(rewards(gen_env_SARSAagent()...) for _ in 1:100), label="SARSA")
-    savefig(p, "figure_6_3_a.png")
+    savefig(p, joinpath(fig_dir, "figure_6_3_a.png"))
     p
 end
 
-function fig_6_3_b()
+function fig_6_3_b(fig_dir=".")
     A = 0.1:0.05:0.95
     function avg_reward_per_episode(n_episodes, env, agent)
         callbacks=(stop_at_episode(n_episodes, false), rewards_of_each_episode())
@@ -82,6 +82,6 @@ function fig_6_3_b()
     plot!(p, A, [mean(avg_reward_per_episode(1000, gen_env_Qagent(α)...) for _ in 1:10) for α in A], label="Asymptotic interim Q")
     plot!(p, A, [mean(avg_reward_per_episode(1000, gen_env_SARSAagent(α)...) for _ in 1:10) for α in A], label="Asymptotic SARSA")
     plot!(p, A, [mean(avg_reward_per_episode(1000, gen_env_ExpectedSARSAagent(α)...) for _ in 1:10) for α in A], label="Asymptotic ExpectedSARSA")
-    savefig(p, "figure_6_3_b.png")
+    savefig(p, joinpath(fig_dir, "figure_6_3_b.png"))
     p
 end
diff --git a/src/chapter06/maximization_bias.jl b/src/chapter06/maximization_bias.jl
@@ -45,7 +45,7 @@ function gen_env_Qagent()
     env, agent
 end
 
-function fig_6_5()
+function fig_6_5(fig_dir=".")
     function run_once(env, agent)
         cbs = (stop_at_episode(300), count_left_actions_from_A())
         train!(env, agent; callbacks=cbs)
@@ -54,6 +54,6 @@ function fig_6_5()
     p = plot(legend=:topright, dpi=200)
     plot!(p, mean(run_once(gen_env_DQagent()...) for _ in 1:10000), label="Double-Q")
     plot!(p, mean(run_once(gen_env_Qagent()...) for _ in 1:10000), label="Q")
-    savefig(p, "figure_6_5.png")
+    savefig(p, joinpath(fig_dir, "figure_6_5.png"))
     p
 end
diff --git a/src/chapter06/randomwalk.jl b/src/chapter06/randomwalk.jl
@@ -46,18 +46,18 @@ function gen_env_MCagent(α)
     env, agent
 end
 
-function fig_6_2_a()
+function fig_6_2_a(fig_dir=".")
     p = plot(dpi = 200)
     for i in [1, 9, 90]
         env, agent = gen_env_TDagent(0.1)
         train!(env, agent; callbacks = (stop_at_episode(i),))
         plot!(p, agent.learner.approximator.table[2:end - 1])
     end
-    savefig(p, "figure_6_2_a.png")
+    savefig(p, joinpath(fig_dir, "figure_6_2_a.png"))
     p
 end
 
-function fig_6_2_b()
+function fig_6_2_b(fig_dir=".")
     p = plot(dpi = 200)
     for α in [0.05, 0.1, 0.15]
         callbacks = (stop_at_episode(100), record_rms())
@@ -70,11 +70,11 @@ function fig_6_2_b()
         train!(gen_env_MCagent(α)...;callbacks = callbacks)
         plot!(p, callbacks[2](), label ="MC alpha=$α")
     end
-    savefig(p, "figure_6_2_b.png")
+    savefig(p, joinpath(fig_dir, "figure_6_2_b.png"))
     p
 end
 
-function fig_6_2_c()
+function fig_6_2_c(fig_dir=".")
     p = plot(dpi = 200)
     avg_rms = []
     for i in 1:100
@@ -92,6 +92,6 @@ function fig_6_2_c()
     end
     plot!(mean(avg_rms), color=:red, label="MC")
 
-    savefig(p, "figure_6_2_c.png")
+    savefig(p, joinpath(fig_dir, "figure_6_2_c.png"))
     p
 end
diff --git a/src/chapter06/windy_grid_world.jl b/src/chapter06/windy_grid_world.jl
@@ -27,11 +27,11 @@ function gen_env_agent()
     env, agent
 end
 
-function fig_6_2_d()
+function fig_6_2_d(fig_dir=".")
     env, agent = gen_env_agent()
     callbacks = (stop_at_step(8000), episode_count())
     train!(env, agent; callbacks=callbacks)
     p = plot(callbacks[2](), legend=:bottomright, dpi=200)
-    savefig(p, "figure_6_2_d.png")
+    savefig(p, joinpath(fig_dir, "figure_6_2_d.png"))
     p
 end
diff --git a/src/chapter07/randomwalk.jl b/src/chapter07/randomwalk.jl
@@ -50,11 +50,11 @@ function records(n)
     avg_rms
 end
 
-function fig_7_2()
+function fig_7_2(fig_dir=".")
     p = plot(legend=:topright, dpi = 200)
     @showprogress for n in [2^i for i in 0:9]
         plot!(p, A, records(n), label="n=$n")
     end
-    savefig(p, "figure_7_2.png")
+    savefig(p, joinpath(fig_dir, "figure_7_2.png"))
     p
 end
diff --git a/src/chapter08/expectation_vs_sample.jl b/src/chapter08/expectation_vs_sample.jl
@@ -11,13 +11,13 @@ function run_once(b)
     [abs(e - ȳ) for e in Reductions((ŷ, i) -> ŷ + (distribution[rand(1:b)] - ŷ) / i, 1:2*b)]
 end
 
-function fig_8_7(n_runs = 100)
+function fig_8_7(fig_dir=".", n_runs = 100)
     p = plot(legend=:topright, dpi=200)
     for b in [2, 10, 100, 1000]
         rms = mean(run_once(b) for _ in 1:n_runs)
         xs = (1:2*b) ./ b
         plot!(p, xs, rms, label="b=$b")
     end
-    savefig(p, "figure_8_7.png")
+    savefig(p, joinpath(fig_dir, "figure_8_7.png"))
     p
 end
diff --git a/src/chapter08/maze.jl b/src/chapter08/maze.jl
diff --git a/src/chapter08/trajectory_sampling.jl b/src/chapter08/trajectory_sampling.jl
diff --git a/src/chapter09/random_walk.jl b/src/chapter09/random_walk.jl
diff --git a/src/chapter10/access_control.jl b/src/chapter10/access_control.jl
diff --git a/src/chapter10/mountain_car.jl b/src/chapter10/mountain_car.jl
diff --git a/src/chapter11/counter_example.jl b/src/chapter11/counter_example.jl
diff --git a/src/chapter12/random_walk.jl b/src/chapter12/random_walk.jl
diff --git a/src/chapter13/short_corridor.jl b/src/chapter13/short_corridor.jl