[STATS] Done, just need to run the script

dylandjian · dylandjian · commit b05111075c00 · 2018-05-10T14:27:31.000+02:00
diff --git a/README.md b/README.md
@@ -59,21 +59,16 @@ Ongoing project.
 * [Monte Carlo tree search explaination](https://int8.io/monte-carlo-tree-search-beginners-guide/)
 * [Nice tree search implementation](https://github.com/blanyal/alpha-zero/blob/master/mcts.py)
 
-# Statistics
+# Statistics, check branch stats
 
-## For a 10 layers deep Resnet evaluated on 50 games 64 simulations
+## For a 10 layers deep Resnet
 
 ### 9x9 board
 
-* 0.2377991s / move - 0.00371561093s / simulation 2 threads 2 batch_size_eval
-* 0.1624937s / move - 0.00253896406s / simulation 4 threads 4 batch_size_eval
-* 0.1465123s / move - 0.00228925468s / simulation 8 threads 8 batch_size_eval
-* 0.1401098s / move - 0.00218921563s / simulation 16 threads 16 batch_size_eval
+soon
 
 ### 19x19 board
 
-* 0.6306054s / move - 0.012612108s / simulation with 2 threads and 2 batch_size_eval with 50 simulations
-
 # Differences with the official paper
 
 * No resignation
diff --git a/const.py b/const.py
@@ -8,11 +8,11 @@
 ## Dtype of the tensors depending on CUDA
 DEVICE = torch.device("cuda") if CUDA else torch.device("cpu")
 ## Number of self-play parallel games
-PARALLEL_SELF_PLAY = 6
+PARALLEL_SELF_PLAY = 2
 ## Number of evaluation parallel games 
 PARALLEL_EVAL = 3
 ## MCTS parallel
-MCTS_PARALLEL = 6
+MCTS_PARALLEL = 12
 
 
 ##### GLOBAL
@@ -28,7 +28,7 @@
 ## Learning rate
 LR = 0.01
 ## Number of MCTS simulation
-MCTS_SIM = 32
+MCTS_SIM = 128
 ## Exploration constant
 C_PUCT = 0.2
 ## L2 Regularization
diff --git a/lib/game.py b/lib/game.py
@@ -102,8 +102,12 @@ def __call__(self):
         done = False
         state = self.board.reset()
         dataset = []
+        move_times = []
         moves = 0
         comp = False
+        
+        # if self.id % 10 == 0:
+        print("Starting game number %d" % self.id)
 
         while not done:
 
@@ -112,7 +116,7 @@ def __call__(self):
                 reward = self.board.get_winner()
                 if self.opponent:
                     final_time = timeit.default_timer() - start_time
-                    return pickle.dumps([reward, moves, final_time])
+                    return pickle.dumps([reward, moves, move_times, final_time])
                 return pickle.dumps((dataset, reward)) 
             
             ## Adaptative temperature to stop exploration
@@ -121,10 +125,17 @@ def __call__(self):
 
             ## For evaluation
             if self.opponent:
+                play_time = timeit.default_timer()
                 state, reward, done, _, action = self._play(_prepare_state(state), \
                                                 self.player, self.opponent.passed, competitive=True)
+                final_play_time = timeit.default_timer() - play_time
+                move_times.append(final_play_time)
+
+                play_time = timeit.default_timer()
                 state, reward, done, _, action = self._play(_prepare_state(state), \
                                                 self.opponent, self.player.passed, competitive=True)
+                final_play_time = timeit.default_timer() - play_time
+                move_times.append(final_play_time)
                 moves += 2
 
             ## For self-play
@@ -141,7 +152,7 @@ def __call__(self):
         ## Pickle the result because multiprocessing
         if self.opponent:
             final_time = timeit.default_timer() - start_time
-            return pickle.dumps([reward, moves, final_time])
+            return pickle.dumps([reward, moves, move_times, final_time])
 
         return pickle.dumps((dataset, reward))
 
diff --git a/models/mcts.py b/models/mcts.py
@@ -1,4 +1,5 @@
 import numpy as np
+import torch
 import threading
 import time
 import random
diff --git a/stats.py b/stats.py
@@ -9,11 +9,7 @@
 from subprocess import call
 
 
-MCTS_PARALLELS = [2, 4, 6, 8, 16]
-MCTS_SIMS = [32, 64, 128, 160]
-BATCH_SIZE_EVALS = [2, 4, 6, 8]
-SAMPLE_NUM = 30
-
+SAMPLE_NUM = 50
 
 def overwrite_file(old_values, new_values):
     for idx, new_value in new_values.items():
@@ -29,6 +25,8 @@ def do_sims(player, old_values, mcts_parallel=2, mcts_sim=8, batch_size_eval=2):
         "BATCH_SIZE_EVAL": batch_size_eval
     }
     overwrite_file(old_values, new_values)
+    print("-- STARTING FOR %d GAMES WITH MCTS PARALLEL %d SIMS %d BATCH_SIZE %d --"\
+            % (SAMPLE_NUM, mcts_parallel, mcts_sim, batch_size_eval))
     queue, results = create_matches(player, cores=PARALLEL_SELF_PLAY, 
                     opponent=player, match_number=SAMPLE_NUM)
     moves = []
@@ -38,50 +36,54 @@ def do_sims(player, old_values, mcts_parallel=2, mcts_sim=8, batch_size_eval=2):
         for _ in range(SAMPLE_NUM):
             result = pickle.loads(results.get())
             moves.append(result[1])
-            times.append(result[2])
+            move_times = result[2]
+            times.append(result[3])
     finally:
         queue.close()
         results.close()
-    
-    print("-- FINAL RESULTS FOR %d GAMES WITH MCTS PARALLEL %d SIMS %d BATCH_SIZE %d --"\
-            % (SAMPLE_NUM, mcts_parallel, mcts_sim, batch_size_eval))
-    print("total game duration: %d seconds, total game move count: %d" \
-                % (sum(times) / PARALLEL_SELF_PLAY, sum(moves)))
+    print("-- RESULTS --")
+    print("real total game duration: %.3f seconds, total game move count: %d" \
+                % (sum(times), sum(moves)))
     print("average game duration: %.5f seconds, average game move count: %.1f" \
                 % (np.mean(times), np.mean(moves)))
     print("average move duration: %.5f seconds, average sim duration: %.8f seconds" \
-            % (sum(times) / sum(moves),  sum(times) / (sum(moves) * mcts_sim)))
+            % (np.mean(move_times),  np.mean(move_times) / mcts_sim))
     print("-- DONE --\n")
     return new_values
 
 
 def stats_report():
     multiprocessing.set_start_method("spawn")
     player = Player()
-    old_values = {
+    first_values = {
         "MCTS_PARALLEL": MCTS_PARALLEL,
         "MCTS_SIM": MCTS_SIM,
         "BATCH_SIZE_EVAL": BATCH_SIZE_EVAL
     }
 
-    old_values = do_sims(player, old_values, mcts_parallel=2, mcts_sim=32, batch_size_eval=2)
-    old_values = do_sims(player, old_values, mcts_parallel=4, mcts_sim=32, batch_size_eval=2)
-    old_values = do_sims(player, old_values, mcts_parallel=6, mcts_sim=32, batch_size_eval=2)
-    old_values = do_sims(player, old_values, mcts_parallel=8, mcts_sim=32, batch_size_eval=2)
-    old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=32, batch_size_eval=2)
-    old_values = do_sims(player, old_values, mcts_parallel=8, mcts_sim=32, batch_size_eval=4)
-    old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=32, batch_size_eval=4)
-    old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=32, batch_size_eval=6)
+    ## 64 simulations
+    old_values = do_sims(player, first_values, mcts_parallel=2, mcts_sim=64, batch_size_eval=2)
+    old_values = do_sims(player, old_values, mcts_parallel=4, mcts_sim=64, batch_size_eval=2)
+    old_values = do_sims(player, old_values, mcts_parallel=6, mcts_sim=64, batch_size_eval=2)
+    old_values = do_sims(player, old_values, mcts_parallel=8, mcts_sim=64, batch_size_eval=2)
+    old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=64, batch_size_eval=2)
+    old_values = do_sims(player, old_values, mcts_parallel=8, mcts_sim=64, batch_size_eval=4)
+    old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=64, batch_size_eval=4)
+    old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=64, batch_size_eval=6)
     
-    old_values = do_sims(player, old_values, mcts_parallel=2, mcts_sim=128, batch_size_eval=2)
+
+    ## 128 simulations
+    old_values = do_sims(player, old_values, mcts_parallel=4, mcts_sim=128, batch_size_eval=2)
     old_values = do_sims(player, old_values, mcts_parallel=4, mcts_sim=128, batch_size_eval=2)
     old_values = do_sims(player, old_values, mcts_parallel=6, mcts_sim=128, batch_size_eval=2)
-    old_values = do_sims(player, old_values, mcts_parallel=8, mcts_sim=128, batch_size_eval=2)
+    old_values = do_sims(player, old_values, mcts_parallel=8, mcts_sim=128, batch_size_eval=4)
     old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=128, batch_size_eval=2)
     old_values = do_sims(player, old_values, mcts_parallel=8, mcts_sim=128, batch_size_eval=4)
     old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=128, batch_size_eval=4)
     old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=128, batch_size_eval=6)
     
+
+    ## 160 simulations
     old_values = do_sims(player, old_values, mcts_parallel=2, mcts_sim=160, batch_size_eval=2)
     old_values = do_sims(player, old_values, mcts_parallel=4, mcts_sim=160, batch_size_eval=2)
     old_values = do_sims(player, old_values, mcts_parallel=6, mcts_sim=160, batch_size_eval=2)
@@ -91,7 +93,6 @@ def stats_report():
     old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=160, batch_size_eval=4)
     old_values = do_sims(player, old_values, mcts_parallel=12, mcts_sim=160, batch_size_eval=6)
 
-    
 
 
 if __name__ == "__main__":

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`import numpy as np`
	`2`	`+import torch`
`2`	`3`	`import threading`
`3`	`4`	`import time`
`4`	`5`	`import random`