PacktPublishing
diff --git a/‎09_Using RL4J for Reinforcement learning/sourceCode/cookbookapp/.gitignore‎
Lines changed: 11 additions & 0 deletions b/‎09_Using RL4J for Reinforcement learning/sourceCode/cookbookapp/.gitignore‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎09_Using RL4J for Reinforcement learning/sourceCode/cookbookapp/pom.xml‎
Lines changed: 155 additions & 0 deletions b/‎09_Using RL4J for Reinforcement learning/sourceCode/cookbookapp/pom.xml‎
Lines changed: 155 additions & 0 deletions
diff --git a/‎09_Using RL4J for Reinforcement learning/sourceCode/cookbookapp/src/main/java/MalmoExample.java‎
Lines changed: 146 additions & 0 deletions b/‎09_Using RL4J for Reinforcement learning/sourceCode/cookbookapp/src/main/java/MalmoExample.java‎
Lines changed: 146 additions & 0 deletions
@@ -0,0 +1,11 @@
+.idea
+target
+*/target/**
+cookbook-app.iml
+cookbook-app.iws
+cookbook-app.ipr
+cookbookapp.iml
+dependency-reduced-pom.xml
+model.zip
+LocalExecuteExample.csv
+cliffwalk_pixel.policy
@@ -0,0 +1,155 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project
+ xmlns="http://maven.apache.org/POM/4.0.0"
+ xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+ xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+ <modelVersion>4.0.0</modelVersion>
+ <groupId>com.javadeeplearningcookbook.app</groupId>
+ <artifactId>cookbookapp</artifactId>
+ <version>1.0-SNAPSHOT</version>
+ <build>
+ <plugins>
+ <plugin>
+ <groupId>org.apache.maven.plugins</groupId>
+ <artifactId>maven-compiler-plugin</artifactId>
+ <version>3.8.0</version>
+ <configuration>
+ <source>1.8</source>
+ <target>1.8</target>
+ </configuration>
+ </plugin>
+ <!--<plugin>
+ <artifactId>maven-assembly-plugin</artifactId>
+ <configuration>
+ <archive>
+ <manifest>
+ <mainClass>com.javadeeplearningcookbook.examples.CustomerRetentionPredictionExample</mainClass>
+ </manifest>
+ </archive>
+ <descriptorRefs>
+ <descriptorRef>jar-with-dependencies</descriptorRef>
+ </descriptorRefs>
+ </configuration>
+ </plugin>-->
+ <plugin>
+ <artifactId>maven-jar-plugin</artifactId>
+ <configuration>
+ <archive>
+ <manifest>
+ <mainClass>
+ com.javadeeplearningcookbook.examples.CustomerRetentionPredictionExample
+ </mainClass>
+ </manifest>
+ </archive>
+ </configuration>
+ </plugin>
+ <plugin>
+ <groupId>org.apache.maven.plugins</groupId>
+ <artifactId>maven-shade-plugin</artifactId>
+ <version>3.2.0</version>
+ <executions>
+ <execution>
+ <phase>package</phase>
+ <goals>
+ <goal>shade</goal>
+ </goals>
+ <configuration>
+ <transformers>
+ <transformer
+ implementation="org.apache.maven.plugins.shade.resource.ApacheLicenseResourceTransformer" />
+ <transformer
+ implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
+ <mainClass>com.javadeeplearningcookbook.examples.CustomerRetentionPredictionExample</mainClass>
+ </transformer>
+ </transformers>
+ </configuration>
+ </execution>
+ </executions>
+ </plugin>
+ </plugins>
+ </build>
+ <dependencies>
+ <dependency>
+ <groupId>junit</groupId>
+ <artifactId>junit</artifactId>
+ <version>4.11</version>
+ <scope>test</scope>
+ </dependency>
+ <dependency>
+ <groupId>org.deeplearning4j</groupId>
+ <artifactId>rl4j-core</artifactId>
+ <version>1.0.0-beta3</version>
+ </dependency>
+ <dependency>
+ <groupId>org.deeplearning4j</groupId>
+ <artifactId>rl4j-malmo</artifactId>
+ <version>1.0.0-beta3</version>
+ </dependency>
+ <dependency>
+ <groupId>org.nd4j</groupId>
+ <artifactId>nd4j-native-platform</artifactId>
+ <version>1.0.0-beta3</version>
+ </dependency>
+ <dependency>
+ <groupId>com.microsoft.msr.malmo</groupId>
+ <artifactId>MalmoJavaJar</artifactId>
+ <version>0.30.0</version>
+ </dependency>
+ <dependency>
+ <groupId>org.datavec</groupId>
+ <artifactId>datavec-api</artifactId>
+ <version>1.0.0-beta3</version>
+ </dependency>
+ <!-- You need the below dependency to use CodecRecordReader-->
+ <dependency>
+ <groupId>org.datavec</groupId>
+ <artifactId>datavec-data-codec</artifactId>
+ <version>1.0.0-beta3</version>
+ </dependency>
+ <!-- <dependency>
+ <groupId>org.bytedeco.javacpp-presets</groupId>
+ <artifactId>${moduleName}-platform</artifactId>
+ <version>${moduleVersion}-1.4.4</version>
+ </dependency>-->
+ <dependency>
+ <groupId>org.bytedeco</groupId>
+ <artifactId>javacv-platform</artifactId>
+ <version>1.4.4</version>
+ </dependency>
+ <dependency>
+ <groupId>org.bytedeco</groupId>
+ <artifactId>javacpp</artifactId>
+ <version>1.4.4</version>
+ </dependency>
+ <dependency>
+ <groupId>org.slf4j</groupId>
+ <artifactId>slf4j-simple</artifactId>
+ <version>1.8.0-beta4</version>
+ </dependency>
+ <dependency>
+ <groupId>org.slf4j</groupId>
+ <artifactId>slf4j-api</artifactId>
+ <version>1.8.0-beta4</version>
+ </dependency>
+ <!-- You need the below dependency to use LocalTransformExecutor-->
+ <dependency>
+ <groupId>org.datavec</groupId>
+ <artifactId>datavec-local</artifactId>
+ <version>1.0.0-beta3</version>
+ </dependency>
+ </dependencies>
+ <!-- Uncomment to use snapshot version -->
+ <!--<repositories>
+ <repository>
+ <id>snapshots-repo</id>
+ <url>https://oss.sonatype.org/content/repositories/snapshots</url>
+ <releases>
+ <enabled>false</enabled>
+ </releases>
+ <snapshots>
+ <enabled>true</enabled>
+ <updatePolicy>daily</updatePolicy> &lt;!&ndash; Optional, update daily &ndash;&gt;
+ </snapshots>
+ </repository>
+ </repositories>-->
+</project>
@@ -0,0 +1,146 @@
+import com.microsoft.msr.malmo.MissionSpec;
+import org.deeplearning4j.malmo.*;
+import org.deeplearning4j.rl4j.learning.HistoryProcessor;
+import org.deeplearning4j.rl4j.learning.sync.qlearning.QLearning;
+import org.deeplearning4j.rl4j.learning.sync.qlearning.discrete.QLearningDiscreteConv;
+import org.deeplearning4j.rl4j.network.dqn.DQNFactoryStdConv;
+import org.deeplearning4j.rl4j.policy.DQNPolicy;
+import org.deeplearning4j.rl4j.util.DataManager;
+
+import java.io.IOException;
+import java.util.Random;
+import java.util.logging.Logger;
+
+public class MalmoExample {
+ public static QLearning.QLConfiguration MALMO_QL = new QLearning.QLConfiguration(123, //Random seed
+ 200, //Max step By epoch
+ 100000, //Max step
+ 50000, //Max size of experience replay
+ 32, //size of batches
+ 500, //target update (hard)
+ 10, //num step noop warmup
+ 0.01, //reward scaling
+ 0.99, //gamma
+ 1.0, //td-error clipping
+ 0.1f, //min epsilon
+ 10000, //num step for eps greedy anneal
+ true //double DQN
+ );
+
+ public static DQNFactoryStdConv.Configuration MALMO_NET = new DQNFactoryStdConv.Configuration(
+ 0.01, //learning rate
+ 0.00, //l2 regularization
+ null, // updater
+ null // Listeners
+ );
+
+ /*
+ * The pixel input is 320x240, but using the history processor we scale that to 160x120
+ * and then crop out a 160x80 segment to remove pixels that aren't needed
+ */
+ public static HistoryProcessor.Configuration MALMO_HPROC = new HistoryProcessor.Configuration(1, // Number of frames
+ 160, // Scaled width
+ 120, // Scaled height
+ 160, // Cropped width
+ 80, // Cropped height
+ 0, // X offset
+ 30, // Y offset
+ 1 // Number of frames to skip
+ );
+
+ public static void main(String[] args) throws IOException {
+ try {
+ malmoCliffWalk();
+ loadMalmoCliffWalk();
+ } catch (MalmoConnectionError e) {
+ System.out.println(
+ "To run this example, download and start Project Malmo found at https://github.com/Microsoft/malmo.");
+ }
+ }
+
+ private static MalmoEnv createMDP() {
+ return createMDP(0);
+ }
+
+ private static MalmoEnv createMDP(final int initialCount) {
+ MalmoActionSpaceDiscrete actionSpace =
+ new MalmoActionSpaceDiscrete("movenorth 1", "movesouth 1", "movewest 1", "moveeast 1");
+ actionSpace.setRandomSeed(123);
+ MalmoObservationSpace observationSpace = new MalmoObservationSpacePixels(320, 240);
+ MalmoDescretePositionPolicy obsPolicy = new MalmoDescretePositionPolicy();
+
+ MalmoEnv mdp = new MalmoEnv("C:\\Users\\Admin\\Java-Deep-Learning-Cookbook\\09_Using RL4J for Reinforcement learning\\sourceCode\\cookbookapp\\target\\classes\\cliff_walking_rl4j.xml", actionSpace, observationSpace, obsPolicy);
+
+ final Random r = new Random(12345);
+
+ mdp.setResetHandler(new MalmoResetHandler() {
+ int count = initialCount;
+
+ @Override
+ public void onReset(MalmoEnv malmoEnv) {
+ count++;
+
+ if (count > 1000) {
+ MissionSpec mission = MalmoEnv.loadMissionXML("C:\\Users\\Admin\\Java-Deep-Learning-Cookbook\\09_Using RL4J for Reinforcement learning\\sourceCode\\cookbookapp\\target\\classes\\cliff_walking_rl4j.xml");
+
+ for (int x = 1; x < 4; ++x)
+ for (int z = 1; z < 13; ++z)
+ if (r.nextFloat() < 0.1)
+ mission.drawBlock(x, 45, z, "lava");
+
+ malmoEnv.setMission(mission);
+ }
+ }
+ });
+
+ return mdp;
+ }
+
+ public static void malmoCliffWalk() throws MalmoConnectionError, IOException {
+ //record the training data in rl4j-data in a new folder (save)
+ DataManager manager = new DataManager(false);
+
+ MalmoEnv mdp = createMDP();
+
+ //define the training
+ QLearningDiscreteConv<MalmoBox> dql =
+ new QLearningDiscreteConv<MalmoBox>(mdp, MALMO_NET, MALMO_HPROC, MALMO_QL, manager);
+
+ //train
+ dql.train();
+
+ //get the final policy
+ DQNPolicy<MalmoBox> pol = dql.getPolicy();
+
+ //serialize and save (serialization showcase, but not required)
+ pol.save("cliffwalk_pixel.policy");
+
+ //close the mdp
+ mdp.close();
+ }
+
+ //showcase serialization by using the trained agent on a new similar mdp
+ public static void loadMalmoCliffWalk() throws MalmoConnectionError, IOException {
+ MalmoEnv mdp = createMDP(10000);
+
+ //load the previous agent
+ DQNPolicy<MalmoBox> pol = DQNPolicy.load("cliffwalk_pixel.policy");
+
+ //evaluate the agent
+ double rewards = 0;
+ for (int i = 0; i < 10; i++) {
+ double reward = pol.play(mdp, new HistoryProcessor(MALMO_HPROC));
+ rewards += reward;
+ Logger.getAnonymousLogger().info("Reward: " + reward);
+ }
+
+ // Clean up
+ mdp.close();
+
+ Logger.getAnonymousLogger().info("average: " + rewards / 10);
+ }
+
+
+
+
+}