Pursuit-Evasion with Multi-Agent Reinforcement Learning

Python Reinforcement Learning MAPPO PDF Video

This project applies multi-agent reinforcement learning (MARL) to train cooperative strategies for drone swarms in pursuit-evasion scenarios. A team of evader drones learns to cooperate and lure pursuing drones into collisions with each other, even when the pursuers have superior control authority, in order to reach a goal location.

The method uses multi-agent proximal policy optimization (MAPPO) to train policies for teams of varying sizes (2v2 and 4v4) with full six-degree-of-freedom drone dynamics. A new augmented proportional navigation pursuer policy was designed specifically for drone swarm defense. The learned strategies exhibit emergent cooperative behaviors such as luring pursuers into collisions and encircling maneuvers.

The policies were validated in simulation and demonstrated on real Crazyflie nano quadrotor hardware in a 2v2 scenario, confirming successful sim-to-real transfer despite radio communication delay, sensor noise, and model uncertainties.