Analyse von Policy Gradient Methoden für zeitvarianten LQR