本发明涉及一种基于Dijkstra算法的Q‑learning光片上网络自适应路由规划方法,包括:S1:构建网络模型,并定义网络模型参数;S2:根据Dijkstra算法和网络模型,构建每个节点到其他节点的最短路径树,同时按照预设值在各节点存储若干条该节点到目标节点vd的最短路径,并获取源节点vs到目标节点vd的最短路径的路由跳数h(vs,vd);S3:根据Q‑learning算法,采用基于ε‑贪婪策略的链路选择机制进行路径规划,得到源节点vs到目标节点vd的若干条规划路径,获取规划路径的奖励值,规划路径的路由跳数不超过最短路径的路由跳数h(vs,vd);S4:根据规划路径的奖励值,得到最佳路径。本发明的方法克服了Dijkstra算法每个目标点只能产生一条最短路径的缺点。