学术上,该研究成果可以作为校园无人车强化学习相关研究的创新发展,实践上可以解决送餐无法进入校园的问题。学习、物流策略、车辆调度。
前言
- 研究動機
- 研究目的
- 研究範圍
- 研究步驟
研究课题:利用强化学习解决无人车的最优路径解决方案,解决就餐时间店外人群拥挤买菜的问题。本研究主要利用逢甲大学各大楼的需求点进行路径仿真规划并测量车辆路径问题中虚拟需求点的位置和距离,通过研究不同场景得到最优物流策略。
文獻回顧
- 車輛路徑問題
- 強化學習
- 強化學習相關模式
- 貝爾曼方程(Bellman Equation)
- Q 學習(Q-Learning)
- 策略梯度
- 深度 Q 網路(Deep Q Network , DQN)
- Sarsa
- 強化學習應用旅行商問題與車輛路徑問題
- 綜合評析
它基于多智能体强化学习方法,采用Q-Learning和Boltzmann策略。表3 强化学习应用旅行商问题和车辆路径问题。
研究方法
問題特性
校園無人車派遣之強化學習架構
本研究模型拟以校门口为节点i,以无人车从校门口i到学习楼j的距离。最后,该模型使用主导目标值代替Q值,最终得到公式(32)和(33)目标函数。因此,本研究旨在最大化更新模型参数的奖励。在本研究中,模型被不断地、反复地训练,如图16的架构图所示,期望最终的策略路径决策可以基于这个“信任域策略优化”的奖励模型来寻找在容量有限的情况下,能够最小化无人车行驶距离的路径。
結果分析與討論
基本測試與分析
- 測試說明
- 測試結果
- 敏感度分析
- 綜合討論
本节进一步对上述基本测试结果进行分析和讨论。本研究以需求变化、需求点变化、各需求点容量限制三个参数进行测试分析,以10%、20%的上升或下降为例,并与原测试时间、数量进行比较。车辆、行驶距离。并分别讨论。车辆数量也在减少,相反,车辆容量在减少,车辆数量和距离也在增加。测试时间均在一秒以内,如表9所示。
情境分析
- 情境參數說明
- 分析測試
- 綜合情境分析
以下是基本场景一的分析结果,根据不同规模校园,分为载重25公斤和50公斤的无人车规模,分为单温层无人车和多温区共享无人车,根据情景分析比较三个不同的出发点。 。
表31 侨光科技大学校园规模场景2 分析结果(请求点:11) 表32 逢甲大学校园规模场景2 分析结果(请求点:16)
管理意涵
安装3辆以上无人驾驶汽车,未来无人驾驶汽车的数量可以乘以学生数量。并且根据分析数据的结果,设置三个起点会增加车辆的平均行驶距离。因此,推测由于校园面积规模较小,出发点密度不宜太高,中等规模的校园面积在26424平方米至263143平方米之间。大多数校园都是小型大学和学院。航运行为更加多元化,需求不固定,学生在餐饮选择上有更高的自由度。另外,校园内学生密度较高,因此从需求来看,多个需求点的高需求是比较常见的情况,可以选择使用多温区无人车进行发货。根据对起始点设置的分析,可以确定应该设置一个起始点。此外,园区规模适中,可部署的无人驾驶车辆为载重50公斤的多温区无人驾驶车辆,无需增加无人驾驶车辆的容量。在无人驾驶车辆数量方面,根据侨光科技大学校园情况分析,初步配置两辆以上无人驾驶车辆为宜。未来,无人驾驶汽车的数量可以乘以学生数量。根据分析数据结果,由于高校餐饮没有统一的点餐机制和烹饪机制,且餐饮选择较为多元化,不适合部署单一温度层的无人车进行运送。 。另外,如果配置单台平流层无人车或两种无人车组合,由于学生人口密度相对较高,车辆配送时只会配置一个出发点,这将导致显着的交通拥堵。运输量增加。距离。改变设置两个出发点是另一种策略。规模较大的校园,面积超过263143平方米,大部分是普通高校的校园面积,运输行为更加多元化,需求不固定,学生有较大的需求。餐饮选择的自由度。另外,校园内学生数量较多,用餐时会有大量学生购买餐食。另外,需求点中还存在办公楼或研究中心等非教育建筑,因此需求端是需求高的需求点多,同时需求少的需求点的情况。 ,适用于单一温度层。配备推送的无人车有两种类型,可以满足不同的需求。通过对起始点设置的分析,可以确定需要设置3个起始点。校园规模较大,适用的承载能力不仅维持公斤级的最小承载能力,还可以根据需求增加承载能力。在无人驾驶车辆的数量方面,根据逢甲大学校园的情况分析,初步适合配置5辆以上的无人驾驶车辆。未来,无人驾驶汽车的数量可以乘以学生数量。但这种规模的校园不适合只设置一个出发点,因为校园规模较大,需要多个出发点才能满足需求点较多的情况。如果没有多个出发点,车辆的无人配送路线就会太长。导致总运输时间过长,无法满足校园内距离主出发点较远的需求点的需求。
結論與建議
Aigerim Bogyrbayevay , Sungwook Jang , Ankit Shahy , Young Jae Jang , & Kwony, C. 2020), A reinforcement learning approach for rebalancing electric vehicle sharing systems, arXiv cs.LG], available at:. Vaibhav Kumar (2020),Mathematical Analysis of Reinforcement Learning - Bellman's Optimism Equation, Retrieved October 22, 2020, Website:. https://towardsdatascience.com/mathematical-analysis-of-reinforcement-lear ning-bellman-equation-ac9f0954e19f. Wouter Kool, Herke van Hoof, & Welling, M. 2020), “A Reinforcement Learning Approach to Optimization of Multiple Traveling Salesman Problems on Graphs”, Knowledge Base Systems, Volume 204, Available at:.