MDP与蒙特卡洛抽样
2024数模国赛B题第4问|MDP与蒙特卡洛抽样
作者:@同济大学 刘越
Github ID:@miracle-techlink
联系邮箱:miracle.techlink@gmail.com
2024国赛已经匆匆落幕,但是,我们仍然需要总结经验,继续前行。本文将介绍强化学习中的蒙特卡洛方法,并给出一个具体的例子,帮助大家更好地理解这个概念。
在第二问中,因为所有的决策变量都是0-1变量,所以可以使用枚举法,或者蒙特卡洛模拟来求解。第三问,决策空间指数级别上升,暴力求解计算成本过高,所以可以引入启发式算法,比如模拟退火算法,遗传算法,粒子群算法,或者使用特殊的求解器,比如量子计算求解器。但是,在第四问中,决策变量是连续的,所以我们引入了马尔可夫决策过程(MDP),通过MDP根据当前检测结果和历史数据动态调整抽样率,以求的最优解,该方法与蒙特卡洛抽样法相结合,可以有效地解决该问题。
MDP决策推导马尔可夫决策过程(Markov Decision Process,MDP)是一种用于描述和控制具有不确定性的动态系统的数学模型。它由状态空间、动作空间、转移概率和奖励函数组成。在MDP中, ...
如何科学上网|clash安装教程
如何科学绿色上网|clash安装教程
引言
作者:@同济大学 刘越
Github ID:@miracle-techlink
联系邮箱:miracle.techlink@gmail.com
校内邮箱: 2254018@tongji.edu.cn
Clash for Windows 是代理工具Clash在Windows系统的图形客户端,同时还支持Linux、macOS系统,功能强大且支持多种代理协议,如V2Ray、Trojan、Shadowsocks(R)、Socks等协议。
2023年11月2日Clash for Windows作者Fndroid删除了该项目GitHub仓库并宣布停更,原因未知(进去坐大牢了),但已发布版本均正常可用。
clash项目是完全免费的,但是其缺点也显而易见,由于缺乏足够人手维护,虽然一直以来没有出现过问题,不过稳定性还是被人所质疑。
如果大家对其安装或者使用不是很有信息,就使用Sakuracat(下载链接)。每月10块不到,就可以享受非常稳定的代理服务。不过由于其没有全局代理服务,无法登录使用GPT等需要全局代理的网站。
一.下载 ...
Leetcode算法之枚举算法篇
Datwhale|力扣刷题之枚举算法
作者:@同济大学 刘越
Github ID:@miracle-techlink
联系邮箱:miracle.techlink@gmail.com
本文为Datawhale组队学习之Leetcode刷题笔记,感谢Datawhale提供的学习资源以及组队学习的小伙伴们的讨论与帮助。
本文教程链接如下:Github地址
PS: 原教程使用python编写,而本文使用C++语言。
枚举算法简介枚举算法的核心思想是:通过列举问题的所有状态,将它们逐一与目标状态进行比较,从而得到满足条件的解。
由于枚举算法要通过列举问题的所有状态来得到满足条件的解,因此,在问题规模变大时,其效率一般是比较低的。但是枚举算法也有自己特有的优点:
多数情况下容易编程实现,也容易调试。
建立在考察大量状态、甚至是穷举所有状态的基础上,所以算法的正确性比较容易证明。
所以,枚举算法通常用于求解问题规模比较小的问题,或者作为求解问题的一个子算法出现,通过枚举一些信息并进行保存,而这些消息的有无对主算法效率的高低有着较大影响。
枚举算法的解题思路枚举算法解题步骤采用枚举算法解题的 ...