本文分类:news发布日期:2025/1/28 0:12:27
相关文章
ray.rllib-入门实践-12:自定义多智能体强化学习
我在博客 ray.rllib-入门实践-10:自定义环境 中介绍了自定义 rllib 强化学习环境的方法与使用示例,但是那个示例是针对单智能体强化学习环境的。自定义多智能体强化学习环境及使用, 与单智能体方法步骤类似,单细节上有许多不同&am…
建站知识
2025/1/27 16:03:30
一分钟搭建本地私有AI大模型DeepSeek-R1
第一步:下载安装Ollama
Ollama:可以理解为是docker,快速安装各种大模型,下载后一键安装
下载地址: https://ollama.com 第二步:执行命令安装deepseek-r1
ollama run deepseek-r1:14b这里你可以搜索自己想…
建站知识
2025/1/27 14:10:12
ray.rllib-入门实践-8: 模型推断与评估
模型的训练、保存、加载请参考前面的博客: ray.rllib 入门实践-5: 训练算法-CSDN博客 ray.rllib 入门实践-6: 保存模型-CSDN博客 ray.rllib 入门实践-7: 加载训练好的模型-CSDN博客 本博客仅根据推荐的训练、保存、加载模型的方法…
建站知识
2025/1/26 11:33:44
ray.rllib-入门实践-12:自定义policy
在本博客开始之前,先厘清一下几个概念之间的区别与联系:env, agent, model, algorithm, policy. 强化学习由两部分组成: 环境(env)和智能体(agent)。环境(env)提供观测值和奖励; agent读取观测值&#x…
建站知识
2025/1/27 12:42:26
R语言学习笔记之高效数据操作
一、概要
数据操作是R语言的一大优势,用户可以利用基本包或者拓展包在R语言中进行复杂的数据操作,包括排序、更新、分组汇总等。R数据操作包:data.table和tidyfst两个扩展包。
data.table是当前R中处理数据最快的工具,可以实现快…
建站知识
2025/1/27 13:10:59
【20250125】syncthing使用注意事项
Syncthing 依赖于一个全局发现服务器,用来通过 Device ID 来发现设备 IP 和 端口,任何人都可以自己架设全局 Discovery 服务器,然后将自己的节点指向该服务器,这样就不必共享全局的服务器了,更甚至不需要依赖与因特网就…
建站知识
2025/1/27 12:11:52
ray.rllib 入门实践-5: 训练算法
前面的博客介绍了ray.rllib中算法的配置和构建,也包含了算法训练的代码。 但是rllib中实现算法训练的方式不止一种,本博客对此进行介绍。很多教程使用 PPOTrainer 进行训练,但是 PPOTrainer 在最近的 ray 版本中已经取消了。 环境配置&#x…
建站知识
2025/1/27 13:58:03