本文分类:news发布日期:2025/1/28 0:56:12
相关文章
ray.rllib-入门实践-12:自定义policy
在本博客开始之前,先厘清一下几个概念之间的区别与联系:env, agent, model, algorithm, policy. 强化学习由两部分组成: 环境(env)和智能体(agent)。环境(env)提供观测值和奖励; agent读取观测值&#x…
建站知识
2025/1/27 12:42:26
R语言学习笔记之高效数据操作
一、概要
数据操作是R语言的一大优势,用户可以利用基本包或者拓展包在R语言中进行复杂的数据操作,包括排序、更新、分组汇总等。R数据操作包:data.table和tidyfst两个扩展包。
data.table是当前R中处理数据最快的工具,可以实现快…
建站知识
2025/1/27 13:10:59
【20250125】syncthing使用注意事项
Syncthing 依赖于一个全局发现服务器,用来通过 Device ID 来发现设备 IP 和 端口,任何人都可以自己架设全局 Discovery 服务器,然后将自己的节点指向该服务器,这样就不必共享全局的服务器了,更甚至不需要依赖与因特网就…
建站知识
2025/1/27 12:11:52
ray.rllib 入门实践-5: 训练算法
前面的博客介绍了ray.rllib中算法的配置和构建,也包含了算法训练的代码。 但是rllib中实现算法训练的方式不止一种,本博客对此进行介绍。很多教程使用 PPOTrainer 进行训练,但是 PPOTrainer 在最近的 ray 版本中已经取消了。 环境配置&#x…
建站知识
2025/1/27 13:58:03
cuda reductionreduce
cuda reduction&reduce
概念
reduction
是一种并行计算中的操作概念或技术,指的是将一组数据通过某种特定的操作(如加法、乘法、求最大值、求最小值等)进行聚合,最终得到一个或几个汇总结果的过程。它强调的是这种数据处理…
建站知识
2025/1/27 18:03:58
ray.rllib-入门实践-10:自定义环境
前面介绍的入门实践都是基于 ray.rllib 内置的环境、模型和算法执行的,在应对具体任务时, 需要自定义交互环境、改进网络模型或者算法的损失函数。从本博客开始将逐个介绍。 在ray.rllib中使用自定义的环境,主要分为三步: 1&#…
建站知识
2025/1/26 9:08:16