1 Dof RL Algorithm - Search Videos

Calculation and Design Calculate the DOF of the mechanism and... | Filo

Calculation and Design Calculate the DOF of the mechanism and... | …

5.9K views1 year ago

大模型微调不 “失忆” 的秘密：RL 为何比 SFT 更懂 “守旧”？MIT新发现：强化学习微调，为何比监督学习更“记”得好？

大模型微调不 “失忆” 的秘密：RL 为何比 SFT 更懂 “守旧”？MIT新发现…

990 views1 month ago

bilibili卢菁博士_北大AI博士后

手把手带你快速弄懂SFT、RLHF、DPO ！从定义到适用边界全流程解析~大模型|LLM

手把手带你快速弄懂SFT、RLHF、DPO ！从定义到适用边界全流程解 …

1.5K views1 month ago

bilibili爱学大模型的柒柒

大模型对齐方法综述与代码示例（二）

大模型对齐方法综述与代码示例（二）

444 views6 months ago

bilibiliswanmsg

Robotic 08_ Robot Simulation using matlab (DH parameter using Peter corke toolbox)_part3

Robotic 08_ Robot Simulation using matlab (DH parameter using Peter …

113.1K viewsApr 21, 2017

YouTubeDr. Amr Zamel

Circuits I: RLC Circuit Response

Circuits I: RLC Circuit Response

300.6K viewsJun 5, 2015

YouTubeThe PhD Engineer

Robotic Arm Control and Task Training through Deep Reinforcement Learning

Robotic Arm Control and Task Training through Deep Reinforce…

4.7K viewsApr 8, 2021

[CFD] The SIMPLE Algorithm (to solve incompressible Navier-Stokes)

153.5K viewsSep 25, 2018

YouTubeFluid Mechanics 101

Q Learning Algorithm and Agent - Reinforcement Learning p.2

113.4K viewsMay 31, 2019

CS 285: Lecture 15, Part 1: Offline Reinforcement Learning

16.3K viewsOct 16, 2021

RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练

8.8K viewsNov 18, 2024

bilibili蓝斯诺特

强化学习算法工程师的年度总结：RL 训练中的 Rollout、异步与框架设计

3.4K views2 months ago

bilibiliyang_xi_111

哈工大算法大佬亲授！《大模型算法：强化学习、微调与对齐》100 张 …

139 views9 months ago

bilibili博文视点阿豹Class

谷歌大佬新作 RL从入门到前沿

264 views4 months ago

bilibiliAI梨大谱

[Agentic RL] 10 分布的视角理解 LLM 的 SFT 训练和 RL 训练，Forward…

5.6K views1 month ago

bilibili五道口纳什

如何让LLM通过RL又好又准地使用工具?

3.1K views10 months ago

bilibiliNICE学术

一阶电路（RL），三要素法；期末不挂科，小白请教

16.1K viewsJun 19, 2023

bilibili桐桐桐童心呀

【Online RL】17 OLIVE算法（Optimism Let Iterative Value-fun…

462 views3 months ago

bilibiliJOJO想

基于归一化抓取空间的高效区域感知6-DoF抓取算法

265 viewsOct 23, 2024

bilibiliChenThree3

强化学习 (RL) 在做什么？RL原理讲解系列#1

7.1K viewsOct 31, 2023

【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导

103.5K views11 months ago

bilibili吃花椒的麦

第2章一阶电路暂态响应-换路定则求初始值（RC、RL、RLC电路-例题讲 …

12.5K viewsSep 29, 2021

bilibili橙子3712

强化学习第一节（RL基本概念工具基本算法）【个人知识分享】

27.7K viewsDec 2, 2021

bilibili二营长向强化学习开炮

RL 算法大突破！多智能体协作性能飞升

217 views10 months ago

bilibiliAI因斯坦玩转AI

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

22.2K viewsJun 23, 2024

bilibili五道口纳什

编译原理第四章LR（0）DFA构造，判断能否使用SLR（1）分析表解决 …

616 views2 months ago

bilibili甜滋滋的巧克力豆

相比SFT为什么RL训练后的模型更不容易遗忘？RL的奥卡姆剃刀原理： …

6.2K views5 months ago

bilibiliAI论文小小编

88.RL专题：策略中随机探索怎么实现

1.7K views10 months ago

bilibili文言AI

豆瓣 9.4分!《大模型算法》强化学习、DPO、微调SFT、GRPO、PPO、RL…

10.2K views9 months ago

bilibili叶子哥AI

106.RL专题：介绍下DPO执行的流程

2K views9 months ago

bilibili文言AI

See more videos