Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

reinforcement-learning

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

74,606

Base only

Active filters: reinforcement-learning

InternScience/Agents-K1

Text Generation • 4B • Updated 11 days ago • 573 • 20

trjxter/Gwimi-4-12B-IT-GGUF

Text Generation • 12B • Updated 2 days ago • 798 • 6

Chunjiang-Intelligence/DeepSeek-v4-Fable

Text Generation • Updated 30 minutes ago • 6

MooreThreads/MusaCoder-27B

Reinforcement Learning • 3.05M • Updated 13 days ago • 811 • 43

Adilbai/stock-trading-rl-agent

Reinforcement Learning • Updated Jan 8 • 172 • 156

nvidia/NitroGen

Reinforcement Learning • Updated Feb 5 • 544

zai-org/GLM-TTS

Text-to-Speech • Updated Jan 12 • 283 • 341

nvidia/GEAR-SONIC

Reinforcement Learning • Updated 6 days ago • 51

Mercury7353/MetaAgent-X

Reinforcement Learning • 8B • Updated May 15 • 91 • 6

zghhui/OmniNFT

Any-to-Any • Updated May 19 • 41

Spreadsheet-RL/Spreadsheet-RL-4B

Text Generation • 4B • Updated 15 days ago • 98 • 6

kingJulio/nanoG1

Reinforcement Learning • Updated 5 days ago • 2

mradermacher/Tifa-Deepsex-14b-CoT-GGUF

Reinforcement Learning • 15B • Updated Jul 31, 2025 • 311 • 24

NousResearch/DeepHermes-ToolCalling-Specialist-Atropos

Reinforcement Learning • 8B • Updated Apr 28, 2025 • 13 • 20

dleemiller/EMOTRON-3B

Text Generation • 3B • Updated Aug 12, 2025 • 4 • 1

JonusNattapong/AI-XAUUSD-Trading

Reinforcement Learning • Updated Oct 10, 2025 • 38

JonusNattapong/Reinforcement-Learning-for-Gold-Trading-Model

Reinforcement Learning • Updated Dec 23, 2025 • 67 • 6

YuvrajSingh9886/LFM2.5-350M-grpo-summarization-length-quality-meteor-rouge

Summarization • 0.4B • Updated May 14 • 22 • 1

6kplus/PhyMotion-CausalForcing-1.3B

Text-to-Video • Updated May 16 • 5

PhysicsWallahAI/Aryabhata-2.0

Text Generation • 21B • Updated 20 days ago • 370 • 4

mradermacher/Spreadsheet-RL-4B-GGUF

Reinforcement Learning • 4B • Updated 30 days ago • 758 • 1

mit-oasys/rlm-qwen3-30b-a3b-v0.1

Text Generation • Updated 27 days ago • 102 • 11

rishanthrajendhran/POLARIS-9B

Text Generation • 9B • Updated 16 days ago • 34 • 1

erreursyntax/DeepHermes-Egregore-v1-RLAIF-8b-Atropos

Reinforcement Learning • 8B • Updated 26 days ago • 20 • 1

mradermacher/DeepHermes-Egregore-v1-RLAIF-8b-Atropos-GGUF

Reinforcement Learning • 8B • Updated 25 days ago • 756 • 1

mradermacher/DeepHermes-Egregore-v1-RLAIF-8b-Atropos-i1-GGUF

Reinforcement Learning • 8B • Updated 24 days ago • 2.31k • 1

mims-harvard/ATHENA-R1-Qwen3-8B

Text Generation • 8B • Updated 7 days ago • 24 • 1

IQuestLab/HOTE-8B

Text Generation • Updated 7 days ago • 1

inclusionAI/VISTA-4B

Image-Text-to-Text • 5B • Updated 8 days ago • 226 • 6

inclusionAI/VISTA-9B

Image-Text-to-Text • 9B • Updated 8 days ago • 156 • 14