1 18 13

Tran Nam

namtran

AI & ML interests

None yet

Organizations

None yet

upvoted a paper 4 months ago

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Paper • 2602.00919 • Published Jan 31 • 325

upvoted an article 7 months ago

Article

LightOnOCR-1B: The Case for End-to-End and Efficient Domain-Specific Vision-Language Models for OCR

lightonai

•

Oct 23, 2025

• 74

upvoted 7 papers 7 months ago

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

Paper • 2509.24473 • Published Sep 29, 2025 • 18

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Paper • 2511.06221 • Published Nov 9, 2025 • 140

upvoted a paper 11 months ago

Qwen-Image Technical Report

Paper • 2508.02324 • Published Aug 4, 2025 • 276

upvoted 2 articles about 1 year ago

Article

Vision Language Models (Better, faster, stronger)

merve, sergiopaniego, ariG23498, pcuenq, andito

•

May 12, 2025

• 614

Article

SmolVLM2: Bringing Video Understanding to Every Device

orrzohar, mfarre, andito, merve, pcuenq, cyrilzakka, Xenova

•

Feb 20, 2025

• 343

upvoted 2 papers over 1 year ago

Movie Gen: A Cast of Media Foundation Models

Paper • 2410.13720 • Published Oct 17, 2024 • 100

NVLM: Open Frontier-Class Multimodal LLMs

Paper • 2409.11402 • Published Sep 17, 2024 • 75

upvoted a paper almost 2 years ago

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

Paper • 2408.14176 • Published Aug 26, 2024 • 62

upvoted 3 papers over 2 years ago

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 630

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Paper • 2402.13753 • Published Feb 21, 2024 • 116

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 264

Tran Nam

AI & ML interests

Organizations

namtran's activity

LightOnOCR-1B: The Case for End-to-End and Efficient Domain-Specific Vision-Language Models for OCR

Vision Language Models (Better, faster, stronger)

SmolVLM2: Bringing Video Understanding to Every Device