Yiran Zhong's picture

2 6 4

Yiran Zhong

IanZhong

·

https://scholar.google.com/citations?hl=zh-CN&user=E9NVOBUAAAAJ

AI & ML interests

LLM

Organizations

authored 3 papers 9 months ago

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

Paper • 2502.07563 • Published Feb 11, 2025 • 23

You Only Scan Once: Efficient Multi-dimension Sequential Modeling with LightNet

Paper • 2405.21022 • Published May 31, 2024

Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Paper • 2504.02587 • Published Apr 3, 2025 • 32

authored 9 papers 12 months ago

Scaling TransNormer to 175 Billion Parameters

Paper • 2307.14995 • Published Jul 27, 2023 • 22

Exploring Transformer Extrapolation

Paper • 2307.10156 • Published Jul 19, 2023 • 1

CO2: Efficient Distributed Training with Full Communication-Computation Overlap

Paper • 2401.16265 • Published Jan 29, 2024 • 1

Linear Attention Sequence Parallelism

Paper • 2404.02882 • Published Apr 3, 2024 • 3

HGRN2: Gated Linear RNNs with State Expansion

Paper • 2404.07904 • Published Apr 11, 2024 • 20

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

Paper • 2405.17381 • Published May 27, 2024

Scaling Laws for Linear Complexity Language Models

Paper • 2406.16690 • Published Jun 24, 2024 • 23

Audio-Visual Segmentation with Semantics

Paper • 2301.13190 • Published Jan 30, 2023

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper • 2501.08313 • Published Jan 14, 2025 • 300

authored 7 papers about 2 years ago

cosFormer: Rethinking Softmax in Attention

Paper • 2202.08791 • Published Feb 17, 2022 • 1

Neural Architecture Search on Efficient Transformers and Beyond

Paper • 2207.13955 • Published Jul 28, 2022 • 1

Fine-grained Audible Video Description

Paper • 2303.15616 • Published Mar 27, 2023 • 1

Accelerating Toeplitz Neural Network with Constant-time Inference Complexity

Paper • 2311.08756 • Published Nov 15, 2023 • 1

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

Paper • 2311.04823 • Published Nov 8, 2023 • 2

The Devil in Linear Transformer

Paper • 2210.10340 • Published Oct 19, 2022 • 1

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Paper • 2401.04658 • Published Jan 9, 2024 • 27