new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Apr 3

Submitted by

zbhpku

DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

PekingUniversity

Peking University

Submitted by

yxl66666

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

·
37 authors

Submitted by

wangzx1994

Generative World Renderer

ShandaAI

Shanda AI Research Tokyo

Submitted by

LZXzju

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

·
10 authors

Submitted by

JonaRuthardt

Steerable Visual Representations

FunAILab

Fundamental AI Lab at UTN

Submitted by

quao627

CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery

Massachusetts-Institute-of-Technology

Massachusetts Institute of Technology

Submitted by

wuzhi-hao

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

·
8 authors

Submitted by

orres

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

·
7 authors

Submitted by

Aleksandar

NearID: Identity Representation Learning via Near-identity Distractors

kaust-generative-ai

KAUST Center of Excellence in Generative AI

Submitted by

chengtim

VOID: Video Object and Interaction Deletion

netflix

Submitted by

dtanow

Therefore I am. I Think

ServiceNow-AI

3

Submitted by

Huaxiu

Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

UNC-ChapelHill

University of North Carolina at Chapel Hill

Submitted by

owl10

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Huster

Huazhong University of Science and Technology

Submitted by

Yuanshi

Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

NationalUniversityofSingapore

National University of Singapore

Submitted by

Mitiantian

ASI-Evolve: AI Accelerates AI

GAIR

Submitted by

Razvan27

Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

AISE research lab at TU Delft

2

Submitted by

marinero4972

VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

PKU

Peking University

Submitted by

weilllllls

AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

Wan-AI

Submitted by

junhao910323

GPA: Learning GUI Process Automation from Demonstrations

Salesforce

2

Submitted by

chenjiawei1018

Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

ECNU

East China Normal University

Submitted by

tyleryzhu

Video Models Reason Early: Exploiting Plan Commitment for Maze Solving

princetonu

Princeton University

Submitted by

LIQIIIII

AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

·
4 authors

Submitted by

nielsr

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

·
10 authors

Submitted by

chongjie

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

·
7 authors

Submitted by

Wonjoon-Jin

DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

POSTECH

Pohang University of Science and Technology

Submitted by

hba123

Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

·
14 authors

Submitted by

taesiri

Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

ServiceNow

Submitted by

dominoer

FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

·
3 authors

Submitted by

patrickamadeus

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

MBZUAI

Mohamed Bin Zayed University of Artificial Intelligence

2

Submitted by

Bturtel

Forecasting Supply Chain Disruptions with Foresight Learning

LightningRodLabs

Lightning Rod Labs

Submitted by

Aratako

T5Gemma-TTS Technical Report

·
2 authors

Submitted by

Yuheng02

UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

·
13 authors

Submitted by

akhaliq

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

·
6 authors

Submitted by

nedwards99

Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

univie

University of Vienna

Submitted by

antoineedy

Working Notes on Late Interaction Dynamics: Analyzing Targeted Behaviors of Late Interaction Models

illuin

Illuin Technology

Submitted by

alexpondaven

ActionParty: Multi-Subject Action Binding in Generative Video Games

snap-research

Submitted by

taesiri

Woosh: A Sound Effects Foundation Model

Sony

Submitted by

zhensuuu

Executing as You Generate: Hiding Execution Latency in LLM Code Generation

SingaporeManagementUniversity

Singapore Management University

Submitted by

TommyBsk

Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

HSP-IIT

Humanoid Sensing and Perception

2

Submitted by

vardaan123

Automatic Image-Level Morphological Trait Annotation for Organismal Images

osunlp

Submitted by

MohammadAbuAyyash

Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

Submitted by

parachas

Signals: Trajectory Sampling and Triage for Agentic Interactions

digitalocean

Submitted by

tux

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

·
4 authors

Submitted by

shikhar7ssu

An Empirical Recipe for Universal Phone Recognition

changelinglab

Submitted by

Quankai

LOME: Learning Human-Object Manipulation with Action-Conditioned Egocentric World Model

USC

University of Southern California