EPFL @ NeurIPS 2025

EPFL @ NeurIPS 2025

53 EPFL papers have been accepted to this year conference on Neural Information Processing Systems (NeurIPS). Congratulatations!
39th edition of NeurIPS will take place in San Diego, USA, from December 2nd to December 7th and Mexico City, Mexico, from November 30th to December 5th.

Below, a list of NeurIPS 2025 accepted papers with at least one EPFL author:

Generalized Gradient Norm Clipping & Non-Euclidean (L_0,L_1)-Smoothness by Thomas Pethick, Wanyun Xie, Mete Erdogan, Kimon Antonakopoulos, Tony Silveti-Falls, Volkan Cevher (oral)
Efficient Large Language Model Inference with Neural Block Linearization by Mete Erdogan, Francesco Tonin, Volkan Cevher
Robustness in Both Domains: CLIP Needs a Robust Text Encoder by Elias Abad Rocamora, Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
Learning Equilibria from Data: Provably Efficient Multi-Agent Imitation Learning by Till Freihaut, Luca Viano, Volkan Cevher, Matthieu Geist, Giorgia Ramponi
Ascent Fails to Forget by Ioannis Mavrothalassitis, Pol Puigdemont, Noam Itzhak Levi, Volkan Cevher
Linear Attention for Efficient Bidirectional Sequence Modeling by Arshia Afzal, Elias Abad Rocamora, Leyla Naz Candogan, Pol Puigdemont, Francesco Tonin, Yongtao Wu, Mahsa Shoaran, Volkan Cevher
The Nuclear Route: Sharp Asymptotics of ERM in Overparameterized Quadratic Networks by Vittorio Erba, Emanuele Troiani, Lenka Zdeborová, Florent Krzakala
Bayes optimal learning of attention-indexed models by Fabrizio Boncoraglio, Emanuele Troiani, Vittorio Erba, Lenka Zdeborová
VoxDet: Rethinking 3D Semantic Occupancy Prediction as Dense Object Detection by Wuyang Li, Zhu Yu, Alexandre Alahi (spotlight)
GRAPE: Optimize Data Mixture for Group Robust Multi-target Adaptive Pretraining by Simin Fan, Maria Ios Glarou, Martin Jaggi
With Limited Data for Multimodal Alignment, Let the STRUCTURE Guide You by Fabian Gröger*, Shuo Wen*, Huyen Le, Maria Brbić
Weak-to-Strong Generalization under Distribution Shifts by Myeongho Jeon, Jan Sobotka, Suhwan Choi, Maria Brbić
URLs Help, Topics Guide: Understanding Metadata Utility in LLM Training by Dongyang Fan, Vinko Sabolčec, Martin Jaggi
MEIcoder: Decoding Visual Stimuli from Neural Activity by Leveraging Most Exciting Inputs by Jan Sobotka, Luca Baroni, Ján Antolík
AugGen: Synthetic Augmentation Can Improve Discriminative Models by Parsa Rahimi, Damien Teney, Sebastien Marcel
Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning by Julian Minder*, Clément Dumas*, Caden Juang, Bilal Chughtai, Neel Nanda
The Non-Linear Representation Dilemma: Is Causal Abstraction Enough for Mechanistic Interpretability? by Denis Sutter, Julian Minder, Thomas Hoffman, Tiago Pimentel (spotlight)
zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression by Saibo Geng*, Nathan Ranchin*, Yunzhen Yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West
TokenSwap: A Lightweight Method to Disrupt Memorized Sequences in LLMs by Parjanya Prashant*, Kaustubh Ponkshe*, Babak Salimi (spotlight)
One-Step is Enough: Sparse Autoencoders for Text-to-Image Diffusion Models by Viacheslav Surkov, Chris Wendler, Antonio Mari, Mikhail Terekhov, Justin Deschenaux, Robert West, Caglar Gulcehre, David Bau
High Resolution UDF Meshing via Iterative Networks by Federico Stella, Nicolas Talabot, Hieu Le, Pascal Fua
Fully FP8 GEMM LLM Training at Scale by Alejandro Hernández-Cano, Dhia Garbaya, Imanol Schlag, Martin Jaggi
FlashMD: long-stride, universal prediction of molecular dynamics by Filippo Bigi, Sanggyu Chong, Agustinus Kristiadi, Michele Ceriotti (spotlight)
Flow-Based Non-stationary Temporal Regime Causal Structure Learning by Abdellah Rahmani, Pascal Frossard
Which Algorithms have Tight Generalization Bounds? by Michael Gastpar, Ido Nachum, Jonathan Shafer, Thomas Weinberger (spotlight)
Positional Fragility in LLMs: How Offset Effects Reshape Our Understanding of Memorization Risks by Yixuan Xu, Antoine Bosselut, Imanol Schlag
For Better or for Worse, Transformers Seek Patterns for Memorization by Madhur Panwar, Gail Weiss, Navin Goyal, Antoine Bosselut
Measuring what Matters: Construct Validity in Large Language Model Benchmarks by Andrew M. Bean, Ryan Othniel Kearns, Angelika Romanou, Franziska Sofia Hafner, Harry Mayne, Jan Batzner, Negar Foroutan, Chris Schmitz, Karolina Korgul, Hunar Batra, Oishi Deb, Emma Beharry, Cornelius Emde, Thomas Foster, Anna Gausen, María Grandury, Simeng Han, Valentin Hofmann, Lujain Ibrahim, Hazel Kim, Hannah Rose Kirk, Fangru Lin, Gabrielle Kaili-May Liu, Lennart Luettgau, Jabez Magomere, Jonathan Rystrøm, Anna Sotnikova, Yushi Yang, Yilun Zhao, Adel Bibi, Antoine Bosselut, Ronald Clark, Arman Cohan, Jakob Nicolaus Foerster, Yarin Gal, Scott A. Hale, Inioluwa Deborah Raji, Christopher Summerfield, Philip Torr, Cozmin Ududec, Luc Rocher, Adam Mahdi
Optimal Graph Clustering without Edge Density Signals by Maximilien Dreveton, Elaine S. Liu, Matthias Grossglauser, Patrick Thiran
EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models by Andy Bonnetto, Haozhe Qi, Franklin Leong, Matea Tashkovska, Mahdi Rad, Solaiman Shokur, Friedhelm Hummel, Silvestro Micera, Marc Pollefeys, Alexander Mathis
Optimal Best Arm Identification under Differential Privacy by Marc Jourdan, Achraf Azize
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents by Thomas Kuntz, Agatha Duzan, Hao Zhao, Francesco Croce, Zico Kolter, Nicolas Flammarion, Maksym Andriushchenko (spotlight)
Enhancing Multilingual LLM Pretraining with Model-Based Data Selection by Bettina Messmer, Vinko Sabolčec, Martin Jaggi
Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions by Simon Matrenok*, Skander Moalla*, Caglar Gulcehre
RAT: Bridging RNN Efficiency and Attention Accuracy via Chunk-based Sequence Modeling by Xiuying Wei, Anunay Yadav, Razvan Pascanu, Caglar Gulcehre
Flat Channels to Infinity in Neural Loss Landscapes by Flavio Martinelli*, Alexander van Meegen*, Berfin Simsek, Wulfram Gerstner, Johanni Brea
Measuring and Controlling Solution Degeneracy across Task-Trained Recurrent Neural Network by Ann Huang, Satpreet Harcharan Singh, Flavio Martinelli, Kanaka Rajan (spotlight)
What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains by Chanakya Ekbote, Marco Bondaschi, Nived Rajaraman, Jason D. Lee, Paul Pu Liang, Michael Gastpar, Ashok Vardhan Makkuva (spotlight)
Online Two-Stage Submodular Maximization by Iasonas Nikolaou, Miltiadis Stouras, Stratis Ioannidis, Evimaria Terzi
The emergence of sparse attention: impact of data distribution and benefits of repetition by Nicolas Zucchet, Francesco D’Angelo, Andrew Lampinen, Stephanie Chan (oral)
Computational Efficiency under Covariate Shift in Kernel Ridge Regression by Andrea Della Vecchia, Arnaud Mavakala Watusadisi, Ernesto De Vito, Lorenzo Rosasco (spotlight)
Asymptotics of SGD in Sequence-Single Index Models and Single-Layer Attention Networks by Luca Arnaboldi, Bruno Loureiro, Ludovic Stephan, Florent Krzakala, Lenka Zdeborová
The Computational Advantage of Depth in Learning High-Dimensional Hierarchical Targets by Yatin Dandi, Luca Pesce, Lenka Zdeborová, Florent Krzakala (spotlight)
Learning with Restricted Boltzmann Machines: Asymptotics of AMP and GD in High Dimensions by Yizhou Xu, Florent Krzakala, Lenka Zdeborová
OSKAR: Omnimodal Self-supervised Knowledge Abstraction and Representation by Mohamed O Abdelfattah*, Kaouther Messaoud*, Alexandre Alahi
High-dimensional neuronal activity from low-dimensional latent dynamics: a solvable model by Valentin Schmutz, ProfileAli Haydaroglu, Shuqi Wang, Yixiao Feng, Matteo Carandini, Kenneth D. Harris (oral)
Streaming Attention Approximation via Discrepancy Theory by Insu Han, Michael Kapralov, Ekaterina Kochetkova, Kshiteej Sheth, Amir Zandieh (spotlight)
EvoLM: in Search of Lost Language Models Training Dynamics by Zhenting Qi, Fan Nie, Alexandre Alahi, James Zou, Himabindu Lakkaraju, Yilun Du, Eric Xing, Sham Kakade, Hanlin Zhang (oral)
Inductive Domain Transfer In Misspecified Simulation-Based Inference by Ortal Senouf, Cédric Vincent-Cuaz, Emmanuel Abbé, Pascal Frossard
Optimal Spectral Transitions in High-Dimensional Multi-Index Models by Leonardo Defilippis, Yatin Dandi, Pierre Mergny, Florent Krzakala, Bruno Loureiro
Chain-of-Model Learning for Language Model by Kaitao Song, Xiaohua Wang, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen Lu, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu
Latent Space Factorization in LoRA by Shashi Kumar, Yacouba Kaloga, John Mitros, Petr Motlicek, Ina Kodrasi
Return of ChebNet: Understanding and Improving an Overlooked GNN on Long Range Tasks by Ali Hariri, Álvaro Arroyo, Alessio Gravina, Moshe Eliasof, Carola-Bibiane Schönlieb, Davide Bacciu, Kamyar Azizzadenesheli, Xiaowen Dong, Pierre Vandergheynst (spotlight)
Towards Leveraging Sequential Structure in Animal Vocalization by Eklavya Sarkar, Mathew Magimai Doss
On the Emergence of Linear Analogies in Word Embeddings by Daniel Korchinski, Dhruva Karkada, Yasaman Bahri, Matthieu Wyart
GeRaF: Neural Geometry Reconstruction from Radio Frequency Signals by Jiachen Lu*, Hailan Shanbhag*, Haitham Al Hassanieh (spotlight)
ReservoirTTA: Prolonged Test-time Adaptation for Evolving and Recurring Domains by Guillaume Vray, Devavrat Tomar, Xufeng Gao, Jean-Philippe Thiran, Evan Shelhamer, Behzad Bozorgtabar

∗Shared first authorship and equal contributions.

25.09.25

Links

NeurIPS 2025

News

Subscription

Receive an email for each new article

Share on