Publications | Martin Gubri's Website

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models

Is Multilingual LLM Watermarking Truly Multilingual? Scaling Robustness to 100+ Languages via Back-Translation

DISCO: Diversifying Sample Condensation for Accelerating Model Evaluation

Dr.LLM: Dynamic Layer Routing in LLMs

Leaky Thoughts: Large Reasoning Models Are Not Private Thinkers

C-SEO Bench: Does Conversational SEO Work?

Social Science Is Necessary for Operationalizing Socially Responsible Foundation Models

Testing Uniform Random Samplers: Methods, Datasets and Protocols

Scaling Up Membership Inference: When and How Attacks Succeed on Large Language Models

Calibrating Large Language Models Using Their Generations Only

TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification

ProPILE: Probing Privacy Leakage in Large Language Models

What Matters in Model Training to Transfer Adversarial Examples

Going Further: Flatness at the Rescue of Early Stopping for Adversarial Example Transferability

LGV: Boosting Adversarial Example Transferability from Large Geometric Vicinity

Efficient and Transferable Adversarial Examples from Bayesian Neural Networks

Influence-driven data poisoning in graph-based semi-supervised classifiers

Search-Based Adversarial Testing and Improvement of Constrained Credit Scoring Systems

Adversarial perturbation intensity strategy achieving chosen intra-technique transferability level for logistic regression