Publications

85 results for AI Testing

CoP: Agentic Red-teaming for Large Language Models using Composition of Principles
- - Chen Xiong
  - Pin-Yu Chen
  - et al.
- 2025
- NeurIPS 2025
Conference paper
Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation
- - Jung koo Kang
- 2025
- NeurIPS 2025
Workshop paper
Vintage Code, Modern Judges: Meta-Validation in Low Data Regimes
- - Gal Amram
  - Ora Nova Fandina
  - et al.
- 2025
- ASE 2025
Workshop paper
Effective Red-Teaming of Policy-Adherent Agents
- - Itay Nakash
  - George Kour
  - et al.
- 2025
- EMNLP 2025
Conference paper
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation
- - Noy Sternlicht
  - Ariel Gera
  - et al.
- 2025
- EMNLP 2025
Conference paper
Agentic Process Observability: Discovering Behavioral Variability
- - Fabiana Fournier
  - Lior Limonad
  - et al.
- 2025
- ECAI 2025
Workshop paper
Exposing AI Bias by Crowdsourcing: Democratizing Critique of Large Language Models
- - Hangzhi Guo
  - Pranav Venkit
  - et al.
- 2025
- AIES 2025
Conference paper
Towards Safe Agentic AI Performance Engineering
- - Dan Williams
  - Milo Craun
  - et al.
- 2025
- SOSP 2025
Workshop paper
The NorthPole Validator: A Cycle-Accurate Simulator for HW/SW Codesign of a Prescheduled Neural Inference Accelerator
- - Alexander Andreopoulos
  - Michael V. Debole
  - et al.
- 2025
- HPEC 2025
Conference paper
Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
- - Giacomo Camposampiero
  - Michael Hersche
  - et al.
- 2025
- NeSy 2025
Conference paper