Publications

88 results for AI Testing

Stop Guessing When to Stop Testing: Efficient Model Evaluation with Just Enough Data
- - Ofir Arviv
  - Kristjan Greenewald
  - et al.
- 2026
- ACL 2026
Conference paper
A Survey on Evaluation of LLM-based Agents
- - Asaf Yehudai
  - Lilach Edelstein
  - et al.
- 2026
- ACL 2026
Paper
Learn more about our AI Testing work
Unsupervised Cycle Detection in Agentic Applications
- - Felix George
  - Divya Pathak
  - et al.
- 2026
- ICPE 2026
Short paper
Evaluating Ill-Defined Tasks in Large Language Models
- - Yi Zhou
  - Basel Shbita
- 2026
- ICLR 2026
Workshop paper
LogitScope: A Framework for Analyzing LLM Uncertainty Through Information Metrics
- - Farhan Ahmed
  - Yuya Ong
  - et al.
- 2026
- ICLR 2026
Workshop paper
PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code
- - Itay Dreyfuss
  - Antonio Abu Nassar
  - et al.
- 2026
- ICSE 2026
Workshop paper
Evaluating perturbation robustness of generative systems that use COBOL code inputs
- - Samuel Ackerman
  - Wesam Ibraheem
  - et al.
- 2026
- ICSE 2026
Workshop paper
Position: Mind the Gap-Closing the Growing Disconnect Between Vulnerability Disclosure and AI Security
- - Lukas Bieringer
  - Sean Mcgregor
  - et al.
- 2026
- IEEE SaTML 2026
Paper
Assessing Chemical Foundation Models for Glycan Representation and Tasks
- - Manuel Ravasqueira
  - Joao Bettencourt-Silva
  - et al.
- 2026
- ACS Spring 2026
Poster
CLEAR: Error Analysis via LLM-as-a-Judge Made Easy
- - Asaf Yehudai
  - Lilach Edelstein
  - et al.
- 2026
- AAAI 2026
Demo paper