Spyre: An inference-optimized scalable AI accelerator for enterprise workloads

Matt Cohen; Monodeep Kar; Swagath Venkataramani; Vijayalakshmi Srinivasan; Brian Veraa; Matthew Ziegler; Nianzheng Cao; Ashish Ranjan; Joel Silberman; Michael Guillorn; Sandy Woodward; JohnDavid Lancaster; J. Hursey; Kyu Hyoun Kim; Alberto Mannari; Amrit Nagarajan; Ananda Samajdar; Bahman Hekmatshoartabari; Bob Galbraith; Ching Zhou; Dave Satterfield; Gregory S Still; Gustavo Tellez; Indira Nair; Indu Masilamani; Jinwook Jung; Kavi Randhawa; Marcel Schaal; Martin Lutz; Paul Crumley; Philip Jacob; Prasanth Chatarasi; Radhika Jain; Saekyu Lee; Sanchari Sen; Sarada Krithivasan; Scot Rider; Shubham Jain; Siyu Koswatta; Thomas Roewer; Thomas Gooding; Victor Ferrari; Vidhi Zalani; Zhibin Ren; Kevin Reick; Lisa Maurice; Christopher Gonzalez; Christopher Catalino; Ryan Nett; Pong-fei Lu; Robert Senger; Leland Chang

ISSCC 2026

Conference paper

15 Feb 2026

Spyre: An inference-optimized scalable AI accelerator for enterprise workloads

Abstract

Spyre is a scalable, power-efficient AI accelerator product for enterprise workloads. Featuring 32 AI cores, mixed-precision support, and LPDDR5 memory, it fits in a single-slot PCIe form factor and scales over a standard PCIE fabric. Optimized for inference workloads, Spyre achieves 2-to-3× better power/performance than GPUs on encoder-class models and scales up to 4 or more devices for large generative models.

Conference paper