SaaS-Bench: Can Computer-Use Agents Leverage Real-World SaaS to Solve Professional Workflows?

RuntimeWire Ryan Merket May 18, 2026

New arXiv paper introduces an open benchmark across 23 live SaaS apps and 106 tasks; strongest model completed under 4% end-to-end. Code on GitHub.

0 inbound links article en ai aiagentsbenchmarkssaasllmsresearch