"AI 점수 믿지 마라"…오픈AI가 직접 밝힌 벤치마크의 치명적 한계

카드 뉴스 **AI 점수 믿지 마라**…오픈AI가 직접 밝힌 벤치마크의 치명적 한계 오픈AI는 최신 AI 모델의 정확한 능력과 안전성을 측정하기 위해 기존 벤치마크 중심 평가 방식의 한계를 지적했다. 오픈AI는 모델 자체뿐 아니라 실행 환경까지 함께 평가해야 정확한 능력과 안전성을 측정할 수 있다고 주장했다. **기존 평가 방식의 한계** 오픈AI는 기존 평가 방식이 사용자 질문에 모델이 답하고 평가자가 결과를 채점하는 문답형 중심이었다고 설명했다. 그러나 최근 AI는 다양한 도구를 활용하고 여러 단계를 거쳐 작업을 수행하며 외부 환경과도 상호작용한다. 이에 따라 단순한 질의응답 시험만으로는 실제 능력과 안전성을 충분히 평가하기 어렵다는 것이다. **실행 환경의 중요성** 오픈AI는 특히 실행 환경인 하네스 (Harness)의 영향이 크다고 강조했다. AI가 도구를 활용하는 방식, 작업 중 정보를 유지하는 능력, 실패 이후 복구 과정 등은 하네스 설계에 크게 좌우된다는 설명이다. **평가 예산의 중요성** 오픈AI는 평가 예산 역시 중요한 변수로 꼽았다. 사용할 수 있는 토큰 수와 시도 횟수, 재시도 횟수, 실행 시간, 추론 비용에 따라 결과가 크게 달라질 수 있기 때문이다. **평가 결과의 타당성** 오픈AI는 평가 목적과 결과의 타당성을 뒷받침하는 근거를 함께 제시해야 한다고 밝혔다. 평가 유형은 AI의 최대 능력을 측정하는 평가, 안전장치가 공격과 부적절한 행동을 견디는지 검증하는 평가, 동일 조건에서 모델을 비교하는 평가 등으로 구분된다고 설명했다.

원문 기사

NAVER · 2026년 6월 1일 20:36

조회 0회 카드뉴스 보기