JAEKYUN KIM
← BACK
AI/ML · B2B SaaS · EdTech

서술형 AI 채점 시스템 & 학습 보고서

OX 채점을 AI 기반 부분점수·근거·첨삭 체계로 전환한 프로젝트. 크레버스 요구로 시작해 매쓰플랫 전 제품으로 확장. 기획·정책·파이프라인 판단·고객 커뮤니케이션 전 과정을 PM으로 주도.

RoleProduct Manager · 기획 총괄·정책 설계·개발·디자인·콘텐츠 협업·고객 커뮤니케이션
Impactkeep 정확도 96~97% · DROP 21% · 채점 1건당 $0.0039 · 월 40만건 약 260만원 · 다양한 풀이 4사례 검증 · 엣지케이스 8건 선제 결정 · 크레버스 요구 6항목 대응 매트릭스 문서화
📌
수학 서술형 학습지 채점을 OX 방식에서 AI 기반 부분점수·근거·첨삭 체계로 전환한 프로젝트. 크레버스(B2B 고객) 요구로 시작해 매쓰플랫 전 제품으로 확장. 기획·정책·파이프라인 판단·고객 커뮤니케이션 전 과정을 PM으로 주도.

Overview

Context

매쓰플랫의 기존 서술형 학습지는 OX 채점만 지원했습니다. 풀이 과정을 평가하거나 부분점수를 반영하는 것이 구조적으로 불가능한 상태였고, 학교 현장에서는 수행평가·서술형 비중이 확대되면서 학원의 서술형 대비 니즈가 계속 커지고 있었습니다.

2025년 8월부터 운영 중인 "내신대비 서술형"의 현재 지표는 MAU 2,130 / 월 출제 243. 출제는 되고 있으나 채점·활용으로의 전환이 낮아, 채점 가치를 고도화하면 활성 전환 여지가 큰 상태였습니다. 여기에 B2B 고객사 크레버스가 서술형 AI 채점을 명확한 요구로 제기하면서 프로젝트가 시작되었습니다.

Problem

해결해야 할 문제는 세 층위였습니다.

Goals

Key Decisions

1. 채점 체계 전환 — OX에서 루브릭 기반 부분점수로

2. AI 채점 파이프라인 — 이종 2모델 합의-or-DROP

3. 학생 입력 방식 — 문제 이미지 위 직접 필기

4. 서술형 전용 보고서

5. AI/수동 채점 공존 정책 — "제출 시점"을 단일 상태 기준으로

Validation — 다양한 풀이 해석 검증

크레버스의 핵심 질문은 "한 문제를 학생마다 다르게 풀어도 AI가 공정하게 채점하는가"였습니다. 실제 학생들의 서로 다른 풀이를 사례별로 검증했습니다.

결론: 다양한 풀이 해석 능력과 재현성이 우수하다고 판단. 다만 문항 간 "관대함 기준"의 일관성은 루브릭·프롬프트 보강으로 계속 정교화.

Customer Response — 크레버스 요구 대응

크레버스 전달 자료·통화·콘텐츠팀 회의를 종합해 요구사항별로 대응 판정을 정리. "불가"를 "별도 협의(조건부 차기)"로 포지셔닝해 고객 관계는 유지하면서 범위를 관리.

Edge Cases — 개발 착수 전 8건 선제 발굴

개발 리뷰 전 정책의 빈틈을 먼저 짚어 결정. 구현 재작업·혼선을 사전 제거.

수동 전환 알럿 — 직접 채점을 시작하면 이 학습지를 받은 {학생/그룹}은 학생앱 제출 시에도 AI 자동 채점·첨삭이 진행되지 않고 수동 채점으로 전환됩니다. ⚠️ 되돌릴 수 없으며, 다시 AI 채점을 쓰려면 출제를 취소하고 재출제해야 합니다.

Operations — 운영 설계

인프라 알람(지연·비용·큐)은 개발팀이 촘촘히 설계했고, PM은 품질·제품 판단 관점을 보강했습니다.

Cost & Scale

Outcome

What I Learned

  1. AI 기능은 성능보다 공존이 먼저다. 모델 정확도만 신경 쓰면 정작 사용자는 AI를 못 쓰거나 강제로 켜져서 불편해집니다. "AI가 항상 정답은 아니다"를 정책으로 인정하는 순간부터 AI가 실사용 도구가 됩니다.
  2. 상태의 기준은 하나로 통합할수록 시스템이 단순해진다. "제출 시점"이라는 하나의 기준으로 세 상태를 정리하니 파생 정책들이 모두 이 위에 얹혔습니다. 개발·QA·CS·세일즈까지 같은 언어를 씁니다.
  3. 엣지케이스는 개발 착수 전에 발굴하는 게 임팩트 최대다. 구현이 시작된 뒤 발견되는 엣지케이스는 재작업 비용이 크지만, 정책 단계에서 짚으면 결정 하나로 해결됩니다. PM의 가장 큰 레버리지 포인트.
  4. 고객의 "불가"는 관계 관리의 도구다. 요구를 "불가"로 자르면 관계가 끊기지만, "별도 협의(조건부 차기)"로 포지셔닝하면 범위는 지키면서 관계는 유지됩니다. B2B에서 특히 중요.
  5. 비용을 정책 초기부터 계산하면 결정의 축이 하나 더 생긴다. 모델 선택·프롬프트 설계·2차 검증 여부까지 "품질"만이 아니라 "단위 비용"으로도 판단할 수 있게 됩니다. 이 두 축을 동시에 잡을 때 지속 가능한 AI 제품이 나옵니다.

활용한 시스템·도구

매쓰플랫 서술형 AI 채점 시스템 (이종 2모델 합의-or-DROP 파이프라인) · 루브릭 기반 채점기준표 · 선생님앱 채점 화면 · 학생앱 문제 이미지 필기 · 서술형 전용 보고서 · 관리 > 실험실 스위치 UI — PRD, 알럿 문구, 엣지케이스 표, 검증 사례 문서, 고객 대응 매트릭스로 개발·디자인·콘텐츠·세일즈 팀에 전달.

← BACK TO WORK