AI/ML · B2B SaaS · EdTech

서술형 AI 채점 시스템 & 학습 보고서

OX 채점을 AI 기반 부분점수·근거·첨삭 체계로 전환한 프로젝트. 크레버스 요구로 시작해 매쓰플랫 전 제품으로 확장. 기획·정책·파이프라인 판단·고객 커뮤니케이션 전 과정을 PM으로 주도.

RoleProduct Manager · 기획 총괄·정책 설계·개발·디자인·콘텐츠 협업·고객 커뮤니케이션

Impactkeep 정확도 96~97% · DROP 21% · 채점 1건당 $0.0039 · 월 40만건 약 260만원 · 다양한 풀이 4사례 검증 · 엣지케이스 8건 선제 결정 · 크레버스 요구 6항목 대응 매트릭스 문서화

📌

수학 서술형 학습지 채점을 OX 방식에서 AI 기반 부분점수·근거·첨삭 체계로 전환한 프로젝트. 크레버스(B2B 고객) 요구로 시작해 매쓰플랫 전 제품으로 확장. 기획·정책·파이프라인 판단·고객 커뮤니케이션 전 과정을 PM으로 주도.

Overview

역할 — PM (기획 총괄, 정책 설계, 개발·디자인·콘텐츠 협업, 고객 커뮤니케이션)
기간 — 2026.06 ~ 07 (운영 배포 2026-07-29)
대상 — 초·중·고 전 학년 / 선생님앱(B2B·B2G) · 학생앱 · 학부모앱
출발 — 크레버스(B2B 고객) 요구로 시작 → 매쓰플랫 전체 제품으로 확장

Context

매쓰플랫의 기존 서술형 학습지는 OX 채점만 지원했습니다. 풀이 과정을 평가하거나 부분점수를 반영하는 것이 구조적으로 불가능한 상태였고, 학교 현장에서는 수행평가·서술형 비중이 확대되면서 학원의 서술형 대비 니즈가 계속 커지고 있었습니다.

2025년 8월부터 운영 중인 "내신대비 서술형"의 현재 지표는 MAU 2,130 / 월 출제 243. 출제는 되고 있으나 채점·활용으로의 전환이 낮아, 채점 가치를 고도화하면 활성 전환 여지가 큰 상태였습니다. 여기에 B2B 고객사 크레버스가 서술형 AI 채점을 명확한 요구로 제기하면서 프로젝트가 시작되었습니다.

Problem

해결해야 할 문제는 세 층위였습니다.

채점 체계의 구조적 한계 — OX만 가능한 시스템에서는 부분점수·풀이 과정 평가·근거 있는 첨삭이 불가
학생 입력 방식의 불명확성 — 별도 입력란인지 문제 위 필기인지에 따라 채점 정확도와 사용성이 모두 달라짐
AI/사람 공존 방식 — AI 채점을 강제하면 학원 방침·지필 학습·개별 학생 예외를 모두 무시하게 됨. "AI가 항상 정답은 아니다"라는 인식이 정책에 녹아야 함

Goals

선생님이 서술형 학습지를 출제하면, AI가 루브릭 기반 문항별 점수·근거·첨삭을 자동 제공
선생님이 AI 결과를 확인·수정하거나 직접 수동 채점
학생은 문제 이미지 위에 직접 필기로 답안 작성 → 단순 제출
서술형 전용 보고서(유형별 점수 그래프 + AI 총평) 신설
초·중·고 전 학년에서 동일 체계로 동작

Key Decisions

1. 채점 체계 전환 — OX에서 루브릭 기반 부분점수로

문항별 배점(총 100점) + 채점기준표(루브릭) 기반
문항 타입 3종: 빈칸채우기 / 단계별 / 완전서술형
빈칸형은 규칙 기반(정답 매칭), 단계별·완전서술형은 AI 채점 + 첨삭

2. AI 채점 파이프라인 — 이종 2모델 합의-or-DROP

이중 검증 구조 — 다른 계열의 경량 모델 2종(gemini flash-lite · gpt mini)이 각각 채점 → 점수 일치 시 자동 확정, 불일치 시 DROP → 교사 검토로 이관
구조화 사고 + 2차 검증 — 채점 과정을 단계로 나누고, 결과를 verify 단계에서 재확인해 안정성 확보
관대·의미 중심 루브릭 — 정답률 중심. 다른 풀이라도 같은 수학적 의미면 인정. 풀이의 흠은 감점이 아니라 첨삭으로 다룸
비용 최적화 — 루브릭·해설을 텍스트로 주입해 토큰 절감, 경량 모델 사용. 채점 1건당 약 $0.0039 / 1,000건 약 $3.88 / keep 정확도 96~97% / DROP 21%

3. 학생 입력 방식 — 문제 이미지 위 직접 필기

별도 입력란 대신 문제 이미지 위에 직접 필기(빈칸형은 확대 뷰에서 칸에 입력)
필기 인식·교정은 백엔드 AI + 선생님 검토가 담당 (학생에게 OCR 정제 결과는 미노출)
제출은 단순 확인 모달만 — 한 문제씩 풀이 뷰로 학생 마찰 최소화

4. 서술형 전용 보고서

유형(소단원)별 점수 막대 그래프 + AI 총평 + 문항별 결과(점수·첨삭)
평균·등수는 미포함. 기존 "원클릭 보고서"와 분리해 독립 명칭으로 구성

5. AI/수동 채점 공존 정책 — "제출 시점"을 단일 상태 기준으로

학원 단위 On/Off 스위치(관리 > 실험실, 디폴트 ON)
학생 단위 수동 전환은 "학생 제출 시점"을 기준으로 3단계 상태로 정리 — 제출 전 개입 시 수동 전환(알럿) / 제출 후~채점 완료 전 화면 잠금 / 완료 후 자유 수정
수동 전환은 비가역 (재사용 시 재출제 필요)
ON→OFF 전환 시 진행 중 학습지도 수동 전환하되, 기존 AI 결과는 유지

Validation — 다양한 풀이 해석 검증

크레버스의 핵심 질문은 "한 문제를 학생마다 다르게 풀어도 AI가 공정하게 채점하는가"였습니다. 실제 학생들의 서로 다른 풀이를 사례별로 검증했습니다.

A. 제곱수 만들기 — 역검증·지수논리·나눗셈 등 다른 접근 + 오기·생략까지 포함. 의도를 추론해 모두 만점 처리 ✅
B. 최대공약수의 약수 개수 — 공식 사용 vs 직접 나열. 방식 차별 없이 인정, 계산 실수만 감점 ✅
C. 명제와 진리집합(고2) — 완성도가 학생마다 다름. 도달 단계별 부분점수를 정확히 배분 ✅
D. 충분조건과 진리집합(고2) — 표기 형식에 결함이 있어도 수직선 등 다른 단서로 학생의 실제 이해를 인정 ✅

결론: 다양한 풀이 해석 능력과 재현성이 우수하다고 판단. 다만 문항 간 "관대함 기준"의 일관성은 루브릭·프롬프트 보강으로 계속 정교화.

Customer Response — 크레버스 요구 대응

크레버스 전달 자료·통화·콘텐츠팀 회의를 종합해 요구사항별로 대응 판정을 정리. "불가"를 "별도 협의(조건부 차기)"로 포지셔닝해 고객 관계는 유지하면서 범위를 관리.

단계적 첨삭 → 루브릭 기반 단계별 첨삭 제공
다양한 풀이 첨삭 → 제공 (4장 검증)
손글씨 인식 → 텍스트·수식 기반 제공 (그림 위 임의 표기는 제약)
단계별 점수 세분화 → 루브릭 채점 + 점수 수정 제공 (중간 단계 개별 점수 표기는 미제공)
폴리아식 사고과정 분석 → 문항 재설계 필요 → 별도 협의
세밀 부분점수 → 문항 재설계 필요 → 별도 협의

Edge Cases — 개발 착수 전 8건 선제 발굴

개발 리뷰 전 정책의 빈틈을 먼저 짚어 결정. 구현 재작업·혼선을 사전 제거.

① 알럿 오작동 방지 — 알럿은 "제출 전 + 최초 수동 입력"에만 (완료 후 수정에는 미노출)
② 제출 후 열람 케이스 — "제출 시점" 기준으로 통합, 제출되면 즉시 화면 잠금
③ 빈칸형 조건 예외 — 첨삭이 없는 유형이므로 "전 문항 첨삭" 조건에서 제외
④ 미제출·결석 학생 — 선생님이 직접 채점(0점 포함), 자동 제외 없음
⑤ 그룹 내 AI/수동 혼재 식별 — 학생별 채점 방식 라벨 표기
⑥ 비가역 액션 사용자 보호 — 알럿에 "되돌릴 수 없음·재출제 필요" 경고 명시
⑦ ON→OFF 시 기존 결과 소실 우려 — 기존 결과 유지, 신규 제출분만 수동 채점
⑧ AI 채점 10분 초과 — DROP 처리 후 선생님 채점 이관

수동 전환 알럿 — 직접 채점을 시작하면 이 학습지를 받은 {학생/그룹}은 학생앱 제출 시에도 AI 자동 채점·첨삭이 진행되지 않고 수동 채점으로 전환됩니다. ⚠️ 되돌릴 수 없으며, 다시 AI 채점을 쓰려면 출제를 취소하고 재출제해야 합니다.

Operations — 운영 설계

인프라 알람(지연·비용·큐)은 개발팀이 촘촘히 설계했고, PM은 품질·제품 판단 관점을 보강했습니다.

로그 설계 — 교사 수정율·수정폭(AI 점수 vs 교사 점수)을 실제 정확도 척도로 삼음. DROP 사유 구분. 유형·학년·단원별 집계
알람 기준 — 교사 수정율 급증(모델 품질 저하 신호), 앵커 반영 후 회귀 감지
임계치 정의 — DROP율은 평상시(21%) 기준 상대값으로, 일 비용 임계는 월 예상치가 아닌 일 단위로

Cost & Scale

채점 1,000건 약 $3.88 / 월 40만 scoring 기준 약 260만원 (경량 2모델)
AI 사용량 기반 요금제는 별도 트랙(전사·B2G 포함)으로 논의
확장 포인트 — 학습지 만들기 서술형 통합, 서술형 유형분석 통합, 학교별 기출 서술형

Outcome

채점 체계 전환 완료 — OX 시스템에서 루브릭 기반 부분점수·첨삭 체계로 전 학년 대상 배포 (2026-07-29)
정량 안정성 — keep 정확도 96~97% · DROP 21% · 채점 1건당 $0.0039로 대량 운영 가능
고객 신뢰 확보 — 실제 학생 답안 4사례로 다양한 풀이 해석 능력 검증. 크레버스 요구 중 6개 항목의 대응 판정을 명확히 문서화
구현 리스크 사전 제거 — 개발 착수 전 8개 엣지케이스를 결정. 비가역 액션 보호·유형별 예외·운영 주체 명확화까지 사전 정의
B2B 요구 → 전 제품 확장 — 크레버스 요구를 계기로 매쓰플랫 전체 제품(초·중·고 · 선생님앱·학생앱·학부모앱)에 동일 체계 안착

What I Learned

AI 기능은 성능보다 공존이 먼저다. 모델 정확도만 신경 쓰면 정작 사용자는 AI를 못 쓰거나 강제로 켜져서 불편해집니다. "AI가 항상 정답은 아니다"를 정책으로 인정하는 순간부터 AI가 실사용 도구가 됩니다.
상태의 기준은 하나로 통합할수록 시스템이 단순해진다. "제출 시점"이라는 하나의 기준으로 세 상태를 정리하니 파생 정책들이 모두 이 위에 얹혔습니다. 개발·QA·CS·세일즈까지 같은 언어를 씁니다.
엣지케이스는 개발 착수 전에 발굴하는 게 임팩트 최대다. 구현이 시작된 뒤 발견되는 엣지케이스는 재작업 비용이 크지만, 정책 단계에서 짚으면 결정 하나로 해결됩니다. PM의 가장 큰 레버리지 포인트.
고객의 "불가"는 관계 관리의 도구다. 요구를 "불가"로 자르면 관계가 끊기지만, "별도 협의(조건부 차기)"로 포지셔닝하면 범위는 지키면서 관계는 유지됩니다. B2B에서 특히 중요.
비용을 정책 초기부터 계산하면 결정의 축이 하나 더 생긴다. 모델 선택·프롬프트 설계·2차 검증 여부까지 "품질"만이 아니라 "단위 비용"으로도 판단할 수 있게 됩니다. 이 두 축을 동시에 잡을 때 지속 가능한 AI 제품이 나옵니다.

활용한 시스템·도구

매쓰플랫 서술형 AI 채점 시스템 (이종 2모델 합의-or-DROP 파이프라인) · 루브릭 기반 채점기준표 · 선생님앱 채점 화면 · 학생앱 문제 이미지 필기 · 서술형 전용 보고서 · 관리 > 실험실 스위치 UI — PRD, 알럿 문구, 엣지케이스 표, 검증 사례 문서, 고객 대응 매트릭스로 개발·디자인·콘텐츠·세일즈 팀에 전달.

← BACK TO WORK