AI 기반 SSAT Analogy 자동 출제 및 소크라틱 스캐폴딩 적응형 학습 시스템 개발
AI 기반 SSAT Analogy 자동 출제 및
소크라틱 스캐폴딩 적응형 학습 시스템 개발
연구 목적 및 필요성
SSAT Analogy 문항 제작은 현재 전문 출제자의 수작업에 전적으로 의존하고 있습니다. 문항 하나를 만들고 검수하는 데 상당한 시간과 비용이 들고, 출제자 역량에 따라 품질 편차도 큽니다.
LLM을 활용한 자동 출제 시도가 늘고 있지만, 환각(Hallucination) 문제로 인해 논리적 결함이 있는 문항이 생성되는 경우가 많습니다. 프롬프트 엔지니어링만으로는 이를 안정적으로 통제하기 어렵습니다.
본 과제는 23년간 축적된 전문가의 구조화된 지식 체계(55-Logic, 75-Trap)를 AI 생성 과정에 직접 결합하여, 환각 발생 가능성을 구조적으로 줄이고, 전문가 검수 부담을 대폭 낮추는 것을 목표로 합니다. 최종적으로 소크라틱 스캐폴딩 기반 학습 서비스로 상용화하여 실제 매출과 사용자 피드백까지 확보합니다.
핵심 기술: 4-Layer AI 아키텍처
본 과제: 생성 전 구조적 제약 → 제약 내 LLM 생성 → 자동 다층 검증 → 실패 시 자동 재생성
🗺️ Layer 1 — Knowledge Graph Engine
55-Logic 관계 유형에 기반하여 개념 간 관계를 그래프 구조로 모델링하고, 의미적 거리 계산을 통해 최적의 문항 후보 관계 쌍을 자동 추출합니다.
⚙️ Layer 2 — Constrained Generation Engine
추출된 관계 쌍을 바탕으로, LogicType 및 제약 조건을 명시한 구조적 프롬프트를 통해 LLM이 문항을 생성합니다. Few-shot 예시로 일관성을 강화하고, JSON Schema로 출력 포맷을 통제합니다.
🔍 Layer 3 — Trap Matrix Validator
선택지 간 의미 유사도 분석, 관계 벡터 일관성 계산, 75-Trap 오류 패턴 대조를 통해 논리 정합성을 자동 검증합니다. 검증 실패 시 재생성 루프가 작동합니다.
📊 Layer 4 — Difficulty & Metadata Engine
어휘 희소성, 오답 유사도 등 정량 지표 기반으로 난이도를 자동 산정합니다. 초기 규칙 기반 → 학습자 데이터 축적 후 IRT 모델로 고도화합니다.
추진 체계: 인력 구성 (4명)
| 역할 | 인원 | 담당 범위 |
|---|---|---|
| AI/백엔드 개발자 | 1명 | Knowledge Graph, LLM 파이프라인, 검증 로직, 소크라틱 엔진, API |
| 풀스택 개발자 | 1명 | 웹 UI/UX, 결제 시스템, 데이터 수집, 인프라 |
| 콘텐츠/데이터 전문가 | 1명 | 55-Logic·75-Trap 디지털화, Few-shot 작성, 문항 검수 |
| 기획/운영/마케팅 | 1명 | 서비스 기획, 베타 운영, 피드백 관리, 학원 영업 |
외부 자문: SSAT 출제 경험이 있는 교육 전문가 1인 (비상근, 월 2~3회 검수 참여)
개발 일정 (총 7개월)
| 단계 | 기간 | 핵심 내용 | 산출물 |
|---|---|---|---|
| Phase 1 | 1~2개월 | 4-Layer 파이프라인 MVP 개발 | 자동 출제 엔진 프로토타입 |
| Phase 2 | 3~4개월 | 소크라틱 스캐폴딩 + 웹 서비스 | 학습 서비스 베타 버전 |
| Phase 3 | 5~6개월 | 결제 시스템 + 베타 테스트(30~50명) | 실증 데이터 및 피드백 |
| Phase 4 | 7개월 | 피드백 반영, 정식 런칭 | 상용 서비스 + 초기 매출 |
성능 목표 (정량 지표)
| 지표 | 목표 | 측정 방법 |
|---|---|---|
| 전문가 검수 통과율 | 70% 이상 | 전문가 블라인드 검수 |
| 제작 시간 절감 | 50~60% | 문항당 소요 시간 비교 |
| 제작 단가 절감 | 40~60% | 문항당 원가 분석 |
| 구조적 오류 탐지율 | 80% 이상 | 75-Trap 핵심 패턴 매칭 로그 |
| 유료 구독자 수 | 50~100명 | 결제 데이터 |
기술적 차별성
첫째, 생성 전 구조적 제약. 프롬프트 튜닝에만 의존하는 기존 서비스와 달리, 생성 → 검증 → 재생성이 하나의 파이프라인으로 자동화되어 있습니다.
둘째, 독점 IP 기반 평가 체계. 23년간 전문가가 체계화한 55-Logic과 75-Trap은 공개 데이터가 아닌 독점 자산입니다. AI 결과물을 정량적으로 평가할 수 있는 기준점 역할을 합니다.
셋째, 인간-AI 협업 모델. 완전 자동화가 아닌, AI 초안 + 전문가 최종 확인의 현실적 협업 구조입니다. 축적되는 검수 데이터가 엔진의 지속적 개선에 활용됩니다.
SSAT Analogy에 출제되는 단어 쌍들을 55-Logic 관계 유형에 따라 분류하고, 검색 가능한 데이터베이스로 구축합니다. 전체 시스템의 원재료 창고 역할입니다.
구체적 작업 내용
기존 55-Logic 관계 유형 분류 체계를 디지털 스키마로 변환합니다. "유사(Synonym)", "반의(Antonym)", "부분-전체(Part-Whole)", "도구-기능(Tool-Function)" 같은 관계 유형 각각에 고유 코드와 정의, 예시를 부여합니다.
SSAT 기출 및 기존 축적 데이터에서 단어 쌍을 추출하고 각 쌍에 관계 유형 태그를 부여합니다. 콘텐츠/데이터 전문가가 주도하고, AI 개발자가 반자동 태깅 도구를 만들어 속도를 높입니다.
목표 데이터 규모
MVP 단계에서는 전체 55개 유형 중 핵심 15~20개 유형에 집중하고, 유형당 30~50개 단어 쌍, 총 500~800개 단어 쌍을 확보합니다.
데이터 저장 구조
그래프 DB(Neo4j)는 4명 팀에 과도한 인프라입니다. PostgreSQL + JSON 필드 조합으로 관계 데이터를 저장하고, 의미적 거리 계산은 임베딩 벡터(OpenAI Embedding API 등)의 코사인 유사도로 처리합니다.
• 500~800개 태깅된 단어 쌍 데이터베이스
• 관계 유형별 단어 쌍 검색 API
Layer 1에서 추출한 단어 쌍을 바탕으로, LLM이 정해진 규칙 안에서만 SSAT Analogy 문항을 생성하도록 만드는 엔진입니다.
구조적 프롬프트 설계
단순히 "문제 만들어줘"가 아니라, Logic Type, Stem Pair, 난이도, 제약조건을 명시한 구조적 프롬프트 템플릿을 설계합니다.
[입력 예시] - Logic Type: Part-Whole (부분-전체) - Stem Pair: Petal → Flower - 난이도: 중 - 제약조건: 오답 선택지는 동일 Logic Type이 아닌 다른 관계 유형에서 추출할 것
Few-shot 예시(정상 문항 3~5개)를 함께 제공해서 LLM이 패턴을 학습하게 하고, 출력은 사전 정의한 JSON Schema를 반드시 통과해야 합니다.
LLM 선택
MVP에서는 GPT-4o 또는 Claude API를 활용합니다. 자체 파인튜닝은 하지 않습니다. 데이터도 부족하고 4명이 파인튜닝까지 하면 일정이 무너집니다. 구조적 프롬프트 + JSON Schema 검증만으로 품질을 통제할 수 있는지 먼저 확인하는 게 이 단계의 핵심입니다.
• Few-shot 예시 라이브러리 (유형당 3~5개)
• JSON Schema 정의 및 검증 모듈
• 문항 생성 API (Logic Type 입력 → 문항 JSON 출력)
생성된 문항이 논리적으로 맞는지 자동으로 검사합니다. "전문가에게 보내기 전에, 명백한 결함은 기계가 먼저 걸러내자"는 목적입니다.
3단계 자동 검증
검증 1단계 — 형식 검증. 선택지 개수, 정답 포함 여부, 중복 선택지 등 기본적인 구조를 확인합니다.
검증 2단계 — 관계 일관성 검증. 정답 쌍과 stem 쌍의 관계 벡터 코사인 유사도를 계산하고, 임계값(0.7) 이하이면 "관계 불일치"로 판정합니다.
검증 3단계 — 75-Trap 오류 패턴 매칭. MVP에서는 빈도가 높고 탐지가 용이한 핵심 20~30개 패턴을 먼저 구현합니다.
검증 실패 시 실패 사유를 태깅하고 재생성을 요청하는 루프가 작동합니다. 최대 3회로 제한하고, 3회 실패 시 "수동 검토 필요"로 분류합니다.
• 75-Trap 핵심 20~30개 패턴 디지털 룰셋
• 재생성 루프 로직 (최대 3회)
• 검증 결과 로그 시스템
각 문항의 난이도를 자동 추정합니다. MVP에서는 "정교한 예측"이 아닌 "대략적 3단계 분류"가 목표입니다.
정확한 난이도 예측에는 학습자 반응 데이터가 필요하지만, Phase 1에는 사용자가 없습니다. 초기에는 규칙 기반으로 시작하고, Phase 3에서 실제 데이터로 고도화합니다.
규칙 기반 난이도 추정 변수
어휘 희소성: 단어 빈도 데이터(COCA corpus 등)를 활용하여 희귀도를 점수화합니다.
오답 유인력: 오답과 정답 간 의미 유사도를 계산합니다. 유사할수록 난이도 상승.
관계 유형 복잡도: 55-Logic 유형별 기본 난이도 가중치를 부여합니다.
이 변수들을 가중합하여 쉬움/보통/어려움 3단계로 분류합니다.
• 문항 메타데이터 자동 생성
• Validation Trace (생성 이력 기록)
4개 Layer를 하나로 연결하고 끝에서 끝까지 돌려봅니다. 핵심 15~20개 Logic Type에 대해 각각 최소 10문항씩, 총 150~200문항을 자동 생성하고, 전문가가 표본 검수(50문항 이상)를 수행합니다.
Phase 1 성과 측정 기준
리스크 및 대응
학생에게 바로 정답을 알려주지 않고, 질문과 힌트를 단계적으로 제공해서 스스로 사고하고 답에 도달하게 유도하는 교수법입니다.
왜 간소 버전으로 시작하는가
완전한 소크라틱 대화는 학생의 답변을 실시간 분석하고 동적 후속 질문을 생성해야 합니다. 이건 별도 AI 대화 엔진이 필요한 수준입니다. MVP에서는 "고정형 3단계 힌트 시스템"으로 시작합니다.
3단계 힌트 구조
1단계 — 방향 제시: 정답을 직접 언급하지 않고 사고의 방향만 잡아줍니다.
"두 단어가 어떤 관계인지 다시 생각해봐. 하나가 다른 하나의 일부분인 건 아닐까?"
2단계 — 관계 명시: 관계 유형을 직접 알려주고 적용을 유도합니다.
"Petal은 Flower의 부분이야. 선택지 중 같은 '부분-전체' 관계인 쌍을 찾아봐."
3단계 — 정답 및 해설: 정답과 함께 전체 해설을 보여줍니다.
"정답은 Page : Book이야. Petal이 Flower의 한 부분인 것처럼, Page는 Book의 한 부분이야."
기술적 구현
Layer 2 프롬프트에 힌트 생성 지시를 추가하고, JSON Schema에 hint_level_1, hint_level_2, hint_level_3 필드를 추가합니다. 생성된 힌트도 Layer 3의 검증 대상에 포함합니다.
• 힌트 품질 검증 규칙 (Layer 3 확장)
• 문항+힌트 통합 생성 API
학생이 접속해서 문제를 풀 수 있는 웹 애플리케이션을 만듭니다. 화려한 디자인이 아니라 학습 흐름이 매끄럽게 작동하는 것이 핵심입니다.
기술 스택
프론트엔드: Next.js (React 기반) / 백엔드: Phase 1의 Python(FastAPI) 엔진 활용 / DB: PostgreSQL 계속 사용 + 사용자·학습 로그 테이블 추가 / 인증: 이메일+비밀번호 (소셜 로그인은 Phase 3) / 호스팅: Vercel + AWS/GCP
핵심 화면 구성
회원가입/로그인: 이메일+비밀번호 가입, 간단한 프로필 입력
학습 메인: 난이도 선택(쉬움/보통/어려움), "문제 풀기" 버튼, 간단한 요약 통계
문제 풀기: 문항 표시 → 선택 → 정답 여부 → 틀리면 힌트 단계별 열림 → 다음 문제
학습 결과: 정답률, 틀린 문제 목록, 약한 Logic Type 요약
모바일 웹 반응형 필수. 별도 앱은 만들지 않습니다.
• 모바일 반응형 대응
• 배포 환경 구축 (도메인, 호스팅, SSL)
학생들의 모든 행동 데이터를 자동으로 기록합니다. 이 데이터가 Phase 3에서 AI 엔진을 개선하는 핵심 연료가 됩니다.
수집 데이터
문항별: 선택한 답, 정답 여부, 소요 시간, 힌트 열람 단계, 힌트 후 답변 변경 여부
사용자별: 누적 정답률, Logic Type별 정답률, 학습 빈도, 세션당 풀이 수
문항 집계: 전체 정답률, 평균 소요 시간, 힌트 열람률, 최다 선택 오답
실시간 분석은 불필요하고, 배치 처리로 일 단위 집계하면 충분합니다.
• 학습 로그 DB 테이블
• 기본 집계 쿼리 (일별 통계, 문항별 정답률)
팀 4명 + 외부 자문 전문가가 직접 서비스를 사용하고, 추가로 SSAT 준비 학생 5~10명에게 비공식 테스트를 진행합니다. 이 피드백이 Phase 3 베타 설계에 반영됩니다.
Phase 2 성과 측정 기준
리스크 및 대응
과금 모델
무료 체험: 가입 후 10문항까지 무료 (힌트 포함). 서비스 경험 후 결제 유도.
유료 구독: 월 단위 1가지만. 무제한 문항, 전체 난이도, 학습 통계 포함. 가격 $19.99~$29.99 범위에서 베타 중 테스트. 베타 테스터에게 50% 얼리버드 할인.
연간 구독, 학원 플랜은 Phase 4 이후 검토합니다.
기술적 구현
Stripe 사용. 해외 결제 기본 지원, 구독 관리 내장. 구독 생성/갱신/해지/재시도까지 Stripe가 처리합니다. 프론트에서 구독 상태별 접근 제어. 결제 이메일은 Stripe + SendGrid로 자동화합니다.
법적 체크
이용약관, 개인정보 처리방침 작성. 미성년자 주 사용자이므로 COPPA 확인 필요. 기본 약관 + 베타 동의서에 "베타 서비스임" 명시로 시작합니다.
• 무료/유료 접근 제어 로직
• 결제 자동 이메일
• 이용약관 및 개인정보 처리방침
테스터 모집 전략
채널 1 — 학원/컨설팅 제휴: SSAT 전문 학원에 학생 대상 베타 참여 제안. 학원에 추가 학습 도구 무료 제공이므로 거부 이유 적음.
채널 2 — 학부모 커뮤니티: 온라인 포럼, Facebook 그룹, 카카오톡 유학 준비 그룹에 모집 공고.
채널 3 — 기존 네트워크: 23년간의 교육 전문가 네트워크가 가장 빠른 채널.
인센티브: 베타 기간 무료 이용 또는 정식 출시 후 3개월 무료. 조건: 주 1회 피드백 설문 응답.
피드백 수집 체계
정량 데이터: Phase 2의 학습 데이터 수집 시스템이 자동 수집 (정답률, 힌트 열람률, 이탈 지점 등)
정성 데이터: 주 1회 간단한 설문(5~7문항), 테스터 중 5~10명 대상 격주 15분 인터뷰
• 베타 참여 동의서
• 주간 피드백 설문 템플릿
• 인터뷰 가이드 및 일정
주차별 운영 계획
1주차 — 안정화: 핵심 흐름 치명적 버그 실시간 모니터링. 당일 핫픽스 목표. 풀스택 개발자가 버그 대응에 집중.
2주차 — 데이터 확인: 문항별 정답률 극단값(95%↑ 또는 10%↓) 추출, 콘텐츠 전문가 검토. 첫 주간 설문 분석 및 즉시 반영 가능 항목 적용.
3주차 — AI 엔진 개선: 2주치 데이터 기반 Layer 3 검증 규칙 보강, Layer 4 난이도 가중치 조정, 특정 Logic Type 힌트 품질 개선.
4주차 — 종합 분석: 전체 데이터 종합 분석. Phase 4 우선 개선 사항 도출. 핵심 지표 정리 및 인터뷰 인사이트 종합.
Layer 3 검증 강화
"결함인데 검증을 통과한 문항"의 패턴을 분석하여 75-Trap 룰셋에 새 패턴을 추가합니다. MVP의 20~30개 → 40~50개로 확대가 목표입니다.
Layer 4 난이도 보정
규칙 기반 난이도와 실제 정답률을 비교하여 가중치를 보정합니다. 30~50명 데이터로 IRT 모델은 아직 어렵고, 규칙 기반 보정에 집중합니다.
문항 생성 품질 개선
피드백과 검수 결과를 바탕으로 Layer 2 프롬프트를 매주 반복적으로 개선합니다.
• Layer 4 난이도 가중치 보정
• 개선된 프롬프트 및 Few-shot 라이브러리
• 베타 테스트 종합 분석 보고서
Phase 3 성과 측정 기준
리스크 및 대응
우선순위 분류 기준
즉시 수정 (Must Fix): 안 고치면 이탈하거나 결제 안 하는 문제. 결제 오류, 명백한 문항 결함, 안정성 문제, UX 혼란. 이것만 25~26주에 집중.
출시 후 개선 (Should Fix): 없어도 서비스는 돌아감. 상세 통계, 오답노트, 소셜 로그인 등. 월 단위 업데이트로 반영.
장기 검토 (Nice to Have): 좋은 아이디어지만 지금은 아님. 다른 SSAT 영역 확장, 앱 출시, AI 튜터 대화. 다음 분기 이후 로드맵.
예상 수정 작업
문항 품질: 특정 Logic Type의 프롬프트·Few-shot 집중 보강
힌트 품질: 1단계 힌트 구체성, 2단계 힌트 노출 수준 조정
UX: 학습 진행 표시(프로그레스 바), 세션 요약 화면 보강
• Must Fix 항목 수정 완료
• 정식 출시 버전 배포
타겟 고객
1차 타겟: 미국 사립학교 입학 준비 한국인 학부모·학생. 한국어 커뮤니케이션 가능, SSAT 수요 높음, 교육 투자 적극적.
2차 타겟: 미국 현지 SSAT 준비 학원·튜터 (B2B). 과제 기간 내 탐색 수준.
채널별 전략
채널 1 — 베타 테스터 전환 (목표: 10~20명): 이미 경험한 사람들. 정식 출시와 함께 유료 전환 유도. 첫 달 50% 할인.
채널 2 — 학원 제휴 (목표: 15~30명): 학원에 "학생 보충 학습 도구" 추천 요청. 추천 수수료(10~20%) 또는 학원용 무료 계정 제공. 제휴 학원 3~5곳 목표.
채널 3 — 학부모 커뮤니티: 유학 카페, Facebook 그룹, 카카오톡 채팅방. "SSAT Analogy 학습법" 콘텐츠 마케팅으로 자연스럽게 유입.
채널 4 — 무료 체험 랜딩 페이지: "SSAT Analogy 10문제 무료 풀기" CTA. 모든 마케팅 채널에서 이 URL 공유.
마케팅 예산
월 50~100만 원 소액 온라인 광고(Facebook/Instagram 타겟) + 인적 네트워크 기반 무비용 채널 병행.
• 채널별 마케팅 실행 계획 및 콘텐츠 캘린더
• 학원 제휴 제안서
• 주간 마케팅 성과 리포트
성장 지표 대시보드
기존 DB에서 핵심 쿼리를 돌려 시각화하는 수준의 간단한 대시보드를 구축합니다.
사용자 지표: DAU, 주간 리텐션, 유료 전환율 / 학습 지표: 일별 풀이 수, Logic Type별 정답률, 힌트 열람률 / 매출 지표: MRR, 구독자 추이, 해지율
과제 이후 로드맵 초안
소크라틱 스캐폴딩 고도화 (고정형 → 동적 힌트), Layer 4 IRT 모델 본격 도입 (사용자 500명+ 데이터 기반), SSAT 다른 영역 확장, 학원용 B2B 플랜, 모바일 앱 검토.
• 과제 이후 6개월 로드맵 초안
• 전체 데이터 백업 및 분석용 데이터셋
Phase 4 성과 측정 기준
리스크 및 대응
전체 과제 요약: 7개월 한눈에 보기
| Phase 1 1~2월 |
Phase 2 3~4월 |
Phase 3 5~6월 |
Phase 4 7월 |
|
|---|---|---|---|---|
| 핵심 | AI 엔진 MVP | 서비스 입히기 | 시장 검증 | 정식 출시 |
| AI 개발자 | KG, LLM, 검증, 난이도 | 힌트 엔진, Phase 1 보완 | 엔진 고도화 | 최종 수정, 대시보드 |
| 풀스택 | Phase 2 설계, 백엔드 보조 | 웹 UI, 데이터 수집 | 결제, 버그 대응 | UI 다듬기, 랜딩 |
| 콘텐츠 | 55-Logic 디지털화, Few-shot | 힌트 검수, 문항 검토 | 결함 분석, 프롬프트 개선 | 최종 보강 |
| 기획/운영 | 전체 기획 | UX 기획, 마케팅 준비 | 베타 모집·운영 | 마케팅, 영업 |
| 마일스톤 | 자동 출제 작동 | 웹에서 학습 가능 | 실사용자 검증 | 매출 발생 |
| 검수 통과율 | 50~60% | 60~65% | 70% | 70%+ 유지 |