AI 기반 SSAT Analogy 자동 출제 및 소크라틱 스캐폴딩 적응형 학습 시스템 개발

연구 목적 및 필요성

SSAT Analogy 문항 제작은 현재 전문 출제자의 수작업에 전적으로 의존하고 있습니다. 문항 하나를 만들고 검수하는 데 상당한 시간과 비용이 들고, 출제자 역량에 따라 품질 편차도 큽니다.

LLM을 활용한 자동 출제 시도가 늘고 있지만, 환각(Hallucination) 문제로 인해 논리적 결함이 있는 문항이 생성되는 경우가 많습니다. 프롬프트 엔지니어링만으로는 이를 안정적으로 통제하기 어렵습니다.

본 과제는 23년간 축적된 전문가의 구조화된 지식 체계(55-Logic, 75-Trap)를 AI 생성 과정에 직접 결합하여, 환각 발생 가능성을 구조적으로 줄이고, 전문가 검수 부담을 대폭 낮추는 것을 목표로 합니다. 최종적으로 소크라틱 스캐폴딩 기반 학습 서비스로 상용화하여 실제 매출과 사용자 피드백까지 확보합니다.

핵심 기술: 4-Layer AI 아키텍처

기존 방식: LLM에게 "좋은 문제 만들어줘" → 사람이 검수 → 환각 시 수동 수정
본 과제: 생성 전 구조적 제약 → 제약 내 LLM 생성 → 자동 다층 검증 → 실패 시 자동 재생성

🗺️ Layer 1 — Knowledge Graph Engine

55-Logic 관계 유형에 기반하여 개념 간 관계를 그래프 구조로 모델링하고, 의미적 거리 계산을 통해 최적의 문항 후보 관계 쌍을 자동 추출합니다.

⚙️ Layer 2 — Constrained Generation Engine

추출된 관계 쌍을 바탕으로, LogicType 및 제약 조건을 명시한 구조적 프롬프트를 통해 LLM이 문항을 생성합니다. Few-shot 예시로 일관성을 강화하고, JSON Schema로 출력 포맷을 통제합니다.

🔍 Layer 3 — Trap Matrix Validator

선택지 간 의미 유사도 분석, 관계 벡터 일관성 계산, 75-Trap 오류 패턴 대조를 통해 논리 정합성을 자동 검증합니다. 검증 실패 시 재생성 루프가 작동합니다.

📊 Layer 4 — Difficulty & Metadata Engine

어휘 희소성, 오답 유사도 등 정량 지표 기반으로 난이도를 자동 산정합니다. 초기 규칙 기반 → 학습자 데이터 축적 후 IRT 모델로 고도화합니다.

추진 체계: 인력 구성 (4명)

역할	인원	담당 범위
AI/백엔드 개발자	1명	Knowledge Graph, LLM 파이프라인, 검증 로직, 소크라틱 엔진, API
풀스택 개발자	1명	웹 UI/UX, 결제 시스템, 데이터 수집, 인프라
콘텐츠/데이터 전문가	1명	55-Logic·75-Trap 디지털화, Few-shot 작성, 문항 검수
기획/운영/마케팅	1명	서비스 기획, 베타 운영, 피드백 관리, 학원 영업

외부 자문: SSAT 출제 경험이 있는 교육 전문가 1인 (비상근, 월 2~3회 검수 참여)

개발 일정 (총 7개월)

단계	기간	핵심 내용	산출물
Phase 1	1~2개월	4-Layer 파이프라인 MVP 개발	자동 출제 엔진 프로토타입
Phase 2	3~4개월	소크라틱 스캐폴딩 + 웹 서비스	학습 서비스 베타 버전
Phase 3	5~6개월	결제 시스템 + 베타 테스트(30~50명)	실증 데이터 및 피드백
Phase 4	7개월	피드백 반영, 정식 런칭	상용 서비스 + 초기 매출

성능 목표 (정량 지표)

지표	목표	측정 방법
전문가 검수 통과율	70% 이상	전문가 블라인드 검수
제작 시간 절감	50~60%	문항당 소요 시간 비교
제작 단가 절감	40~60%	문항당 원가 분석
구조적 오류 탐지율	80% 이상	75-Trap 핵심 패턴 매칭 로그
유료 구독자 수	50~100명	결제 데이터

환각 제어에 대한 현실적 접근: "환각을 완벽히 차단한다"가 아니라, 구조적 제약과 자동 검증으로 환각이 최종 산출물에 도달하는 것을 최대한 줄이고, 나머지는 전문가 검수로 보완하는 하이브리드 모델입니다. AI가 100% 완벽한 문항을 만드는 것이 아니라, 전문가의 작업량을 획기적으로 줄여주는 것이 현실적 목표입니다.

기술적 차별성

첫째, 생성 전 구조적 제약. 프롬프트 튜닝에만 의존하는 기존 서비스와 달리, 생성 → 검증 → 재생성이 하나의 파이프라인으로 자동화되어 있습니다.

둘째, 독점 IP 기반 평가 체계. 23년간 전문가가 체계화한 55-Logic과 75-Trap은 공개 데이터가 아닌 독점 자산입니다. AI 결과물을 정량적으로 평가할 수 있는 기준점 역할을 합니다.

셋째, 인간-AI 협업 모델. 완전 자동화가 아닌, AI 초안 + 전문가 최종 확인의 현실적 협업 구조입니다. 축적되는 검수 데이터가 엔진의 지속적 개선에 활용됩니다.

1주~3주

Layer 1 — Knowledge Graph 구축

SSAT Analogy에 출제되는 단어 쌍들을 55-Logic 관계 유형에 따라 분류하고, 검색 가능한 데이터베이스로 구축합니다. 전체 시스템의 원재료 창고 역할입니다.

구체적 작업 내용

기존 55-Logic 관계 유형 분류 체계를 디지털 스키마로 변환합니다. "유사(Synonym)", "반의(Antonym)", "부분-전체(Part-Whole)", "도구-기능(Tool-Function)" 같은 관계 유형 각각에 고유 코드와 정의, 예시를 부여합니다.

SSAT 기출 및 기존 축적 데이터에서 단어 쌍을 추출하고 각 쌍에 관계 유형 태그를 부여합니다. 콘텐츠/데이터 전문가가 주도하고, AI 개발자가 반자동 태깅 도구를 만들어 속도를 높입니다.

목표 데이터 규모

MVP 단계에서는 전체 55개 유형 중 핵심 15~20개 유형에 집중하고, 유형당 30~50개 단어 쌍, 총 500~800개 단어 쌍을 확보합니다.

데이터 저장 구조

그래프 DB(Neo4j)는 4명 팀에 과도한 인프라입니다. PostgreSQL + JSON 필드 조합으로 관계 데이터를 저장하고, 의미적 거리 계산은 임베딩 벡터(OpenAI Embedding API 등)의 코사인 유사도로 처리합니다.

산출물

• 55-Logic 관계 유형 디지털 스키마 (코드, 정의, 예시 포함)
• 500~800개 태깅된 단어 쌍 데이터베이스
• 관계 유형별 단어 쌍 검색 API

3주~5주

Layer 2 — Constrained Generation Engine 개발

Layer 1에서 추출한 단어 쌍을 바탕으로, LLM이 정해진 규칙 안에서만 SSAT Analogy 문항을 생성하도록 만드는 엔진입니다.

구조적 프롬프트 설계

단순히 "문제 만들어줘"가 아니라, Logic Type, Stem Pair, 난이도, 제약조건을 명시한 구조적 프롬프트 템플릿을 설계합니다.

[입력 예시]
- Logic Type: Part-Whole (부분-전체)
- Stem Pair: Petal → Flower
- 난이도: 중
- 제약조건: 오답 선택지는 동일 Logic Type이
  아닌 다른 관계 유형에서 추출할 것

Few-shot 예시(정상 문항 3~5개)를 함께 제공해서 LLM이 패턴을 학습하게 하고, 출력은 사전 정의한 JSON Schema를 반드시 통과해야 합니다.

LLM 선택

MVP에서는 GPT-4o 또는 Claude API를 활용합니다. 자체 파인튜닝은 하지 않습니다. 데이터도 부족하고 4명이 파인튜닝까지 하면 일정이 무너집니다. 구조적 프롬프트 + JSON Schema 검증만으로 품질을 통제할 수 있는지 먼저 확인하는 게 이 단계의 핵심입니다.

산출물

• Logic Type별 구조적 프롬프트 템플릿 세트
• Few-shot 예시 라이브러리 (유형당 3~5개)
• JSON Schema 정의 및 검증 모듈
• 문항 생성 API (Logic Type 입력 → 문항 JSON 출력)

5주~7주

Layer 3 — Trap Matrix Validator 개발

생성된 문항이 논리적으로 맞는지 자동으로 검사합니다. "전문가에게 보내기 전에, 명백한 결함은 기계가 먼저 걸러내자"는 목적입니다.

3단계 자동 검증

검증 1단계 — 형식 검증. 선택지 개수, 정답 포함 여부, 중복 선택지 등 기본적인 구조를 확인합니다.

검증 2단계 — 관계 일관성 검증. 정답 쌍과 stem 쌍의 관계 벡터 코사인 유사도를 계산하고, 임계값(0.7) 이하이면 "관계 불일치"로 판정합니다.

검증 3단계 — 75-Trap 오류 패턴 매칭. MVP에서는 빈도가 높고 탐지가 용이한 핵심 20~30개 패턴을 먼저 구현합니다.

검증 실패 시 실패 사유를 태깅하고 재생성을 요청하는 루프가 작동합니다. 최대 3회로 제한하고, 3회 실패 시 "수동 검토 필요"로 분류합니다.

현실적 한계: 이 단계의 자동 검증은 "명백한 구조적 오류"를 잡는 데 집중합니다. 미묘한 의미 판단이나 문맥적 부적절함은 전문가 검수에 의존합니다. 자동 검증의 목적은 전문가가 검토해야 할 문항의 양과 난이도를 줄여주는 것입니다.

산출물

• 3단계 자동 검증 모듈
• 75-Trap 핵심 20~30개 패턴 디지털 룰셋
• 재생성 루프 로직 (최대 3회)
• 검증 결과 로그 시스템

7주~8주

Layer 4 — Difficulty Engine (기초 버전)

각 문항의 난이도를 자동 추정합니다. MVP에서는 "정교한 예측"이 아닌 "대략적 3단계 분류"가 목표입니다.

정확한 난이도 예측에는 학습자 반응 데이터가 필요하지만, Phase 1에는 사용자가 없습니다. 초기에는 규칙 기반으로 시작하고, Phase 3에서 실제 데이터로 고도화합니다.

규칙 기반 난이도 추정 변수

어휘 희소성: 단어 빈도 데이터(COCA corpus 등)를 활용하여 희귀도를 점수화합니다.

오답 유인력: 오답과 정답 간 의미 유사도를 계산합니다. 유사할수록 난이도 상승.

관계 유형 복잡도: 55-Logic 유형별 기본 난이도 가중치를 부여합니다.

이 변수들을 가중합하여 쉬움/보통/어려움 3단계로 분류합니다.

산출물

• 규칙 기반 난이도 추정 모듈 (3단계 분류)
• 문항 메타데이터 자동 생성
• Validation Trace (생성 이력 기록)

8주 (마지막 주)

통합 테스트 및 파이프라인 연결

4개 Layer를 하나로 연결하고 끝에서 끝까지 돌려봅니다. 핵심 15~20개 Logic Type에 대해 각각 최소 10문항씩, 총 150~200문항을 자동 생성하고, 전문가가 표본 검수(50문항 이상)를 수행합니다.

Phase 1 성과 측정 기준

90%+

파이프라인 정상 작동률

50~60%

전문가 검수 통과율

60%+

오류 탐지율

<30초

문항당 생성 시간

리스크 및 대응

리스크 1: 55-Logic 디지털화가 예상보다 오래 걸림

→ 대응: 전체 55개가 아닌 핵심 15~20개만 우선 처리. 나머지는 Phase 2~3에서 점진적 확대.

리스크 2: LLM 생성 품질이 기대에 미치지 못함

→ 대응: Few-shot 예시를 유형별 5개 이상 확보. 부족 시 Phase 2에서 프롬프트 체계 전면 재설계.

리스크 3: 자동 검증이 오탐(False Positive)을 많이 냄

→ 대응: 검증 임계값을 보수적으로(느슨하게) 시작하고, 표본 검토를 통해 점진적으로 조여감.

9주~12주

소크라틱 스캐폴딩 엔진 (간소 버전)

학생에게 바로 정답을 알려주지 않고, 질문과 힌트를 단계적으로 제공해서 스스로 사고하고 답에 도달하게 유도하는 교수법입니다.

왜 간소 버전으로 시작하는가

완전한 소크라틱 대화는 학생의 답변을 실시간 분석하고 동적 후속 질문을 생성해야 합니다. 이건 별도 AI 대화 엔진이 필요한 수준입니다. MVP에서는 "고정형 3단계 힌트 시스템"으로 시작합니다.

3단계 힌트 구조

1단계 — 방향 제시: 정답을 직접 언급하지 않고 사고의 방향만 잡아줍니다.
"두 단어가 어떤 관계인지 다시 생각해봐. 하나가 다른 하나의 일부분인 건 아닐까?"

2단계 — 관계 명시: 관계 유형을 직접 알려주고 적용을 유도합니다.
"Petal은 Flower의 부분이야. 선택지 중 같은 '부분-전체' 관계인 쌍을 찾아봐."

3단계 — 정답 및 해설: 정답과 함께 전체 해설을 보여줍니다.
"정답은 Page : Book이야. Petal이 Flower의 한 부분인 것처럼, Page는 Book의 한 부분이야."

기술적 구현

Layer 2 프롬프트에 힌트 생성 지시를 추가하고, JSON Schema에 hint_level_1, hint_level_2, hint_level_3 필드를 추가합니다. 생성된 힌트도 Layer 3의 검증 대상에 포함합니다.

산출물

• 3단계 힌트 생성 프롬프트 및 JSON Schema 확장
• 힌트 품질 검증 규칙 (Layer 3 확장)
• 문항+힌트 통합 생성 API

9주~16주 (전체 병행)

웹 서비스 개발

학생이 접속해서 문제를 풀 수 있는 웹 애플리케이션을 만듭니다. 화려한 디자인이 아니라 학습 흐름이 매끄럽게 작동하는 것이 핵심입니다.

기술 스택

프론트엔드: Next.js (React 기반) / 백엔드: Phase 1의 Python(FastAPI) 엔진 활용 / DB: PostgreSQL 계속 사용 + 사용자·학습 로그 테이블 추가 / 인증: 이메일+비밀번호 (소셜 로그인은 Phase 3) / 호스팅: Vercel + AWS/GCP

핵심 화면 구성

회원가입/로그인: 이메일+비밀번호 가입, 간단한 프로필 입력

학습 메인: 난이도 선택(쉬움/보통/어려움), "문제 풀기" 버튼, 간단한 요약 통계

문제 풀기: 문항 표시 → 선택 → 정답 여부 → 틀리면 힌트 단계별 열림 → 다음 문제

학습 결과: 정답률, 틀린 문제 목록, 약한 Logic Type 요약

모바일 웹 반응형 필수. 별도 앱은 만들지 않습니다.

산출물

• 웹 서비스 베타 버전 (회원가입, 학습, 결과 확인)
• 모바일 반응형 대응
• 배포 환경 구축 (도메인, 호스팅, SSL)

13주~16주

학습 데이터 수집 구조

학생들의 모든 행동 데이터를 자동으로 기록합니다. 이 데이터가 Phase 3에서 AI 엔진을 개선하는 핵심 연료가 됩니다.

수집 데이터

문항별: 선택한 답, 정답 여부, 소요 시간, 힌트 열람 단계, 힌트 후 답변 변경 여부

사용자별: 누적 정답률, Logic Type별 정답률, 학습 빈도, 세션당 풀이 수

문항 집계: 전체 정답률, 평균 소요 시간, 힌트 열람률, 최다 선택 오답

실시간 분석은 불필요하고, 배치 처리로 일 단위 집계하면 충분합니다.

산출물

• 학습 이벤트 로깅 시스템
• 학습 로그 DB 테이블
• 기본 집계 쿼리 (일별 통계, 문항별 정답률)

16주 (마지막 주)

내부 테스트

팀 4명 + 외부 자문 전문가가 직접 서비스를 사용하고, 추가로 SSAT 준비 학생 5~10명에게 비공식 테스트를 진행합니다. 이 피드백이 Phase 3 베타 설계에 반영됩니다.

Phase 2 성과 측정 기준

85%+

힌트 포함 생성 성공률

60~65%

전문가 검수 통과율

100%

핵심 기능 완성도

0건

치명적 버그

리스크 및 대응

리스크 1: 힌트 생성 품질이 떨어짐

→ 대응: 콘텐츠 전문가가 초기 50문항 힌트를 수동 검수하고, 좋은/나쁜 힌트 패턴을 Few-shot 예시에 반영.

리스크 2: 웹 개발 일정 지연

→ 대응: UI를 최대한 단순하게. Tailwind CSS + 기본 컴포넌트로 빠르게 구현. 디자인 다듬기는 Phase 4.

리스크 3: Phase 1 엔진 문제가 뒤늦게 드러남

→ 대응: Phase 2 첫 2주를 Phase 1 보완 + Phase 2 개발 병행 기간으로 설정.

17주~19주

구독 결제 시스템 구축

과금 모델

무료 체험: 가입 후 10문항까지 무료 (힌트 포함). 서비스 경험 후 결제 유도.

유료 구독: 월 단위 1가지만. 무제한 문항, 전체 난이도, 학습 통계 포함. 가격 $19.99~$29.99 범위에서 베타 중 테스트. 베타 테스터에게 50% 얼리버드 할인.

연간 구독, 학원 플랜은 Phase 4 이후 검토합니다.

기술적 구현

Stripe 사용. 해외 결제 기본 지원, 구독 관리 내장. 구독 생성/갱신/해지/재시도까지 Stripe가 처리합니다. 프론트에서 구독 상태별 접근 제어. 결제 이메일은 Stripe + SendGrid로 자동화합니다.

법적 체크

이용약관, 개인정보 처리방침 작성. 미성년자 주 사용자이므로 COPPA 확인 필요. 기본 약관 + 베타 동의서에 "베타 서비스임" 명시로 시작합니다.

산출물

• Stripe 연동 결제 시스템
• 무료/유료 접근 제어 로직
• 결제 자동 이메일
• 이용약관 및 개인정보 처리방침

19주~20주

베타 테스트 준비

테스터 모집 전략

채널 1 — 학원/컨설팅 제휴: SSAT 전문 학원에 학생 대상 베타 참여 제안. 학원에 추가 학습 도구 무료 제공이므로 거부 이유 적음.

채널 2 — 학부모 커뮤니티: 온라인 포럼, Facebook 그룹, 카카오톡 유학 준비 그룹에 모집 공고.

채널 3 — 기존 네트워크: 23년간의 교육 전문가 네트워크가 가장 빠른 채널.

인센티브: 베타 기간 무료 이용 또는 정식 출시 후 3개월 무료. 조건: 주 1회 피드백 설문 응답.

피드백 수집 체계

정량 데이터: Phase 2의 학습 데이터 수집 시스템이 자동 수집 (정답률, 힌트 열람률, 이탈 지점 등)

정성 데이터: 주 1회 간단한 설문(5~7문항), 테스터 중 5~10명 대상 격주 15분 인터뷰

산출물

• 베타 테스터 모집 공고 및 채널별 실행 계획
• 베타 참여 동의서
• 주간 피드백 설문 템플릿
• 인터뷰 가이드 및 일정

20주~24주

베타 운영 (4주간)

주차별 운영 계획

1주차 — 안정화: 핵심 흐름 치명적 버그 실시간 모니터링. 당일 핫픽스 목표. 풀스택 개발자가 버그 대응에 집중.

2주차 — 데이터 확인: 문항별 정답률 극단값(95%↑ 또는 10%↓) 추출, 콘텐츠 전문가 검토. 첫 주간 설문 분석 및 즉시 반영 가능 항목 적용.

3주차 — AI 엔진 개선: 2주치 데이터 기반 Layer 3 검증 규칙 보강, Layer 4 난이도 가중치 조정, 특정 Logic Type 힌트 품질 개선.

4주차 — 종합 분석: 전체 데이터 종합 분석. Phase 4 우선 개선 사항 도출. 핵심 지표 정리 및 인터뷰 인사이트 종합.

20주~24주 (베타 병행)

AI 엔진 고도화

Layer 3 검증 강화

"결함인데 검증을 통과한 문항"의 패턴을 분석하여 75-Trap 룰셋에 새 패턴을 추가합니다. MVP의 20~30개 → 40~50개로 확대가 목표입니다.

Layer 4 난이도 보정

규칙 기반 난이도와 실제 정답률을 비교하여 가중치를 보정합니다. 30~50명 데이터로 IRT 모델은 아직 어렵고, 규칙 기반 보정에 집중합니다.

문항 생성 품질 개선

피드백과 검수 결과를 바탕으로 Layer 2 프롬프트를 매주 반복적으로 개선합니다.

산출물

• 75-Trap 패턴 확대 (20~30개 → 40~50개)
• Layer 4 난이도 가중치 보정
• 개선된 프롬프트 및 Few-shot 라이브러리
• 베타 테스트 종합 분석 보고서

Phase 3 성과 측정 기준

30~50명

베타 테스터

20%+

유료 전환율

60%+

주간 리텐션

70%

전문가 검수 통과율

유료 전환율 20%와 주간 리텐션 60%는 에듀테크 서비스 기준으로 양호한 수치입니다. 이 수치가 나오면 "시장에서 돈을 낼 만한 가치가 있다"는 초기 검증이 됩니다. 이 수치가 안 나오면, Phase 4에서 기능 개선보다 가치 제안 자체를 재검토해야 합니다.

리스크 및 대응

리스크 1: 베타 테스터 모집이 안 됨

→ 대응: 모집을 Phase 2 후반(15~16주차)부터 시작. 학원 제휴 우선, 안 되면 학부모 커뮤니티 유료 광고 검토.

리스크 2: 유료 전환율이 극히 낮음

→ 대응: 테스터 인터뷰로 원인 직접 확인. 가격 문제면 공격적 할인, 품질 문제면 Phase 4 최우선 개선.

리스크 3: 실사용 데이터와 내부 테스트 결과 괴리

→ 대응: 베타 1주차를 안정화 주간으로 설정. 심각 시 베타 기간 1~2주 연장 고려.

25주~26주

베타 피드백 반영 및 서비스 다듬기

우선순위 분류 기준

즉시 수정 (Must Fix): 안 고치면 이탈하거나 결제 안 하는 문제. 결제 오류, 명백한 문항 결함, 안정성 문제, UX 혼란. 이것만 25~26주에 집중.

출시 후 개선 (Should Fix): 없어도 서비스는 돌아감. 상세 통계, 오답노트, 소셜 로그인 등. 월 단위 업데이트로 반영.

장기 검토 (Nice to Have): 좋은 아이디어지만 지금은 아님. 다른 SSAT 영역 확장, 앱 출시, AI 튜터 대화. 다음 분기 이후 로드맵.

예상 수정 작업

문항 품질: 특정 Logic Type의 프롬프트·Few-shot 집중 보강

힌트 품질: 1단계 힌트 구체성, 2단계 힌트 노출 수준 조정

UX: 학습 진행 표시(프로그레스 바), 세션 요약 화면 보강

산출물

• 피드백 분류표 (Must Fix / Should Fix / Nice to Have)
• Must Fix 항목 수정 완료
• 정식 출시 버전 배포

25주~28주 (전체 병행)

마케팅 및 구독자 확보

타겟 고객

1차 타겟: 미국 사립학교 입학 준비 한국인 학부모·학생. 한국어 커뮤니케이션 가능, SSAT 수요 높음, 교육 투자 적극적.

2차 타겟: 미국 현지 SSAT 준비 학원·튜터 (B2B). 과제 기간 내 탐색 수준.

채널별 전략

채널 1 — 베타 테스터 전환 (목표: 10~20명): 이미 경험한 사람들. 정식 출시와 함께 유료 전환 유도. 첫 달 50% 할인.

채널 2 — 학원 제휴 (목표: 15~30명): 학원에 "학생 보충 학습 도구" 추천 요청. 추천 수수료(10~20%) 또는 학원용 무료 계정 제공. 제휴 학원 3~5곳 목표.

채널 3 — 학부모 커뮤니티: 유학 카페, Facebook 그룹, 카카오톡 채팅방. "SSAT Analogy 학습법" 콘텐츠 마케팅으로 자연스럽게 유입.

채널 4 — 무료 체험 랜딩 페이지: "SSAT Analogy 10문제 무료 풀기" CTA. 모든 마케팅 채널에서 이 URL 공유.

마케팅 예산

월 50~100만 원 소액 온라인 광고(Facebook/Instagram 타겟) + 인적 네트워크 기반 무비용 채널 병행.

산출물

• 무료 체험 랜딩 페이지
• 채널별 마케팅 실행 계획 및 콘텐츠 캘린더
• 학원 제휴 제안서
• 주간 마케팅 성과 리포트

27주~28주

데이터 기반 성장 준비

성장 지표 대시보드

기존 DB에서 핵심 쿼리를 돌려 시각화하는 수준의 간단한 대시보드를 구축합니다.

사용자 지표: DAU, 주간 리텐션, 유료 전환율 / 학습 지표: 일별 풀이 수, Logic Type별 정답률, 힌트 열람률 / 매출 지표: MRR, 구독자 추이, 해지율

과제 이후 로드맵 초안

소크라틱 스캐폴딩 고도화 (고정형 → 동적 힌트), Layer 4 IRT 모델 본격 도입 (사용자 500명+ 데이터 기반), SSAT 다른 영역 확장, 학원용 B2B 플랜, 모바일 앱 검토.

산출물

• 성장 지표 대시보드 (기본 버전)
• 과제 이후 6개월 로드맵 초안
• 전체 데이터 백업 및 분석용 데이터셋

Phase 4 성과 측정 기준

50~100명

유료 구독자

$1K~3K

월간 매출 (MRR)

<15%

월간 해지율

70%+

전문가 검수 통과율

MRR $1,000~$3,000이 작아 보일 수 있지만, 정부 R&D 과제에서 중요한 건 매출 규모가 아니라 "시장에서 돈을 지불하는 고객이 존재하고, 반복 매출이 발생하는 구조가 만들어졌다"는 사실입니다. 이것이 사업화 가능성의 증거가 됩니다.

리스크 및 대응

리스크 1: 구독자 100명 확보가 안 됨

→ 대응: 최소 목표 50명. 50명만 달성해도 과제 성과로 충분. 100명은 stretch goal. 학원 제휴 성사 시 달성 가능성 높아짐.

리스크 2: 해지율이 높음

→ 대응: 해지 시 설문으로 원인 파악. 콘텐츠 부족이면 문항 다양성 확대, 동기 부족이면 학습 리마인더·주간 리포트 이메일 추가.

리스크 3: 기술 부채로 서비스 불안정

→ 대응: 25~26주를 버그 수정·안정화에 집중 배정. 새 기능 추가를 멈추고, 있는 것을 안정적으로 만드는 데 집중.

전체 과제 요약: 7개월 한눈에 보기

	Phase 1 1~2월	Phase 2 3~4월	Phase 3 5~6월	Phase 4 7월
핵심	AI 엔진 MVP	서비스 입히기	시장 검증	정식 출시
AI 개발자	KG, LLM, 검증, 난이도	힌트 엔진, Phase 1 보완	엔진 고도화	최종 수정, 대시보드
풀스택	Phase 2 설계, 백엔드 보조	웹 UI, 데이터 수집	결제, 버그 대응	UI 다듬기, 랜딩
콘텐츠	55-Logic 디지털화, Few-shot	힌트 검수, 문항 검토	결함 분석, 프롬프트 개선	최종 보강
기획/운영	전체 기획	UX 기획, 마케팅 준비	베타 모집·운영	마케팅, 영업
마일스톤	자동 출제 작동	웹에서 학습 가능	실사용자 검증	매출 발생
검수 통과율	50~60%	60~65%	70%	70%+ 유지

AI 기반 SSAT Analogy 자동 출제 및소크라틱 스캐폴딩 적응형 학습 시스템 개발

연구 목적 및 필요성

핵심 기술: 4-Layer AI 아키텍처

🗺️ Layer 1 — Knowledge Graph Engine

⚙️ Layer 2 — Constrained Generation Engine

🔍 Layer 3 — Trap Matrix Validator

📊 Layer 4 — Difficulty & Metadata Engine

추진 체계: 인력 구성 (4명)

개발 일정 (총 7개월)

성능 목표 (정량 지표)

기술적 차별성

4-Layer AI 파이프라인 MVP 개발

구체적 작업 내용

목표 데이터 규모

데이터 저장 구조

구조적 프롬프트 설계

LLM 선택

3단계 자동 검증

규칙 기반 난이도 추정 변수

Phase 1 성과 측정 기준

리스크 및 대응

소크라틱 스캐폴딩 + 웹 서비스 개발

왜 간소 버전으로 시작하는가

3단계 힌트 구조

기술적 구현

기술 스택

핵심 화면 구성

수집 데이터

Phase 2 성과 측정 기준

리스크 및 대응

결제 시스템 + 베타 테스트

과금 모델

기술적 구현

법적 체크

테스터 모집 전략

피드백 수집 체계

주차별 운영 계획

Layer 3 검증 강화

Layer 4 난이도 보정

문항 생성 품질 개선

Phase 3 성과 측정 기준

리스크 및 대응

정식 런칭 + 유료 구독자 확보

우선순위 분류 기준

예상 수정 작업

타겟 고객

채널별 전략

마케팅 예산

성장 지표 대시보드

과제 이후 로드맵 초안

Phase 4 성과 측정 기준

리스크 및 대응

전체 과제 요약: 7개월 한눈에 보기

AI 기반 SSAT Analogy 자동 출제 및
소크라틱 스캐폴딩 적응형 학습 시스템 개발