Skip to content

Model Selection

본 프로젝트에서는 초기에는 Llama 3-8B 모델, 이후에는 T5-xlarge 모델을 채택했습니다. 한국어 점자 특성상, 단순한 영문 중심 모델보다 한국어 데이터 처리에 강점이 있는 모델이 필요했습니다.

  • Llama 3-8B 시도:

    • 장점: 비교적 적은 파라미터로도 양호한 성능
    • 단점: 한국어 점자 변환 규칙에 대한 미세 조정이 부족, CER이 높게 나타남
  • T5-xlarge 도입:

    • 약 30억 ~ 40억 개 파라미터급 모델로 한국어 지원이 우수
    • 미세조정 시 CER 대폭 감소 (0.01 수준까지)
    • Inference 시간이 다소 길어질 수 있으나, GPU나 Hailo-8 활용으로 극복 가능
  • 향후 계획:

    • 학습데이터 증강, 양자화 기법 적용 등을 통해 보다 경량화된 모델로 이식
    • Edge 환경 호환성 보강 (Iteration 3에서 Hailo-8 기반 테스트 진행)

Training Process

모델 학습은 주로 GCP 인스턴스에서 진행했습니다. 하이퍼파라미터 설정과 데이터 전처리에 많은 시행착오가 있었으며, 특히 한국어-점자 병렬 말뭉치가 충분치 않아 크롤링 및 수작업 변환 과정을 병행했습니다.

  • 환경:
  • G2-standard-8 (8 vCPUs, 32GB RAM), NVIDIA GPU
  • CUDA 12.x, PyTorch 2.x, Transformers 라이브러리

  • 하이퍼파라미터:

  • Epochs: 3~5회
  • Batch size: 8~16
  • Learning rate: 1e-4 ~ 3e-5 (모델별로 차이)

  • 이슈 & 해결:

  • CER, WER 평가를 위해 적절한 Tokenizer가 필요 (점자 규칙 반영)
  • Early stopping 시점을 놓쳐 과적합 발생 → 검증 세트 주기적 모니터링

  • 최종 결과:

  • CER 0.01, WER 0.04 수준 도달 (T5-xlarge 기준)
  • 일부 희귀 문법이나 맞춤법에 따른 오차는 향후 과제