Model Selection¶
본 프로젝트에서는 초기에는 Llama 3-8B 모델, 이후에는 T5-xlarge 모델을 채택했습니다. 한국어 점자 특성상, 단순한 영문 중심 모델보다 한국어 데이터 처리에 강점이 있는 모델이 필요했습니다.
-
Llama 3-8B 시도:
- 장점: 비교적 적은 파라미터로도 양호한 성능
- 단점: 한국어 점자 변환 규칙에 대한 미세 조정이 부족, CER이 높게 나타남
-
T5-xlarge 도입:
- 약 30억 ~ 40억 개 파라미터급 모델로 한국어 지원이 우수
- 미세조정 시 CER 대폭 감소 (0.01 수준까지)
- Inference 시간이 다소 길어질 수 있으나, GPU나 Hailo-8 활용으로 극복 가능
-
향후 계획:
- 학습데이터 증강, 양자화 기법 적용 등을 통해 보다 경량화된 모델로 이식
- Edge 환경 호환성 보강 (Iteration 3에서 Hailo-8 기반 테스트 진행)
Training Process¶
모델 학습은 주로 GCP 인스턴스에서 진행했습니다. 하이퍼파라미터 설정과 데이터 전처리에 많은 시행착오가 있었으며, 특히 한국어-점자 병렬 말뭉치가 충분치 않아 크롤링 및 수작업 변환 과정을 병행했습니다.
- 환경:
- G2-standard-8 (8 vCPUs, 32GB RAM), NVIDIA GPU
-
CUDA 12.x, PyTorch 2.x, Transformers 라이브러리
-
하이퍼파라미터:
- Epochs: 3~5회
- Batch size: 8~16
-
Learning rate: 1e-4 ~ 3e-5 (모델별로 차이)
-
이슈 & 해결:
- CER, WER 평가를 위해 적절한 Tokenizer가 필요 (점자 규칙 반영)
-
Early stopping 시점을 놓쳐 과적합 발생 → 검증 세트 주기적 모니터링
-
최종 결과:
- CER 0.01, WER 0.04 수준 도달 (T5-xlarge 기준)
- 일부 희귀 문법이나 맞춤법에 따른 오차는 향후 과제