Data Handling¶
본 프로젝트의 가장 큰 난관 중 하나는 한국어-점자 병렬 데이터의 부족이었습니다. 공식적인 데이터로는 [묵자-점자 병렬 말뭉치 2023]을 참고했지만, 여전히 일상어휘나 신조어, 특수기호 처리에 대한 자료가 부족했습니다.
-
데이터 출처: 1) 국립국어원 공개 말뭉치(점자 규정집 및 일부 예시) 2) 자격시험 기출문제 (과거 5개년) 3) 자체 크롤링 및 수작업 라벨링
-
전처리 작업:
- 불필요한 공백, 맞춤법 변형, 형태소 분석 후 점자 변환 규칙에 맞게 재정렬
-
텍스트 길이와 문장 구분 단위를 고려한 미니 배치 생성
-
주의사항:
- 저작권 문제로 인해 일부 텍스트는 공개 불가
- 점자 규정 업데이트 시 즉각 반영 필요
이런 과정을 거치며, 최종적으로 약 수십만 문장 규모의 병렬 코퍼스를 확보했고, 점역 정확도를 높이는 핵심 기반 데이터셋으로 활용했습니다.