Skip to content

Data Handling

본 프로젝트의 가장 큰 난관 중 하나는 한국어-점자 병렬 데이터의 부족이었습니다. 공식적인 데이터로는 [묵자-점자 병렬 말뭉치 2023]을 참고했지만, 여전히 일상어휘나 신조어, 특수기호 처리에 대한 자료가 부족했습니다.

  • 데이터 출처: 1) 국립국어원 공개 말뭉치(점자 규정집 및 일부 예시) 2) 자격시험 기출문제 (과거 5개년) 3) 자체 크롤링 및 수작업 라벨링

  • 전처리 작업:

  • 불필요한 공백, 맞춤법 변형, 형태소 분석 후 점자 변환 규칙에 맞게 재정렬
  • 텍스트 길이와 문장 구분 단위를 고려한 미니 배치 생성

  • 주의사항:

  • 저작권 문제로 인해 일부 텍스트는 공개 불가
  • 점자 규정 업데이트 시 즉각 반영 필요

이런 과정을 거치며, 최종적으로 약 수십만 문장 규모의 병렬 코퍼스를 확보했고, 점역 정확도를 높이는 핵심 기반 데이터셋으로 활용했습니다.