한국언론진흥재단(이사장 표완수)은 ‘언론사를 위한 언어정보 자원 개발’ 사업의 결과물인 한국어 형태소 분석기 ‘바른(bareun.ai)’을 23일 온라인에 공개했다. ‘바른’은 7,800만 건의 뉴스데이터와 80만 건의 언어사전을 활용해 학습시킨 결과물로서 최근 주목받는 인공지능의 한국어 학습을 위한 핵심 인프라 역할을 할 것으로 기대된다.
‘바른’은 뉴스 데이터를 학습하여 만든 형태소 분석 엔진으로 옳다는 의미의 ‘바른’과, 문장에서 형태소를 ‘발라낸다’는 의미를 함께 담고 있다. 재단은 한국어를 정확하게 파악하고, 언론 영역에 최적화된 형태소 분석기 개발을 위한 데이터 선별, 정제, 학습 과정을 거쳤다. 빅카인즈의 1990년부터 2022년 8월까지 뉴스 기사 7,800만 건을 정제해 1억 어절의 말뭉치를 학습시켰고, 개체명, 신조어, 복합명사 등 빅카인즈 언어사전의 80만 단어와 국립국어원 ‘모두의 말뭉치’ 300만 어절, ‘세종 말뭉치’ 1,200만 어절을 추가했다.
'‘바른’은 한국어 특성을 분석하여 찾아낸 106개의 분절 규칙을 적용했다. 106개의 분절 규칙은 8개 큰 단위로 문장을 구분하고, 국립국어원의 47품사 체계에 맞는 형태소를 정확하게 찾아낸다. 그 결과 카카오(khaiii), 서울대(Kkma), 오픈소스(mecab) 등 기존 형태소 분석기보다 모호성 평가, 지정사 복원 등에서 성능 향상을 보여주었다.
[바른과 기존 형태소 분석기 성능 비교 결과]
별첨. 바른 로고 및 이미지 1부. 끝.