한국언론진흥재단(이사장 표완수)은 언론사를 위한 언어정보 자원 개발’ 사업의 결과물인 한국어 형태소 분석기 바른(bareun.ai)’을 23일 온라인에 공개했다. ‘바른은 7,800만 건의 뉴스데이터와 80만 건의 언어사전을 활용해 학습시킨 결과물로서 최근 주목받는 인공지능의 한국어 학습을 위한 핵심 인프라 역할을 할 것으로 기대된다.

 

바른은 뉴스 데이터를 학습하여 만든 형태소 분석 엔진으로 옳다는 의미의 바른문장에서 형태소를 발라낸다는 의미를 함께 담고 있다재단은 한국어를 정확하게 파악하고언론 영역에 최적화된 형태소 분석기 개발을 위한 데이터 선별정제, 학습 과정을 거쳤다빅카인즈의 1990년부터 2022년 8월까지 뉴스 기사 7,800만 건을 정제해 1억 어절의 말뭉치를 학습시켰고개체명신조어복합명사 등 빅카인즈 언어사전의 80만 단어와 국립국어원 모두의 말뭉치’ 300만 어절, ‘세종 말뭉치’ 1,200만 어절을 추가했다.

 

'‘바른은 한국어 특성을 분석하여 찾아낸 106개의 분절 규칙을 적용했다. 106개의 분절 규칙은 8개 큰 단위로 문장을 구분하고국립국어원의 47품사 체계에 맞는 형태소를 정확하게 찾아낸다그 결과 카카오(khaiii), 서울대(Kkma), 오픈소스(mecab) 등 기존 형태소 분석기보다 모호성 평가지정사 복원 등에서 성능 향상을 보여주었다.

 

[바른과 기존 형태소 분석기 성능 비교 결과]

 


최근 챗GPT의 등장으로 언론 영역에서 인공지능 기술의 도입 및 적용 필요성은 증가하고 있지만언론사 자체적인 기술 개발은 어려운 상황이다이에 재단은 언론계 인공지능 서비스 촉진과 데이터 저널리즘 확산을 목표로 2021년부터 언론사를 위한 언어정보 자원 개발을 추진해오고 있다. 2022년 ‘KPF-BERT’모델에 이어 올해 형태소 분석기 바른을 공개했다.

이번에 공개된 바른형태소 분석기는 문맥과 의미를 고려한 맞춤법 검사혐오 표현 검출 및 순화적절한 단어나 표현 추천 등 언론계 인공지능 서비스 확산에 기여할 것으로 기대된다데이터 저널리즘 분야에서는 라이브러리파이썬 패키지와 소스코드 등 공개를 통해 다양한 대안을 제시할 것이다.

바른의 개발 과정과 활용을 위한 안내는 바른 공식홈페이지(https://bareun.ai)와 빅카인즈 깃허브(https://github.com/KPF-bigkinds)에 모두 공개돼 있다. R, 파이썬자바 등 다양한 언어로 제공되며활용을 원하는 언론사 및 연구자국민 모두 무료로 이용할 수 있다.

 

별첨바른 로고 및 이미지 1.