알림 · 정보 - 한국언론진흥재단, 뉴스 기반 형태소 분석기 ‘바른’ 공개

Site map

	2023.06.30. 금 11:11

한국언론진흥재단, 뉴스 기반 형태소 분석기 ‘바른’ 공개

고연희 기자

http://djci.kr/?document_srl=1796125

2023.02.24 10:49:58 (*.137.231.17)

한국언론진흥재단(이사장 표완수)은 ‘언론사를 위한 언어정보 자원 개발’ 사업의 결과물인 한국어 형태소 분석기 ‘바른(bareun.ai)’을 23일 온라인에 공개했다. ‘바른’은 7,800만 건의 뉴스데이터와 80만 건의 언어사전을 활용해 학습시킨 결과물로서 최근 주목받는 인공지능의 한국어 학습을 위한 핵심 인프라 역할을 할 것으로 기대된다.

‘바른’은 뉴스 데이터를 학습하여 만든 형태소 분석 엔진으로 옳다는 의미의 ‘바른’과, 문장에서 형태소를 ‘발라낸다’는 의미를 함께 담고 있다. 재단은 한국어를 정확하게 파악하고, 언론 영역에 최적화된 형태소 분석기 개발을 위한 데이터 선별, 정제, 학습 과정을 거쳤다. 빅카인즈의 1990년부터 2022년 8월까지 뉴스 기사 7,800만 건을 정제해 1억 어절의 말뭉치를 학습시켰고, 개체명, 신조어, 복합명사 등 빅카인즈 언어사전의 80만 단어와 국립국어원 ‘모두의 말뭉치’ 300만 어절, ‘세종 말뭉치’ 1,200만 어절을 추가했다.

'‘바른’은 한국어 특성을 분석하여 찾아낸 106개의 분절 규칙을 적용했다. 106개의 분절 규칙은 8개 큰 단위로 문장을 구분하고, 국립국어원의 47품사 체계에 맞는 형태소를 정확하게 찾아낸다. 그 결과 카카오(khaiii), 서울대(Kkma), 오픈소스(mecab) 등 기존 형태소 분석기보다 모호성 평가, 지정사 복원 등에서 성능 향상을 보여주었다.

[바른과 기존 형태소 분석기 성능 비교 결과]

최근 챗GPT의 등장으로 언론 영역에서 인공지능 기술의 도입 및 적용 필요성은 증가하고 있지만, 언론사 자체적인 기술 개발은 어려운 상황이다. 이에 재단은 언론계 인공지능 서비스 촉진과 데이터 저널리즘 확산을 목표로 2021년부터 ‘언론사를 위한 언어정보 자원 개발’을 추진해오고 있다. 2022년 ‘KPF-BERT’모델에 이어 올해 형태소 분석기 ‘바른’을 공개했다.

이번에 공개된 ‘바른’형태소 분석기는 문맥과 의미를 고려한 맞춤법 검사, 혐오 표현 검출 및 순화, 적절한 단어나 표현 추천 등 언론계 인공지능 서비스 확산에 기여할 것으로 기대된다. 데이터 저널리즘 분야에서는 R 라이브러리, 파이썬 패키지와 소스코드 등 공개를 통해 다양한 대안을 제시할 것이다.

‘바른’의 개발 과정과 활용을 위한 안내는 바른 공식홈페이지(https://bareun.ai)와 빅카인즈 깃허브(https://github.com/KPF-bigkinds)에 모두 공개돼 있다. R, 파이썬, 자바 등 다양한 언어로 제공되며, 활용을 원하는 언론사 및 연구자, 국민 모두 무료로 이용할 수 있다.

별첨. 바른 로고 및 이미지 1부. 끝.

이 게시물을..

[인사] 충청신문

고연희 기자

2023.02.28

[알림] 방송뉴스가 기록한 대전충남 이슈는…보도영상전서 '한눈에'

고연희 기자

2023.02.27

한국언론진흥재단, 뉴스 기반 형태소 분석기 ‘바른’ 공개

고연희 기자

2023.02.24

[알림] 충청지방통계청-대전세종연구원, 정책연구·통계 발전 협약 체결

고연희 기자

2023.02.22

[부음] 유민봉 전 국회의원 모친상

고연희 기자

2023.02.20

한국언론진흥재단-서울대학교 빅데이터 혁신공유대학 사업단 ‘데이터·리터러시·저널리즘 콘퍼런스’개최

고연희 기자

2023.02.17

[알림] 지상현 디트뉴스24 사회체육부 부국장부친상

고연희 기자

2023.02.13

[알림] 한국언론진흥재단 2023년 단체지원(1차) 사업 공모

고연희 기자

2023.02.09

[알림] 동양일보 3대 사장에 조석준 이사 선임

고연희 기자

2023.02.07

[인사] 디트뉴스24

고연희 기자

2023.02.03

첫페이지 5 6 7 8 9 10 11 12 13 14 끝페이지

	주소: (우)302-831 대전광역시 서구 둔산로 133, 915호(둔산 현대아이텔) \| 청소년보호책임자: 고연희 전화: 042)471-0777 \| 팩스: 042)367-3322 \| 사업자번호: 314-82-07534
	Copyright(C) Daejeon Journal Culture Institute ALL RIGHTS RESERVED.