본문 바로가기

광고

광고닫기

광고

본문

광고

사회 미디어

‘뉴스기사’로 학습한 인공지능은 뭐가 다를까?

등록 2022-02-23 13:29수정 2022-02-23 13:38

언론재단, 빅카인즈 데이터 배운 ‘KPF-BERT’ 공개
혐오표현 수정, 광고성기사 검출모델 개발 등 기대
언론사와 연구자, 일반시민까지 무료 활용 가능
게티이미지뱅크
게티이미지뱅크

언론사의 뉴스 기사를 학습한 인공지능 언어모델은 뭐가 다를까?

한국언론진흥재단은 23일 구글의 인공지능 언어모델 버트(BERT)를 빅카인즈 기사 데이터를 활용해 학습시킨 ‘KPF-BERT’(이하 언론재단 버트)를 공개했다. 인공지능과 자연어 처리 분야에서 획기적 기술 개선을 이뤄낸 구글의 버트가 2018년 출현한 이래 이를 활용한 한국어 모델들이 등장했지만, 뉴스 기사를 활용한 건 처음이다.

‘언론재단 버트’는 재단이 보유한 2000년부터 2021년 8월까지 빅카인즈 기사 4000만건을 학습에 활용했다. 더 이전 데이터가 빠진 이유에 대해 오세욱 책임연구위원은 “과거 기사들을 학습할 경우 ‘편향성’이 나타날 수 있어 기점을 2000년으로 잡았다”고 설명했다. 또 400자 이하 기사나 반복 전송 기사들은 학습에 별 영향을 미치지 않는 것으로 나타났기에, 2000년 이후 기사 중에서도 전체 8158만건 가운데 1차 정제를 거친 4000만건을 학습하도록 했다고 한다.

재단은 기존에 위키백과, 웹문서 등을 주로 학습한 버트 한국어 모델들과 이번 모델의 성능 비교 결과를 공개했다. 기계 독해 등에서 성능이 더 향상된 것으로 나타났는데, 이는 방대한 한글 기사 자체가 표준 한글에 가까운 데이터인데다 학습에 좀 더 최신 기술이 사용됐기 때문으로 보고 있다.

그동안 인공지능을 활용한 뉴스 추천 배열, 자동 작성, 요약, 댓글 관리, 오탈자 및 비문 교정, 비슷한 주제 기사 묶기, 외신 자동 번역 등 언론 영역에서도 인공지능 기술의 도입 및 적용 필요성이 제기됐지만, 개별 언론사의 자체 기술 개발이 쉽지 않은 상황이었다.

재단은 이 인공지능 모델을 활용해 문맥과 의미를 고려한 맞춤법 검사기, 입력 연속 문장에서 해당 시점에 가장 적절한 단어를 추천하는 단어 자동 완성 모델, 뉴스 댓글 등에서 혐오 표현을 검출하고 순화해 표현하는 모델, 관심 사안에 대한 기사의 긍정·부정 등 논조 파악 모델, 광고성 기사 검출 모델 등의 개발도 기대할 수 있다고 밝혔다.

재단은 언론재단 버트를 재단 깃허브(github.com/KPFBERT)에 공개해 원하는 언론사 및 연구자, 일반 시민들이 무상으로 이용할 수 있도록 했다. 이 인공지능 모델을 활용한 기사 요약 기술, 비슷한 주제의 기사를 한데 묶어주는 클러스터링 기술도 깃허브에 함께 공개했다.(관련 유튜브)

김영희 선임기자 dora@hani.co.kr
항상 시민과 함께하겠습니다. 한겨레 구독신청 하기
언론 자유를 위해, 국민의 알 권리를 위해
한겨레 저널리즘을 후원해주세요

광고

광고

광고

사회 많이 보는 기사

노인단체 시국선언 “윤석열 지킨다는 노인들, 더는 추태 부리지 마라” 1.

노인단체 시국선언 “윤석열 지킨다는 노인들, 더는 추태 부리지 마라”

방첩사, 이재명 체포조 5명 꾸려 가장 먼저 국회 출동시켰다 2.

방첩사, 이재명 체포조 5명 꾸려 가장 먼저 국회 출동시켰다

[단독] 계엄군, 실탄 최소 5만7천발 동원…저격총·섬광수류탄 무장 3.

[단독] 계엄군, 실탄 최소 5만7천발 동원…저격총·섬광수류탄 무장

‘윤 체포방해’ 경호처장 경찰 조사 불응…“한시도 자리 못 비워” 4.

‘윤 체포방해’ 경호처장 경찰 조사 불응…“한시도 자리 못 비워”

[단독] 윤석열, 최상목에 “국회 자금 완전 차단…임금도 끊어라” 쪽지 5.

[단독] 윤석열, 최상목에 “국회 자금 완전 차단…임금도 끊어라” 쪽지

한겨레와 친구하기

1/ 2/ 3


서비스 전체보기

전체
정치
사회
전국
경제
국제
문화
스포츠
미래과학
애니멀피플
기후변화&
휴심정
오피니언
만화 | ESC | 한겨레S | 연재 | 이슈 | 함께하는교육 | HERI 이슈 | 서울&
포토
한겨레TV
뉴스서비스
매거진

맨위로
뉴스레터, 올해 가장 잘한 일 구독신청