말뭉치가 만드는 편리한 디지털 언어생활
한글문화연대 대학생 기자단 11기 이연주
바야흐로 디지털 시대. 단어의 의미를 찾을 때도, 외국어를 한국어로 번역할 때도, 이제는 책이 아닌 컴퓨터를 활용한 다. 컴퓨터로 인터넷 사전을 활용해 단어의 의미를 찾고, 파파고, 구글 번역기와 같은 서비스를 활용해 번역한다. 심지 어 음성인식 기능이 있는 인공지능 스피커나 ‘챗봇’, ‘갤럭시’의 ‘빅스비’, ‘아이폰’의 ‘시리’ 같은 인공지능과 대화하기도 한다. 디지털 언어 서비스를 활용할 때 한 번쯤 머릿속에 떠오르는 질문이 있다. 이러한 서비스들은 어떻게 방대한 언 어 정보를 한 데 담을 수 있었을까? 오늘 소개할 ‘말뭉치’가 이 질문의 답이 될 수 있을 것이다.
말뭉치는 다양한 분야의 언어 자료를 모아 컴퓨터로 분석하고 처리할 수 있도록 입력한 자료를 가리키는 말이다. 방대 한 언어 자료를 컴퓨터가 이해할 수 있도록 모아 놓은 자료의 집합인 ‘말뭉치’는 인공지능의 언어 능력을 강화하기 위 한 빅데이터 형태의 언어 자료로서 그 중요성이 더욱 커졌다. 문장을 읽고 말을 들으며, 의미를 해석하거나 감정을 알아 채는 능력을 갖춰야 하는 언어 기반 인공지능은 주로 서비스 분야에서 활용되고 있다. 이를 위해서는 다량의 언어 데이 터를 학습해야 하는데, 인공지능의 학습을 위해 제공하는 언어 데이터가 바로 ‘말뭉치’이다.
말뭉치의 중요성이 대두되며 국립국어원은 인공지능(AI) 기반 연구에 박차를 가했다. 국립국어원에 따르면, 최근 5년 간 한국에 체류한 외국인 수가 연평균 약 220만 명에 달한다. 이들 중 가장 많은 수의 국적은 중국, 베트남, 태국, 미국, 우즈베키스탄, 필리핀, 일본 순이었다. 국내 외국인의 수가 증가하고 국적도 다양해짐에 따라 언어 다양성의 필요성이 증가한 것이다. 특히 영어, 중국어, 일본어는 자료가 상대적으로 풍부하지만, 베트남어, 태국어, 우즈베크어 등은 자료를 구하기 어려운 상황이다. 이러한 문제를 해결하기 위해 국립국어원은 2021년부터 베트남어, 인도네시아어, 태국어, 인 도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어, 러시아어, 우즈베크어 등 8개 언어를 대상으로 한국어-외국어 병렬 말뭉치 사업을 추진 중이다. 이 사업의 목표는 약 3,000만 어절의 병렬 말뭉치를 구축하는 것이다. 병렬 말뭉치는 2개 국어 이상의 언어를 1대1로 번역한 언어 자료를 모은 말뭉치로, 언어 간의 대조 분석, 번역 연구에 주로 활용된다.
국립국어원은 2023년부터 한국어-한국수어 병렬 말뭉치를 구축하고 있다. 이는 수어 활용을 위한 인공지능 기술 및 응용 서비스 개발의 재료인 수어 영상 학습데이터를 구축하는 것을 목적으로 하였다. 국립국어원은 한국어-한국수어 병 렬 말뭉치를 통해 수어가 청각장애인 사회의 주요 언어로 인식될 것으로 기대하고 있다. 이에 더해 다양한 언어 및 소 통 방식을 인정하는 사회적 포용성 강조에 도움이 될 것이며, 수어를 통한 소통이 강화되어 청각장애인이 경험하는 사 회적 및 직장 내 차별을 줄이고 공공기관이나 기업의 포괄적 정책과 서비스 제공을 끌어낼 수 있을 전망이다.
국립국어원은 한국어-외국어 말뭉치 구축과 한국수어 말뭉치 구축에 더해 묵자-점자 병렬말뭉치, 일상 대화 말뭉치 구 축에 노력을 기울이고 있다.
국립국어원의 말뭉치 구축 사업의 대표적 노력으로 ‘모두의 말뭉치’ 서비스를 설명할 수 있다. 국립국어원의 말뭉치 구 축 사업은 우리나라가 인공지능의 한국어 처리 기술을 혁신하여 선도할 수 있도록 한국어 말뭉치 상시 공급, 활용 체계 구축을 목표로 추진되었으며, 2018년 기초 연구를 시작으로 2019년부터 말뭉치를 체계적으로 구축하고 있다. 해당 연 구의 결과물은 ‘모두의 말뭉치’를 통해 공개되고 있으며, 국립국어원 홈페이지를 통해 누구나 말뭉치에 관한 원하는 자 료를 내려받을 수 있다.
인공지능과의 대화, 디지털 번역기를 활용한 손쉬운 번역. 과거에는 상상하기 힘들었던 디지털 기반의 편리한 언어생 활은 어느새 우리 생활의 일부분이 되어 당연한 것이 되었다. 언어 연구자들과 기관들은 현 상태에 안주하지 않고 미래 의 더 편리한 언어생활 구축을 위해 방대한 언어의 세계를 말뭉치로 한데 모으는 작업에 몰두하고 있다. 이들의 노력이 언젠가 빛을 발해 모두가 누리게 될 미래의 혁신적인 언어생활을 기대해 본다.
'사랑방 > 대학생기자단' 카테고리의 다른 글
[11기] ‘소녀가되’ 반복해서 사용하면 바보가 돼! - 하수정 기자 (0) | 2024.06.04 |
---|---|
[11기] 우리말은 세계여행 중! - 기다인 기자 (0) | 2024.05.30 |
[11기] "네 것이 맞다.", 원래는 틀린 표현이었던 이 문장? - 박서현 기자 (0) | 2024.05.30 |
[11기] 한글의 가치를 위해 힘쓰는 곳이 있다고? <한글문화연대 이모저모> - 김지윤 기자 (0) | 2024.05.30 |
[11기] '표준어지향성'이 뭐당가? - 문진영 기자 (0) | 2024.05.30 |
댓글