안녕하세요, 나는 크로스 랭귀지라는 회사에서 룰 베이스 기계 번역이나 신경망 기계번역 시스템의 기계 번역 엔진을 개발하고 있는 냐마라고 합니다.기계 번역을 개발하는 엔지니어로서, 최근 AI의 진화에 따라 주목도가 높은 기계 번역에 대해서, 그 구조를 소개합니다.

 

처음에

 AI(인공지능)는, 딥 러닝(Deep Learning:심층 학습)의 등장에 의해 제3차 붐에 들어갔다고 해, 이미지 인식, 음성인식이나 기계 번역도 포함하는 자연어 처리 등 다양한 분야에서 AI가 대활약하게 되었습니다.2016년 9월, Google가, 딥 러닝을 사용한 신경망 기계번역 서비스를 발표해, 그 기계 번역의 번역 정밀도가 극적으로 향상한 것이 큰 화제가 되었습니다.

 Google 트렌드로부터도 “Google 번역”이라는 키워드가 검색되는 건수가 2016년 9월 이후 늘어나고 있는 것이 밝혀집니다.그리고, 이 타이밍부터 기계 번역의 분야에서는, 신경망 기계번역이 단번에 퍼지기 시작했습니다.

 원래 기계 번역의 역사는 오래되고, 1933년에 러시아인 기술자에 의해 기계 번역 특허가 출원되고 있습니다.그 이후, 기계 번역의 수법은, ① 룰 베이스 기계 번역(Rule Base Machine Translation, 통칭 RBMT), ② 통계적 기계 번역(Statistical Machine Translation, 통칭 SMT), ③ 신경망 기계번역(Neural Machine Translation, 통칭 NMT)과 단계를 밟고 진화해 왔습니다.

 

① 룰 베이스 기계 번역(RBMT)

 RBMT는 몇십 년 전부터 개발되고 있어, 기계 번역의 수법으로서는 가장 역사가 긴 것입니다.1954년에 조지타운 대학 등의 연구 그룹이 기계 번역 시스템을 발표한 것으로, 형태소 해석이나 담당 받아 해석 등의 RBMT에 필요한 기술의 연구가 시작되었습니다.RBMT의 수법을 한마디로 나타내면, 인간이 미리 만든 문법 룰과 사전 정보를 대조하면서 번역문을 생성한다는 것입니다.그 때문에 개발자에게 고도의 언어 지식이 요구되어, 번역 정밀도 향상을 위해서는 막대한 일손의 작업 시간이 걸리는 것이었습니다.

 

② 통계적 기계 번역(SMT)

 1990년대에 IBM가 다른 언어간의 단어를 통계적으로 대응시키는 “IBM 모델”이라는 수법을 제안해, 이것이 SMT의 시작되었습니다.SMT에서는 “코파스”라고 불리는 대량의 대역 데이터(원문 데이터와 그것을 인간이 번역한 번역문 데이터의 대데이터)를 학습 데이터로서 주어, 컴퓨터에 통계 모델을 학습시킵니다.그리고 그 통계 모델을 사용해 번역문을 생성시킵니다.1 단어 전후에 어떤 단어를 포함하여 번역하기 위해, 조합의 확률이 높은 것이 번역문으로서 생성됩니다.대량의 코파스를 준비하고 모델에게 학습시킬 필요가 있습니다만, 코파스와 학습 프로그램이 있으면 학습 자체는 컴퓨터가 실시하기 때문에 일손은 걸리지 않습니다.

 

③ 신경망 기계번역(NMT)

 신경망 기계번역(NMT)로는, 뉴럴 네트워크에 딥 러닝을 적용하고 있습니다.뉴럴 네트워크란 뇌 기능에 보여지는 몇 개의 특성을 모의한 수리적 모델로, 1957년 고안된 퍼셉트론이 그 시작입니다.딥 러닝 이전의 뉴럴 네트워크로는 구배 소실이나 국소 최적 해에 빠지는 등의 문제가 있어, 충분히 학습할 수 없었습니다.그러나, 계산기의 성능 향상과 Web 발달에 의한 학습 데이터 조달의 용이화에 의해 다층 뉴럴 네트워크(Deep Neural Network)의 연구가 활발히 행해지게 되었습니다.

 딥 러닝을 이용한 어플리케이션은, 1990년대에 음성인식의 분야에서 최초로 등장해, 기계 번역에서의 뉴럴 네트워크의 사용에 관한 최초의 학술 논문은 2014년에 발표되었습니다.SMT에서는 언어 모델, 번역 모델, 정렬 모델과 같은 복수의 모델이 존재합니다만, NMT에서는, 하나의 엔드 투 엔드(end-to-end) 모델만 학습됩니다.NMT에서는 문장 전체의 정보를 문맥으로서 취급할 수 있는 것으로, 어순이나 구조가 다른 언어 사이에서도 높은 번역 정밀도에 이르고 있습니다.또 인간이 번역한 문장을 토대로 학습하므로, 번역문의 특징도 학습해, 생성되는 번역문도 인간이 쓴 것에 가까운 자연스러운 문장이 됩니다.그러나, NMT의 번역 정밀도는 뉴럴 네트워크의 아키텍처(계산 모델)과 학습 데이터에 의존하기 위해, 학습 데이터의 양이나 질에 따라서는, 잘못된 번역 결과를 출력해 버리는 일이 있습니다.

 

각 수법의 비교

  RBMT SMT NMT
번역문의 특징 ・구어에의 대응이 어렵다
・번역문의 표현이 단단한, 부자연스러워지는 일이 있다
단어나 프레이즈 사이의 관계는 추출할 수 있지만, 장문이면 문장 전체의 구조를 잘 추출할 수 없는 일이 있다 ・자연스러운 문장이 된다
・뜻 누락이나 뜻 과다가 일어나는 일이 있다
미지어 대응 0
(사전 등록으로 대응할 수 있다)

(코파스 추가와 재학습이 필요)

(코파스 추가와 재학습이 필요)
뜻 누락이나 뜻 과다 0 0
코파스량 0
(대량에 필요)

(대량에 필요)
계산량 0
개발비 0 0
다언어에의 대응
(언어마다 개발이 필요)
0
(코파스가 있으면 학습만으로 전개할 수 있다)
0
(코파스가 있으면 학습만으로 전개할 수 있다)
번역 정밀도 0
번역 프로세스의 제어 0

 

 이렇게 각 수법에 각각 메리트와 단점이 있습니다.NMT는 유창으로 자연스러운 번역문을 생성합니다만, 원문 모두를 정확하게 번역하고 있지 않을 가능성이 있습니다.특히 고유 명사나 숫자 등 정확함이 구할 수 있는 것에 대해서는 주의가 필요합니다.예를 들면, 어떤 NMT 방식의 자동번역 시스템을 이용한 Web 사이트에서, 오사카 메트로 “사카이스지선”의 번역 결과가 “Sakai Muscle line”과 오역이 되어 버리고 있었던 것이 뉴스가 되었습니다.이 오역은, 학습 데이터에 “사카이”, “줄기”, “선” 각각의 단 한자의 데이터량이 “사카이스지선”보다 많았던 것이 원인으로 생각됩니다.인간이라도 처음으로 보는 한자를 읽는 것이 어려운 것과 똑같이 기계 학습이라도 학습한 적이 없는 단어나 문장에 대해서 올바르게 번역하는 것은 어렵다는 것입니다.

 이 오역을 수정하기 위해서, SMT, NMT에서는 새롭게 학습 데이터를 추가해, 번역 모델을 재학습할 필요가 있습니다.덧붙여서 RBMT에서는, 사전에 단어를 등록하는 만큼 해결할 수 있습니다.

 

기계 번역으로는 말의 의미를 이해하지 않습니다

 기계 번역의 학습은 단어간의 전후관계나 대역 관계를 학습하는 것으로, 단어의 의미까지는 학습하지 않습니다.예를 들면 인간은 “사과”라는 단어를 듣는 것만으로 실물의 사과를 상상해, 사과는 음식인 것이나 그 맛, 또 색이나 형태 등 사과의 다양한 특징이 떠오릅니다.인간은 오감으로 체험한 것이나 자신의 행동에 말을 맺어 짓고 학습합니다.한편 기계 학습으로는 “사과”라는 단어에 대해서 코파스에 나타나는 “맛있는 사과”나 “사과를 먹는다” 등의 문장으로부터 다른 단어나 프레이즈와의 관계나 “사과 → apple”라는 대역 관계밖에 학습하지 않습니다.인간의 번역자는 번역을 할 때, 문장의 의미를 이해하고 나서, 그것을 다른 언어로 표현합니다.그러나, 기계 번역으로는 전술과 같이, 다른 단어와의 관계나 대역 관계를 토대로 번역합니다.그 때문에, 현재의 기계 번역으로는, 인간과 완전히 같은 레벨의 번역 결과를 기대할 수 없습니다.

 

번역의 사용구분

 기계 번역은 RBMT, SMT, NMT 어느 쪽도 모든 문장을 100% 올바르게 번역할 수 있는 것은 아닙니다.그 때문에, 필요에 따라서 구분하여 사용할 필요가 있습니다.예를 들면, 문장이나 문장의 내용을 어느 정도 유창으로 의미가 통하도록 번역을 실시하고 싶은 경우는 NMT, 정확함이 중요한 고유 명사나 숫자 등이 들어 있는 문장으로는 RBMT를 사용해, 어느 쪽도 요구되는 경우는 인간의 번역자에게 의뢰하거나, 기계 번역의 결과를 번역자에게 체크해 준다는 사용구분·조합이 바람직합니다.또, 기계 번역을 사용하는 경우는, 원문을 간결로 애매한 표현이 없는 일본어(일본어로부터 외국어에 번역하는 경우)로 하면 오역이 적어지는 경향이 있는 것도 알고 있습니다.

 

당사의 대처

 당사에서는 RBMT과 NMT의 양쪽에 대해서 개발 및 연구를 실시하고 있습니다.최근에는, 신원호 “레이와”가 발표된 당일에, RBMT가 자랑으로 여기는 “룰 구조”에 의해, “레이와 0 0년”의 번역에 대응했습니다.당사가 운영하는 무료 번역 사이트 CROSS-Transer에서 꼭 시험해 주세요.

글쎄 북마크 - Google 번역은 왜 화제에?기계 번역은 만능?
LINE에서 보낸다
Pocket