AI M2 헤드폰: 여러 화자를 위한 즉각적인 번역

 

무선 이어버드는 항상 다음과 같은 기능을 제공했습니다. 픽셀 싹 Google 기능에서 즉시 번역 좋습니다. 지난 몇 년 동안 Timkettle과 같은 브랜드에서 비즈니스 고객을 위해 유사한 이어버드를 출시했습니다. 하지만 이러한 솔루션은 모두 번역 시 한 번에 하나의 오디오 스트림만 처리할 수 있습니다.

워싱턴 대학교(UW) 연구진은 여러 화자의 목소리를 동시에 통역할 수 있는 AI 기반 헤드폰이라는 놀라운 기술을 개발했습니다. 붐비는 술집에서 다국어를 구사하는 사람이 주변 사람들이 서로 다른 언어를 동시에 사용하는 것을 이해할 수 있다고 상상해 보세요. 이 혁신은 동시 통역 기술의 비약적인 발전을 의미합니다.

이 팀은 이 혁신을 "공간 음성 변환(Spatial Speech Translation)"이라고 부르며, 바이노럴 헤드폰을 사용하여 구현했습니다. 바이노럴 오디오 기술은 사람의 귀가 자연스럽게 듣는 음향 효과를 그대로 재현하는 기술입니다. 이를 녹음하기 위해, 더미의 머리에 마이크를 부착하고, 양쪽 귀 간격을 동일하게 유지합니다. 이 기술은 서로 다른 두 소스의 오디오를 녹음하여 3차원 청취 경험을 구현합니다.

이러한 접근 방식은 우리의 귀가 소리를 들을 뿐만 아니라 소리의 방향을 측정하는 데에도 도움이 되기 때문에 매우 중요합니다. 이 기술의 궁극적인 목표는 생생한 콘서트 현장과 같은 느낌을 제공하는 스테레오 효과와 함께 자연스러운 사운드 스테이지를 생성하는 것입니다. 현대적으로는 공간감 있는 청취라고 할 수 있습니다. 이 기술은 실감 나는 서라운드 사운드를 제공하여 사용자 경험을 향상시킵니다.

이 연구는 샤얌 골라코타 교수가 이끄는 팀의 공로로 이루어졌습니다. 이들의 연구 성과에는 스마트워치에 수중 GPS를 탑재하는 애플리케이션, 딱정벌레를 사진작가로 변신시키는 애플리케이션, 전자 기기와 상호작용하는 뇌 임플란트, 감염을 감지하는 모바일 앱, 그리고 플러스(Plus) 등이 있습니다. 이러한 성과는 골라코타 교수의 혁신 기술 전문성을 여실히 보여줍니다.

 

다중 언어 번역은 어떻게 진행되나요?

현재 연구소의 폴 G. 앨런 컴퓨터 과학 및 공학 대학원 교수인 골코타는 "처음으로 각 사람의 목소리와 그들이 말하는 방향을 그대로 담았습니다."라고 설명합니다.

Y2K에서 헤드폰을 쓴 남자가 소년과 소녀 사이에 서 있습니다.

연구팀은 자신들의 기술을 레이더에 비유합니다. 주변 지역의 화자 수를 파악하는 것으로 시작하여, 사람들이 청취 범위 안팎으로 이동할 때마다 실시간으로 이 숫자를 업데이트합니다. 이 방식은 전적으로 기기 기반이며, 번역을 위해 사용자의 오디오 스트림을 클라우드 서버로 전송하는 과정이 필요하지 않습니다. 아, 프라이버시 문제라니!

음성 번역 외에도 이 제품군은 "각 화자의 음성의 표현력과 음량"을 유지합니다. 더 나아가, 화자가 방 안을 움직일 때 음성의 방향과 강도가 조절됩니다. 흥미롭게도, 애플은 AirPods가 음성을 번역할 수 있는 시스템 실시간으로.

인공지능을 이용해 어떻게 즉각적인 번역을 구현할 수 있을까?

워싱턴 대학교(UW) 연구팀은 약 12곳의 실내외 환경에서 AI 기반 스마트 헤드폰의 번역 기능을 테스트했습니다. 성능 측면에서 이 시스템은 2~4초 이내에 번역된 오디오를 수신, 처리, 생성할 수 있습니다. 테스트 참가자들은 3~4초의 지연 시간을 선호하는 것으로 나타났지만, 연구팀은 번역 속도를 높이기 위해 노력하고 있습니다.

Sonos Ace 헤드폰을 착용한 필 니킨슨.

지금까지 이 팀은 스페인어, 독일어, 프랑스어 번역만 테스트했지만, 앞으로는 Plus 기능을 추가할 계획입니다. 기술적으로, 블라인드 소스 분리, 현지화, 실시간 표현 번역, 그리고 바이노럴 전달 기능을 단일 스트림으로 압축하여 구현한 것은 매우 인상적인 성과입니다. 이러한 첨단 기술의 통합은 동시 번역 분야의 비약적인 발전을 의미합니다.

이 시스템을 위해 연구팀은 Apple M2 칩에서 실행되고 실시간 추론을 수행할 수 있는 실시간 음성 번역 모델을 개발했습니다. 오디오 작업은 Sony WH-1000XM4 노이즈 캔슬링 헤드폰과 Sonic Presence SP15C 바이노럴 USB 마이크를 통해 처리되었습니다.

그리고 가장 중요한 부분은 바로 이것입니다. 재단의 보도자료에 따르면 "개념 증명을 위한 기계어 코드는 다른 사람들이 활용할 수 있습니다."라고 합니다. 이는 과학계와 오픈소스 소프트웨어 커뮤니티가 UW 팀이 구축한 기반을 바탕으로 더욱 발전된 프로젝트에서 배우고 발전시킬 수 있음을 의미합니다. 이는 인공지능을 활용한 번역 기술의 미래 발전으로 이어지는 문을 열어줍니다.

댓글이 닫혀있다.