카카오, 카카오미니 통해 '내 목소리' 알아듣는 서비스 선보인다

조은아 기자2018-04-25 15:56:55

김훈 카카오 음성처리 파트장 (사진제공=카카오)

[머니투데이방송 MTN 조은아 기자]

카카오가 인공지능(AI) 기술을 활용해 말하는 사람의 목소리를 인식하는 새로운 기능을 선보인다.

카카오는 25일 'AI 미디어 스터디'를 열고, 음성엔진 기술의 현황과 향후 계획을 공개했다.

카카오는 2010년 모바일 다음앱 '음성 검색'을 시작으로 꾸준히 음성기술을 발전시켜왔다. 음성인식·합성, 화자인식 등 음성 처리 기술 전 과정에서 자체 기술을 확보하고 있다. 카카오는 음성엔진 기술을 AI스피커 카카오미니를 비롯해 다음앱, 카카오앱, 카카오내비, 카카오T 멜론 등에 적용하고 있다.

카카오는 여기서 한발 더 나아가 올해 상반기 내 '화자인식' 기능을 카카오미니에 접목한다. 화자인식은 등록된 말하는 사람의 목소리를 구별하는 기술이다. 발화 시, 음성 신호에서 특징을 추출, 등록된 화자 정보와 비교해 누가 누군지를 구별하고 동일 인물인지를 인식한다. 화자 구별이 가능해지면 개인화된 맞춤형 서비스가 가능해진다. 음악, 뉴스, 상품 추천·결제, 보안 및 인식률 향상 등에 사용할 수 있다.

카카오는 이번 업데이트를 통해 카카오톡 메시지 읽어주는 기능을 우선 탑재할 방침이다. 카카오미니에 '보이스프로필'을 업데이트하면 말하는 사람의 목소리를 인식해 개인 카카오톡에 들어온 메시지를 읽어준다. 카카오는 장기적으로는 취향을 반영한 맞춤형 서비스를 비롯해 주문 및 결제 기능도 구현하겠다는 목표다.

김훈 카카오 음성처리 파트장은 "카카오미니를 깨우는 '헤이카카오'를 예닐곱 번 정도 녹음하면 화자인식이 가능해진다"며 "오류율은 2% 미만으로 현재는 기기당 한 계정만 쓸 수 있는 기능"이라고 설명했다.

카카오는 음성엔진에 적용된 언어 종류도 늘린다. 현재 한국어만 가능하지만 영어, 일어, 중국어 등으로 확장할 방침이다. 현재 영어인식은 개발이 완료된 상태로 인식 오류율은 10% 수준이다.

카카오미니의 목소리도 다양화한다. 올해 상반기부터 유명인과 연예인 목소리를 들을 수 있도록 준비 중이다. 현재 성우 목소리를 완전히 대체하는 수준은 아니다. 특정 목소리를 탑재하기 위해선 스크립트 읽는 시간만 50시간 정도 소요될 정도로 공이 들어가는만큼, 특정 상황이나 대화에서 유명인이나 연예인 목소리를 들을 수 있게 한다는 구상이다.

김훈 카카오 음성처리 파트장은 "동영상 속 음성을 자막으로 변환시키거나 동영상이나 오디오 콘텐츠에서 특정 정보의 위치를 바로 찾을 수 있는 기능도 개발 중"이라며 "음성엔진을 응용할 수 있는 새로운 분야를 고민하고 있다"고 말했다.

[머니투데이방송 MTN = 조은아 기자 (echo@mtn.co.kr)]

최신뉴스

카카오, 카카오미니 통해 '내 목소리' 알아듣는 서비스 선보인다

MTN 기자실

Pick 튜브

엔터코노미

많이본뉴스