본문 바로가기
IT

음성 AI가 드디어 "쓸 만해졌다"는 말을 들었을 때

by 안드뽀개기 2026. 5. 8.
반응형

목소리로 소프트웨어를 쓴다는 게 뭔지 몰랐던 시절

솔직히 말하면 나는 한동안 음성 인터페이스를 장난감 취급했다. 몇 년 전 음성 비서들이 우후죽순 나왔을 때 써봤는데, 전부 비슷한 결론이었다. 내가 말한 걸 텍스트로 바꿔주는 건 됐다. 그런데 거기서 끝이었다. "맥락을 이해하고 다음 행동을 취한다"는 건 마케팅 문구였지 현실이 아니었다.

그래서 나는 주로 텍스트 기반 워크플로우만 썼다. 타이핑이 번거롭더라도, 그게 더 예측 가능하고 통제 가능했으니까. 그런데 최근 OpenAI가 API에 공개한 세 가지 새 음성 모델을 직접 붙여보면서 생각이 바뀌기 시작했다.


이번에 뭐가 달라졌나

이번에 공개된 모델은 세 가지다.

첫 번째는 GPT-Realtime-2다. GPT-5 수준의 추론 능력을 음성 인터페이스에 얹었다. 단순히 말을 알아듣는 게 아니라, 복잡한 요청을 처리하고 대화 맥락을 이어가는 게 가능하다.

두 번째는 GPT-Realtime-Translate다. 70개 이상의 언어로 입력받아 13개 출력 언어로 실시간 통역한다. 발화자의 속도에 맞춰서, 대화가 끝난 뒤가 아니라 말하는 도중에 번역이 따라온다.

세 번째는 GPT-Realtime-Whisper다. 스트리밍 방식의 음성-텍스트 변환이다. 발화가 끝날 때까지 기다리지 않고, 말하면서 실시간으로 텍스트가 생성된다.


실제로 어떻게 쓰는가

내가 먼저 붙여본 건 GPT-Realtime-2였다. API 연동 방식은 기존 Realtime API 구조와 같다. WebSocket 세션을 열고, 오디오 스트림을 흘려보내는 구조다.

# 간단한 Realtime 세션 초기화 예시
import openai

client = openai.OpenAI()

session = client.beta.realtime.sessions.create(
    model="gpt-realtime-2",
    voice="alloy"
)

실제로 테스트해본 시나리오는 고객 응대 보조였다. 상담 중 고객이 "지난달 결제 내역 중에 취소된 건 있어요?"라고 말하면, 모델이 맥락을 유지하면서 도구 호출까지 이어가도록 설계했다. 이전 모델과 달리 "지난달"이라는 상대적 시간 표현이나 "취소된 건"이라는 조건 필터링을 자연스럽게 처리했다. 대화가 두세 턴 이어져도 맥락이 무너지지 않았다.

GPT-Realtime-Translate는 다국어 지원이 필요한 라이브 서비스에서 가장 빛났다. 입력 언어를 자동 감지하고 지정 언어로 실시간 출력하는 구조라서, 별도의 언어 감지 전처리 없이 파이프라인을 단순하게 유지할 수 있었다.


왜 이게 이전과 다른가, 원리를 짚어두자

기존 음성 파이프라인의 전형적인 구조는 이랬다. STT로 텍스트를 뽑고, LLM에 넣어서 응답을 생성하고, TTS로 다시 음성을 만든다. 레이턴시가 구간마다 쌓이고, 중간에 텍스트로 변환되면서 발화 뉘앙스가 날아갔다.

이번 모델은 오디오를 오디오 수준에서 직접 처리한다. 텍스트 변환 없이 음성 자체의 속도, 강세, 멈춤 패턴을 맥락으로 활용한다. 이게 체감 차이를 만드는 핵심이다.

추론 능력이 음성 레이어에 내장됐다는 것도 중요하다. 도구 호출을 포함한 멀티턴 추론이 가능해졌다는 건, 음성 인터페이스가 단순 질답을 넘어서 실제 워크플로우의 앞단을 담당할 수 있다는 뜻이다.


함정과 한계, 솔직히 말하면

레이턴시는 여전히 변수다. 스트리밍 구조라 체감은 빠르지만, 네트워크 상태나 세션 부하에 따라 응답 시작 시간이 달라진다. 실시간성이 핵심인 서비스라면 반드시 레이턴시 허용 범위를 미리 측정하고 들어가야 한다.

GPT-Realtime-Translate의 출력 언어는 현재 13개다. 입력은 70개 이상 지원하지만, 나오는 언어가 제한적이다. 한국어가 출력 언어에 포함되는지 지금 시점에서 확인이 필요하고, 포함되지 않는다면 번역 후처리 단계를 따로 두어야 한다.

가장 자주 보이는 실수는 오류 처리를 소홀히 하는 것이다. WebSocket 세션은 끊길 수 있고, 오디오 품질이 낮으면 모델 성능이 떨어진다. 백그라운드 소음이 심한 환경이나 비표준 발음에 대한 폴백 처리를 처음부터 설계에 포함시켜야 한다.

비용 구조도 텍스트 API와 다르다. 오디오 토큰 단위로 과금되며, 긴 세션이나 높은 동시 사용자 수에서 예상 이상의 비용이 나올 수 있다. 프로덕션 전에 반드시 트래픽 시뮬레이션을 돌려봐야 한다.


오늘 바로 해볼 것

OpenAI 공식 페이지에 GPT-Realtime-2 데모가 올라와 있다. API 키 없이 브라우저에서 바로 쓸 수 있다. 지금 하던 업무 중 반복적으로 말로 처리하고 싶은 요청 하나를 골라서, 데모에 직접 말해봐라. 텍스트로 입력했을 때와 음성으로 말했을 때 응답 품질이 어떻게 다른지 직접 비교해보는 게 첫 번째 단계다.


※ 본 글은 정보 제공 목적이며 특정 제품·서비스의 추천이 아닙니다.

반응형