대화형 AI 기술이 계속 발전하고 있지만, LLM과의 실시간 음성 및 영상 커뮤니케이션을 구현하는 데에는 여전히 몇 가지 주요 장애물이 있습니다. 이전 블로그에서 라스트 마일의 까다로운 조건을 극복하는 것이 중요하다는 점을 강조한 바 있습니다. 대기 시간(지연)은 애플리케이션에서 음성 기반 대화형 AI를 구현할 때 극복해야 하는 또 다른 과제입니다.
이 블로그에서는 음성 기반 대화형 AI 애플리케이션에서 지연 시간(지연)이 미치는 영향에 대해 집중적으로 살펴봅니다:
- 인간 간의 자연스럽고 유창한 대화를 위해 일반적으로 허용되는 지연 시간을 지정하는 연구 및 업계 표준이 있습니다.
- 사람이 인터넷을 통해 음성을 사용하여 LLM(대규모 언어 모델)과 상호작용할 때 지연 시간을 늘리는 데 기여하는 구성 요소입니다.
- 지연 시간을 최소화하여 최상의 인간과 기계 간의 대화 경험을 제공하는 방법.
자연스러운 인간 대화의 지연 시간
OpenAI GPT-4o 발표 페이지에서는 GPT-4o가 “232밀리초(ms)의 짧은 시간 내에 오디오 입력에 응답할 수 있으며, 평균 응답 시간은 320ms로 대화에서 사람의 응답 시간과 비슷하다”고 강조하고 있습니다. 참고한 연구의 제목은 “대화에서 차례를 정하는 데 있어 보편성과 문화적 다양성”입니다. 이 연구는 10개의 대표적인 언어를 대상으로 진행되었으며, 차례 전환의 평균 응답 오프셋은 약 208ms로 나타났습니다. 분석된 대화는 같은 장소에 있는 참가자들의 상호작용을 비디오로 촬영한 것입니다. 대면 대화의 경우 입과 귀 사이의 지연(한 사람이 말하고 다른 사람이 듣는 시간)은 매우 낮습니다. 스피커가 약 2m 떨어져 있는 경우 약 6ms입니다. 아래 그림 1을 예로 들어 설명합니다.

'대화형 AI'를 지원하는 것이 목적인 애플리케이션의 경우 자연스러운 대화를 모방하는 것이 중요합니다. 자연스러운 대화를 에뮬레이트하려면 입에서 귀로 전달되는 지연 시간과 대화를 받아들이는 지연 시간을 모두 고려하는 것이 중요합니다. 또한 오늘날 대화형 AI 애플리케이션은 클라우드의 디바이스와 인프라를 활용하는 사용자 간의 상호 작용이 필요하므로 최상의 경험을 위해서는 지연 시간을 증가시키는 모든 요소를 이해하고 최소화해야 합니다.
RTC 애플리케이션을 통한 인간 대화의 지연 시간
서로 다른 장소에 있는 두 사람이 모바일 디바이스의 애플리케이션을 사용하여 음성 통화로 서로 소통하는 경우(아래 그림 2 참조)를 살펴봅시다.

모바일 전화기 1의 사용자가 전화기 마이크를 입에 직접 대고 있고, 모바일 전화기 2의 사용자가 전화기 스피커를 귀에 직접 대고 있다면, 이 경우의 입에서 귀로의 지연 시간은 위에서 표시된 모든 상자에서 개별적으로 측정된 지연 시간의 합이 됩니다. 두 모바일 기기의 지연 시간 기여도는 표 1에 표시되어 있습니다. 비교를 위해, Agora가 기기 및 운영 체제 최적화를 통해 달성한 일반적인 지연 시간과 감소된 지연 시간도 함께 표시합니다.
*기본적으로 Java ADM는 다양한 기기와의 호환성이 넓기 때문에 일반적으로 사용되지만, 재생 지연 시간이 종종 매우 높습니다.
네트워크 스택 및 전송 지연은 음성 패킷이 네트워크의 가장자리에서 가장자리까지 이동하는 데 소요되는 총 시간을 의미하며, 사용자가 동일한 도시, 다른 도시, 주, 또는 국가에 위치해 있는지 여부에 따라 크게 달라질 수 있습니다. 우리 테스트에서는 공용 인터넷을 통해 전송된 단방향 지연 시간과 아고라의 독점적 소프트웨어 기 실시간 네트워크(SD-RTN™)를 통해 전송된 단방향 지연 시간을 비교했습니다. 이 단방향 지연 시간은 엣지 네트워크에서 엣지 네트워크까지 측정되며, 각 끝점의 마지막 마일 호프는 포함되지 않습니다. 우리는 대륙 내(인트라-지역) 및 대륙 간(인터-지역) 데이터를 비교했습니다. 결과는 아래 그림 3에 표시되어 있습니다.

간단히 말해, 동일한 지역 내 또는 지역 간에 위치한 사용자의 95%가 지연 시간에서 50% 이상의 개선(감소)을 경험합니다.
두 모바일 사용자 모두 북미 지역에 위치해 있다고 가정해 보겠습니다. 이 경우 공용 인터넷을 사용하는 사용자의 95%는 지연 시간이 약 94ms 이하이며, Agora의 SD-RTN™을 사용할 경우 약 33ms의 지연 시간을 경험합니다. 모바일 마지막 마일 홉의 최상의 지연 시간은 공개 인터넷상의 서버와 모바일 기기 사이에서 약 10ms, 아고라의 SDK를 사용한 아고라의 SD-RTN™과 모바일 기기 사이에서 약 10ms입니다. 이 10ms 값은 모바일 기기 사용자와 동일한 도시 내에 마지막 홉이 위치하며 마지막 마일 연결이 우수하다는 가정 하에 계산되었습니다. 이러한 값을 사용하면 총 입에서 귀까지 지연 시간을 표 2에 표시된 대로 추정할 수 있습니다.
이제 이러한 추정치를 확보한 상황에서, 입에서 귀로 전달되는 지연 시간이 사용자에게 수용 가능한 수준인지 어떻게 판단할 수 있을까요? 다행히 국제전기통신연합(ITU)은 이 질문에 답변하는 G.114라는 표준을 발표했습니다.
아래 그림은 ITU G.114 표준에서 추출한 것으로, 통신 산업의 음성 지연 시간과 사용자 만족도 품질 간의 관계를 보여줍니다.

그림 4를 참조하면, 입에서 귀까지의 지연 시간이 275ms까지인 경우 사용자들은 만족합니다. 275ms에서 385ms 사이에서는 일부 사용자들이 불만을 표시합니다. 이 범위를 초과하면 경험이 매우 나쁩니다.
표 3을 참조하면, 아고라 지원하는 지연 시간 최적화를 포함한 네트워크 최적화, 장치 및 운영 체제 수준 최적화는 전체 지연 시간을 크게 줄이고 G.114 사용자 만족도 평가 점수를 높이는 결과를 가져옵니다.
인간과 AI 간의 대화에서의 지연 시
이 배경과 맥락을 바탕으로, 이제 그림 5에 표시된 것처럼 AI 에이전트가 네트워크의 가장자리(edge)에 위치한 음성 기반 대화형 AI의 예를 살펴보겠습니다. 단순화를 위해 AI 워크플로우와 추론이 네트워크의 가장자리에서 이루어진다고 가정합니다. 이 예시에서는 LLM이 직접적인 음성 인터페이스(Audio LLM)를 지원한다고 가정하며, 이는 음성-텍스트 변환이 필요하지 않음을 의미합니다. TTS TTFB는 Time-To-First-Byte를 의미하며, LLM이 텍스트-음성 변환 응답을 생성하기 위해 요청이 전송된 시점부터 응답의 첫 번째 바이트가 생성될 때까지의 시간을 나타냅니다.

이 예를 통해, 모바일폰에서 대화형 AI 앱을 사용하는 인간 사용자와 오디오 LLM 기반 AI 간의 입에서 귀로 전달되는 지연 시간, 오디오 LLM 기반 AI의 대화 순서 전환 지연 시간, 그리고 오디오 LLM 기반 AI에서 모바일폰에서 대화형 AI 앱을 사용하는 인간 사용자로의 입에서 귀로 전달되는 지연 시간을 추정해 보겠습니다. 이 예시에서는 인간 사용자가 안드로이드 폰을 사용하고 있다고 가정합니다.
이 예시에서, 오디오 LLM 기반 AI에서 안드로이드폰 사용자에게 전달되는 입에서 귀까지의 지연 시간은 ITU G.114에 따라 ‘일부 사용자가 불만족스러움’ 임계값에 근접합니다. 이는 AI 워크플로우와 추론이 사용자에게 가장 가까운 네트워크 가장자리에서 수행된다고 가정할 때, 네트워크 스택 및 전송 지연이 최소화된 시나리오입니다. 인간이 다른 인간과 하나 이상의 대화형 AI 에이전트와 거리에서 상호작용하는 시나리오가 많이 발생할 것입니다. 그림 3을 참조하면, 네트워크 스택 및 전송 지연의 지연 기여도와 모바일 기기 지연 기여도가 결합되어 입에서 귀까지의 지연 시간이 사용자가 대화형 AI 경험에 불만을 느낄 수 있는 임계값을 초과할 수 있습니다.
지역 내 AI 에이전트와의 인간-AI 대화에서의 지연 시
마지막으로, AI 에이전트가 지역 내부에 위치해 있는 경우와 네트워크 가장자리에 위치해 있는 경우를 비교해 보겠습니다. 이 시나리오는 대화형 AI 솔루션이 확장됨에 따라 더욱 일반화될 것이며, 사용자는 세션 동안 하나 이상의 AI 에이전트와 상호작용할 수 있게 될 것입니다.
간편을 위해 사용자와 AI 에이전트가 모두 북미 지역에 위치해 있다고 가정합시다. 이 경우 공개 인터넷을 사용하는 사용자의 95%는 지연 시간이 약 94ms를 초과하지 않으며, 아고라의 SD-RTN™을 사용하면 약 33ms의 지연 시간을 갖게 됩니다.
이 예시에서, 오디오 LLM 기반 AI에서 안드로이드폰 사용자에게 전달되는 입에서 귀까지의 지연 시간은 ITU G.114에 따라 ‘일부 사용자가 불만족스러움’ 구역 내에 잘 포함되어 있습니다. 지역 간 경우, 경험은 쉽게 ‘많은 사용자가 불만족스러움’ 구역으로 진입할 수 있습니다.
결론적으로, 애플리케이션에 음성 기반 대화형 AI를 구현할 때 지연 시간을 최소화하는 것이 필수적입니다. 이 블로그에서 논의된 바와 같이, 자연스러운 대화를 모방하려면 대화의 입에서 귀까지 지연 시간과 대화 순서 전환 시의 지연 시간을 모두 고려해야 합니다. 입에서 귀까지 지연을 최소화하려면, 장치 수준과 네트워크 수준에서 지연을 최적화하는 검증된 솔루션을 제공하는 공급업체와 협력하는 것이 필수적입니다. 이를 통해 애플리케이션에서 만족스러운 대화형 AI 경험을 보장할 수 있습니다. 대화 중 대화 순서 전환 지연을 최소화하려면, 이 분야에서 실제 성능을 입증한 LLM 공급업체 및 솔루션 공급업체를 고려하세요. 아고라가 개발자가 대화형 AI를 구축하는 데 어떻게 도움을 주는지 자세히 알아보세요.