
ASR
Whisper
Whisper 프로덕션 운영: 실시간 이중 언어 전환의 실패와 성공, 그리고 실동 아키텍처
VoicePing이 커스터마이징한 Whisper V2 모델을 활용하여 단일 WebSocket 스트림 내에서 자동·저지연 언어 전환을 구현한 바이링구얼 모드의 설계 과정을 소개합니다.
Akira Noda - VoicePing
8 min
VoicePing의 인사이트와 팁을 전해드립니다

VoicePing이 커스터마이징한 Whisper V2 모델을 활용하여 단일 WebSocket 스트림 내에서 자동·저지연 언어 전환을 구현한 바이링구얼 모드의 설계 과정을 소개합니다.

스타트업과 대기업의 n 대 n 연계를 촉진하는 글로벌 액셀러레이터인 Plug and Play Japan은 매년 약 2,200명 규모의 'Plug and Play Japan Summit'을 개최하고 있습니다. 해외 연사와 참가자가 많고 전문 용어가 빈번하게 사용되는 이 이벤트에서 언어의 장벽은 큰 과제였습니다. 이를 해결하기 위해 실시간 번역 도구인 'VoicePing'이 도입되었습니다.

NeMo MSDD와 Pyannote 3.1을 6개의 실제 운영 시나리오에서 비교 평가한 기술 보고서입니다.

글로벌 스타트업 지원 사업에서 VoicePing을 활용하고 있는 고베시 경제관광국 신산업창조과의 활용 사례를 소개합니다.

Python WebSocket 프록시를 Go로 재작성하여 락 프리 커넥션 풀링과 이벤트 기반 리컨실리에이션을 구현한 기술 보고서입니다.

AsyncLLMEngine과 적절한 Continuous Batching 설정으로 vLLM 추론 처리량을 82% 향상시킨 방법