記者彭夢竺／編譯

OpenAI正式推出3款全新即時語音模型，為開發者「解鎖新一代語音應用程式」，這系列模型各具特色，分別針對邏輯推理、語言翻譯及即時逐字稿功能進行優化，大幅提升AI與人類對話的自然度與實用性。

GPT-5等級 GPT-Realtime-2對話更像真人

在這次發表中，最受矚目的莫過於具備GPT-5等級推理能力的「GPT-Realtime-2」，這是OpenAI首款專為現場語音互動設計的推理模型，包含以下3大特色。

翻譯與逐字稿進化支援70種語言即時轉換

除了強大的推理模型，OpenAI同步推出了2款專精於特定任務的模型。

GPT-Realtime-Translate專為現場翻譯設計，支援超過70種輸入語言並可轉譯為13種輸出語言，且能精準跟上講者的語速。

GPT-Realtime-Whisper是一款低延遲的串流語音轉文字模型，高響應速度適用於即時字幕生成或會議記錄，讓使用者在對話當下即可看到精準的文字輸出。

這3款模型現已整合至OpenAI的Realtime API中，並採行不同的計費標準。

目前開發者已可透過OpenAI的Playground測試這些模型，若有安裝Codex的使用者更可直接將GPT-Realtime-2整合至現有的應用程式中。隨著語音技術從單純的指令接收轉向深度推理與跨語言即時溝通，未來的語音助理、客服系統與遠端翻譯工具預計將展現出前所未有的強大效能。

資料來源：9to5mac

—

本篇文章授權來源：科技島