記者彭夢竺/編譯
OpenAI正式推出3款全新即時語音模型,為開發者「解鎖新一代語音應用程式」,這系列模型各具特色,分別針對邏輯推理、語言翻譯及即時逐字稿功能進行優化,大幅提升AI與人類對話的自然度與實用性。

GPT-5等級 GPT-Realtime-2對話更像真人
在這次發表中,最受矚目的莫過於具備GPT-5等級推理能力的「GPT-Realtime-2」,這是OpenAI首款專為現場語音互動設計的推理模型,包含以下3大特色。
- 處理複雜請求:能一邊對話一邊針對困難問題進行邏輯推理。
- 自然流暢互動:支援即時修正或中斷對話,並能根據當下情境做出合適回應。
- 調用工具能力:在對話過程中能主動調用外部工具完成任務。
翻譯與逐字稿進化 支援70種語言即時轉換
除了強大的推理模型,OpenAI同步推出了2款專精於特定任務的模型。
GPT-Realtime-Translate專為現場翻譯設計,支援超過70種輸入語言並可轉譯為13種輸出語言,且能精準跟上講者的語速。
GPT-Realtime-Whisper是一款低延遲的串流語音轉文字模型,高響應速度適用於即時字幕生成或會議記錄,讓使用者在對話當下即可看到精準的文字輸出。
更多科技工作請上科技專區:https://techplus.1111.com.tw/
科技社群討論區:https://pei.com.tw/feed/c/tech-plus
計費方式公開!Realtime API全面整合
這3款模型現已整合至OpenAI的Realtime API中,並採行不同的計費標準。
- GPT-Realtime-2:每100萬音訊輸入Token收費32美元(快取輸入為0.40美元),輸出則為每100萬Token收費64美元。
- GPT-Realtime-Translate:採計時收費,每分鐘0.034美元。
- GPT-Realtime-Whisper:每分鐘收費0.017美元。
語音應用將迎來爆發式成長
目前開發者已可透過OpenAI的Playground測試這些模型,若有安裝Codex的使用者更可直接將GPT-Realtime-2整合至現有的應用程式中。隨著語音技術從單純的指令接收轉向深度推理與跨語言即時溝通,未來的語音助理、客服系統與遠端翻譯工具預計將展現出前所未有的強大效能。
資料來源:9to5mac
—
本篇文章授權來源:科技島