OpenAI 宣布 ChatGPT 即將“...

包括語音識別和文本轉語音功能在內的新功能將在接下來的兩周內推出。

根據 OpenAI 9 月 25 日的公告，ChatGPT 很快將提供新功能，允許用戶通過圖像和語音識別與其互動。

OpenAI 宣布用戶將能夠使用語音命令與 ChatGPT 進行交互，從而實現更加個性化的用戶體驗。該公司表示，該功能由文本轉語音模型提供支持，該模型可以根據專業配音演員創建的最小樣本語音生成音頻。該公司表示，該功能還由其开源語音識別系統 Whisper 提供支持。

語音功能預計將提供更廣泛的用例，例如協助閱讀睡前故事、創建食譜、撰寫演講、背誦詩歌、解釋常用短語，甚至解決“餐桌辯論”等任務。

OpenAI 補充說，用戶很快將能夠向 ChatGPT 提供圖像（或選擇圖像的某些部分）以進行解釋和響應。

OpenAI 承認風險

OpenAI 承認存在欺詐和假冒風險，並表示，相應地，它正在限制其語音聊天平台的語音功能。它強調它使用專業配音演員——而不是用戶的聲音——來輸出音頻。OpenAI 補充說，某些其他團體被允許將語音功能用於其他目的；例如，Spotify 正在將參與的播客翻譯成新語言，並使用每位主持人的原始聲音。

該公司指出，圖像識別存在隱私風險，並表示，作爲回應，它限制了 ChatGPT 發表有關人物的聲明的能力。它指出 ChatGPT“並不總是准確”，但表示對圖像的一般描述可能很有用，並引用了其早期與 Be My Eyes 的合作，Be My Eyes 是一款針對盲人和弱視人士的應用程序。

OpenAI 表示，將在未來兩周內向 ChatGPT Plus 和 Enterprise 引入語音和圖像功能。該公司表示，語音功能將在 iOS 和 Android 上提供（可選擇加入），圖像功能將在所有平台上提供。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

OpenAI 宣布 ChatGPT 即將“看、聽、說”