[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成

大數學堂
June 3, 2024, 9:30 p.m.

自從看了GPT-4o的一個發表會以後，大家是不是對多模態模型都感到非常興奮呢?🤩

雖然我們現在可以在ChatGPT Plus使用到GPT-4o，但它並沒有展示會中所展示的語音輸入和輸出功能。😞

幸好的是，最近Google的Gemini也推出了多模態模型，而且也可以接受語音輸入。🎉

我就想，不如把這個技術結合語音合成，打造一個即時口語翻譯系統，而且更進一步，用自己的聲音翻譯!🗣️

本影片將手把手教您如何使用Google的Gemini和ElevenLabs服務，讓AI自動翻譯您講的內容，並用你自己的聲音說出翻譯後的內容，大大降低溝通門檻。💪

步驟如下:

一、使用Gemini進行語音翻譯🎤
1. 前往aistudio.google.com，註冊帳號並取得Gemini的API Key。
2. 使用Python的sounddevice錄製你要翻譯的語音，並存為wav檔。
3. 將API Key填入Gemini範例程式碼中，上傳錄音檔進行語音辨識和翻譯。
4. 從API回傳的結果中取得翻譯後的文字內容。

二、使用ElevenLabs的文字轉語音服務🎧
1. 前往ElevenLabs網站註冊帳號，取得API Key。
2. 上傳一段你的錄音，讓ElevenLabs的AI學習你的聲音特徵。
3. 將Gemini翻譯後的文字傳給ElevenLabs的API，以您的聲音合成這段文字內容。

三、整合翻譯和語音合成🎙️
1. 使用Python將錄音、翻譯、合成的流程串起來。
2. 現在，您只需對著麥克風說話，程式就會自動完成錄音、翻譯和合成的工作!

多模態AI為溝通帶來了無限可能。有了語音翻譯和合成技術，未來語言不再是障礙，趕快動手嘗試吧!🌎

記得訂閱我的頻道，並開啟小鈴鐺接收最新影片通知。如果你有任何問題或建議，歡迎在留言區與我互動交流!

另外，你是否經常需要製作字幕或進行逐字稿的工作呢？如果您覺得每次重複聆聽並逐字打字過於繁瑣，不妨試試我們最新研發的人工智慧工具 - AIMochi，只要透過Line，就可以免費將語音檔轉換成文字了喔！

就像本教學影片的字幕檔也是透過AIMochi 輕鬆完成的歐!

請立即開啟Line並加AIMochi好友，就能立刻體驗這項便利的服務喔。
https://line.me/R/ti/p/@aimochi

影片：
https://www.largitdata.com/course/243/

程式碼：
https://colab.research.google.com/github/ywchiu/largitdata/blob/master/code/Course_243.ipynb

給資料科學家的Python基礎課：
https://www.youtube.com/watch?v=uzInb5gbl4M&t=0s

大數學堂 - 學習資料科學的第一站：
https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw

AIMochi
https://www.aimochi.ai/