[AI人工智慧] 多模態AI應用實戰:輕鬆用Gemini 與 ElevenLabs 實現即時語音翻譯與合成

  • 大數學堂
  • June 3, 2024, 9:30 p.m.

自從看了GPT-4o的一個發表會以後,大家是不是對多模態模型都感到非常興奮呢?🤩

雖然我們現在可以在ChatGPT Plus使用到GPT-4o,但它並沒有展示會中所展示的語音輸入和輸出功能。😞

幸好的是,最近Google的Gemini也推出了多模態模型,而且也可以接受語音輸入。🎉

我就想,不如把這個技術結合語音合成,打造一個即時口語翻譯系統,而且更進一步,用自己的聲音翻譯!🗣️

本影片將手把手教您如何使用Google的GeminiElevenLabs服務,讓AI自動翻譯您講的內容,並用你自己的聲音說出翻譯後的內容,大大降低溝通門檻。💪

步驟如下:

一、使用Gemini進行語音翻譯🎤
1. 前往aistudio.google.com,註冊帳號並取得Gemini的API Key。
2. 使用Python的sounddevice錄製你要翻譯的語音,並存為wav檔。
3. 將API Key填入Gemini範例程式碼中,上傳錄音檔進行語音辨識和翻譯。
4. 從API回傳的結果中取得翻譯後的文字內容。

二、使用ElevenLabs的文字轉語音服務🎧
1. 前往ElevenLabs網站註冊帳號,取得API Key。
2. 上傳一段你的錄音,讓ElevenLabs的AI學習你的聲音特徵。
3. 將Gemini翻譯後的文字傳給ElevenLabs的API,以您的聲音合成這段文字內容。

三、整合翻譯和語音合成🎙️
1. 使用Python將錄音、翻譯、合成的流程串起來。
2. 現在,您只需對著麥克風說話,程式就會自動完成錄音、翻譯和合成的工作!

多模態AI為溝通帶來了無限可能。有了語音翻譯和合成技術,未來語言不再是障礙,趕快動手嘗試吧!🌎

記得訂閱我的頻道,並開啟小鈴鐺接收最新影片通知。如果你有任何問題或建議,歡迎在留言區與我互動交流!

另外,你是否經常需要製作字幕或進行逐字稿的工作呢?如果您覺得每次重複聆聽並逐字打字過於繁瑣,不妨試試我們最新研發的人工智慧工具 - AIMochi,只要透過Line,就可以免費將語音檔轉換成文字了喔!

就像本教學影片的字幕檔也是透過AIMochi 輕鬆完成的歐!

請立即開啟Line並加AIMochi好友,就能立刻體驗這項便利的服務喔。
https://line.me/R/ti/p/@aimochi

影片:  
https://www.largitdata.com/course/243/

程式碼: 
https://colab.research.google.com/github/ywchiu/largitdata/blob/master/code/Course_243.ipynb

給資料科學家的Python基礎課:  
https://www.youtube.com/watch?v=uzInb5gbl4M&t=0s

大數學堂 - 學習資料科學的第一站: 
https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw

AIMochi
https://www.aimochi.ai/