HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    谷歌語音生成器(谷歌語音生成器app)

    發(fā)布時間:2023-04-13 21:40:14     稿源: 創(chuàng)意嶺    閱讀: 90        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于谷歌語音生成器的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    谷歌語音生成器(谷歌語音生成器app)

    一、谷歌服務(wù)框架具體包括哪些谷歌軟件?

    谷歌服務(wù)框架軟件具體包括:

    GoogleSearch(谷歌搜索)

    GoogleDocs(谷歌文檔)

    GoogleBooks(谷歌電子書)

    GoogleVoice(谷歌語音)

    GoogleSMS(谷歌短信)

    GoogleSync(谷歌同步)

    GoogleMaps(谷歌地圖)

    GoogleStreetView(谷歌街景)

    GoogleLatitude(谷歌縱橫)

    GoogleReader(谷歌閱讀器)

    AndroidMarket(電子市場)

    GoogleWallet(谷歌錢包)

    iGoogle(個性化谷歌)

    GoogleNews(谷歌新聞)

    GoogleCalendar(谷歌日歷)

    GoogleEarth(谷歌地球)

    GoogleTasks(谷歌日程)

    GoogleMapsNavigation(谷歌本地搜索)

    GoogleTranslate(谷歌翻譯)

    GoogleGoggles(谷歌護(hù)目鏡)

    GoogleSkyMap(谷歌星空)

    GoogleGroup(谷歌網(wǎng)上論壇)

    GoogleAnswer(谷歌問答)

    GoogleShopper(谷歌購物)

    擴(kuò)展資料:

    谷歌服務(wù)框架是基于GoogleAppEngine,Google在CampfireOne上介紹了一種簡化創(chuàng)建、運行和構(gòu)建伸縮性Web應(yīng)用的工具——GoogleAppEngine。

    簡而言之,GoogleAppEngine允許本地使用Google基礎(chǔ)設(shè)施構(gòu)建Web應(yīng)用,待其完工之后再將其部署到Google基礎(chǔ)設(shè)施之上。

    1、非授權(quán)認(rèn)證:免費使用Android操作系統(tǒng),但不能內(nèi)嵌GMS;

    2、部分授權(quán)認(rèn)證:內(nèi)嵌部分GMS服務(wù),但手機(jī)不能打上谷歌的商標(biāo);

    3、完全授權(quán)認(rèn)證:內(nèi)嵌所有的GMS服務(wù),也可以使用“withGoogle™”的谷歌商標(biāo);

    目前在市面上,只有少數(shù)的手機(jī)廠商通過了完全授權(quán)認(rèn)證。

    谷歌認(rèn)證并不是想象的那么容易,谷歌要根據(jù)廠商的實力和地區(qū)因素來考慮認(rèn)證的等級。

    對于廠商來說,GMS除了可以獲得更多的谷歌服務(wù)權(quán)限之外,還是拉開品牌區(qū)隔度的有效手段。

    參考資料來源:百度百科-GoogleAppEngine

    參考資料來源:百度百科-谷歌移動服務(wù)

    二、文字轉(zhuǎn)語音的手機(jī)app,有哪些?

    首先,在百度或者谷歌搜索標(biāo)貝悅讀,出現(xiàn)個這個。

    打開鏈接,就出來一個這個。

    頁面感覺還是比較簡單明了的。

    然后,我就把自己準(zhǔn)備好的一段文字復(fù)制上,再選擇適合我文字內(nèi)容的聲音,打個對勾點擊確認(rèn)就行了。

    這里有個好玩的事情,點擊箭頭按鈕,文字就變成了這個顏色,然后你就可以聽了,如果你想試聽一段文字,那可以點擊右上角的試聽。

    就如果文字有多音的、數(shù)字的讀法,你也可以進(jìn)行修改。

    當(dāng)然,它還有一個多角色合成的窗口,你可以選擇不同的文字匹配不同的聲音,這個就比較適合對話的那種文案了。(不同的聲音會有不同的顏色,哈哈,這個也是可愛的一匹?。?/p>

    最后,聽完覺得聲音沒有問題,就點擊右下角下載,然后彈出來一個窗口,可以修改備注標(biāo)題啥的,反正確定就行了。

    (生成速度,秒來形容吧!哈哈哈,也是比較快的那種吧!)

    然后你就可以用生成的語音做視頻或者放在公眾號文章就ok了!

    因為是給大家介紹這個,不夠詳細(xì)的話,我就把之前生成的視頻發(fā)出來大家聽下吧!我個人感覺,語感還是不錯的,音色也比較好,里面也有幾十個聲音,還算全,不同類型的稿件都能覆蓋倒是。

    在這里嘗試一下吧!https://yuedu.data-baker.com/index.html?source=zhihu02

    優(yōu)質(zhì)朗讀員

    它最大的特點是里面的優(yōu)質(zhì)朗讀員很多,能模仿葛優(yōu)葛大爺、蠟筆小新的聲音來朗讀(或者說配音),這個可以說是很值錢的聲音了,然而可以免費用!另外還有彬哥這種適用于讀新聞的朗讀員,燕燕這種適合做廣告配音的女聲朗讀員。

    上面都是普通話,還有非普通話的:湖南話、河南話、粵語、陜西話、東北話、四川話等各地方言、英文朗讀員,可以滿足很多個性場景的需求。目前想到的,做視頻配音、自媒體FM、教育教學(xué)、廣告制作、公文通知都沒有問題。

    多種導(dǎo)入文字的方式

    小程序支持拍圖取字、微信朗讀、粘貼文字這三種導(dǎo)入文字的方式。其中我個人覺得最值錢的就是拍圖取字的導(dǎo)入方式,這個里面應(yīng)用的OCR技術(shù)據(jù)我所知是要收費的,然而小程序能免費用,省下了不少打字的煩惱,不過我試用了一下,發(fā)現(xiàn)里面是不能拍手寫文字的,暫時只能識別印刷體,期待以后有更大的進(jìn)步。

    制作的音頻可以保存成朗讀集

    市面上很多文字轉(zhuǎn)語音工具都是用完即走,但訊飛快讀里面有個朗讀集的功能,可以免費幫你保存之前制作過的音頻,不過吧,這東西就像云盤,容量總是有限的,所以你想要珍藏的音頻最好還是下載成MP3保存。或者及時刪掉一些不想要的。

    親,很簡單的有很多哦!就讓小虎哥哥給你推薦一個方法吧!搜狗輸入法里面有一個麥克風(fēng)的按鈕,長按就可以說話了,并且會變成文字輸入到對話框哦!如果你需要輸入很多的話,建議使用備忘錄中輸入完之后修改后再發(fā)出去哦!其實像百度、訊飛、小米等很多輸入法都支持這個功能哦!

    廢話不多說,直接上干貨!

    很多人喜歡利用碎片時間學(xué)習(xí),或者希望解放眼睛,利用耳朵來提高效率。所以才有文字轉(zhuǎn)語音功能的需求,雖然題主是想要APP,但是咱們重點在解決問題,所以下面APP和小程序都會介紹。

    1.微軟聽聽文檔

    這個小程序是微軟旗下產(chǎn)品,微軟的技術(shù)大家懂的,非常棒,很安心。

    找到方式:微信-發(fā)現(xiàn)-小程序,搜索“微軟聽聽文檔”即可找到。

    它最棒的地方在于不光能轉(zhuǎn)化文檔,還能把喜歡的公眾號文章轉(zhuǎn)化為語音。

    2.訊飛快讀

    對,沒辦法,遇到語音類的軟件是離不開的科大訊飛的。這個也是一款小程序,不過PC端有網(wǎng)頁版,地址是:https://www.ffkuaidu.com/

    文字轉(zhuǎn)化過來的人聲非常逼真,幾乎可以 以假亂真,提供MP3下載。

    3.文字轉(zhuǎn)語音助手

    這是一款非常有用的APP,提供文字轉(zhuǎn)語音功能??梢悦赓M試用。

    如果有一定的編程基礎(chǔ),其實可以去訊飛開放平臺、百度開放平臺,有免費包可領(lǐng)。

    看到樓上有大兄弟提問:有沒有很人性很良心的文字轉(zhuǎn)語音app?

    我可以告訴你是有的。找找科大訊飛出品的這款小程序: 訊飛快讀

    樓上也有大兄弟說訊飛的配音app讓人挺鬧心,不過這一次,我們不會再讓你們失望了。

    免去各種注冊下載安裝的麻煩事

    因為訊飛快讀是一款 基于微信環(huán)境 的小程序,所以您第一次打開的時候,只要輕輕點一下登陸確認(rèn)就行了,不用輸入賬號密碼,也不用另外下載軟件浪費您的內(nèi)存。

    相當(dāng)于是褪下了很多繁瑣的外衣。

    不收費!大部分功能都免費開放!

    目前大部分的配音app都是要收費的,畢竟開發(fā)成本挺高,但這個小程序里面的基本功能都是免費,包括 OCR拍圖取字、微信文本識別、各種優(yōu)質(zhì)的朗讀員 ,都不用收你的錢。開發(fā)者一直在做虧本生意,為的就是用戶能有一個完整的體驗。

    不過,因為刷屏級操作會把開發(fā)者的錢包掏空,哪天項目倒閉了訊飛快讀就不能玩了,所以還是有一些次數(shù)限制的,大概就是限制100次這種程度。

    界面功能一目了然

    主界面3步就可以完成語音朗讀:

    1、導(dǎo)入文字:支持 拍圖朗讀、微信朗讀、粘貼文字 三種導(dǎo)入方式

    拍圖朗讀就是OCR文字識別,不過現(xiàn)在只能識別印刷體,手寫的還需要開發(fā)者多努力一把。微信朗讀可以直接搜索微信文章進(jìn)行朗讀。粘貼文字方便想從電腦往手機(jī)上導(dǎo)入文字的同學(xué)。目前一次識別的字?jǐn)?shù)限制在6000字,可以滿足多媒體音頻制作、絕大多數(shù)微信文章朗讀的場景。

    小程序支持多個不同特色的 朗讀員 ,其中葛大爺、蠟筆小新是明星朗讀員,中文朗讀員可以基本滿足多個不同場景的需要,另外還有粵語、河南話、湖南話、四川話等多地的方言朗讀員,兩位英文朗讀員,聲音都來自訊飛的音庫,使用明星朗讀員只要說明來源就不用擔(dān)心版權(quán)的問題。

    另外您可以在小程序里面選擇背景音、調(diào)整語速和音量到你想要的最佳效果。

    3、點擊開始朗讀合成音頻:

    點擊開始朗讀之后,會進(jìn)入這個導(dǎo)出音頻的界面,在這里可以替換背景模板,有意思的是,可以在微信里面直接 發(fā)送給好友、生成收聽圖、保存為MP3文件 (發(fā)送到郵箱)。

    收聽圖是可以 自定義封面 的!所以你想做廣告宣傳,發(fā)一張有聲圖片讓大家掃碼進(jìn)去收聽;或者是發(fā)有意思的有聲新年祝福圖,小程序都能實現(xiàn)。

    朗讀集存儲過去的記錄

    樓上有大兄弟說某些配音app不會幫你保存內(nèi)容,訊飛快讀也貼心地給用戶做了一個朗讀集的頁面,能保存最近制作過的幾百條朗讀內(nèi)容,每一條都支持修改和刪除。

    剪映里面有字幕轉(zhuǎn)語音的功能,是免費的,你可以自己寫文字,轉(zhuǎn)出語音后把音頻提取出來就可以了

    提問者您好,對于你的問題,我有一個簡單的方法實現(xiàn),具體步驟如下:

    所需APP: 剪映 視頻音頻轉(zhuǎn)換器

    1.打開剪映,點擊開始創(chuàng)作,選擇一張圖片,添加到項目

    2.點擊下方工具欄中的文本,點擊新建文本,輸入你需要轉(zhuǎn)成語音的文字,點擊對勾

    3.點擊下方工具欄中的文本朗讀,即可生成語音,點擊導(dǎo)出會保存這段帶語音的視頻到你的相冊里

    4.打開視頻音頻轉(zhuǎn)換器,點擊視頻轉(zhuǎn)音頻,選擇剛剛導(dǎo)出的視頻點擊下一步,再點擊右下角convert,制作完成

    這種方法方便快捷,只需手機(jī)就可以輕松完成,隨時隨地都可以制作音頻,而且剪映的語音生成語調(diào)比較自然,容易學(xué)習(xí)和使用,是非常好的旋轉(zhuǎn)

    下面的視頻教程是制作的詳細(xì)步驟

    希望我的回答可以幫助到您

    小佳敬上

    當(dāng)然有的,在電腦上我常用語音合成助手。手機(jī)上我用訊飛配音,訊飛配音和配音閣基本上是一個軟件,頁面打開后和設(shè)置菜單都是一樣的,我常用來做廣告,里邊兒的聲音還是挺全的。推薦給你。你可以試一下

    謝謝悟空邀請

    下載“在線文字轉(zhuǎn)語音.免費轉(zhuǎn)語音,百度廣播”。這個APP 相當(dāng)好用,我是一直在用這個。

    訊飛輸入法

    三、如何下載Google翻譯發(fā)音

    1

    用chrome瀏覽器(其他帶調(diào)試工具的瀏覽器也行)打開谷歌翻譯,按F12打開調(diào)試工具,點擊Network選項卡;

    2

    在谷歌翻譯中輸入要發(fā)聲的文字,點擊朗讀,這時調(diào)試工具左邊Name

    path一欄中會生成一個translate_tts的異步請求(最下面的一個為最新),點擊,右邊會顯示請求信息,在headers選項卡下面會有一個Request

    URL:,復(fù)制后面的地址,在地址欄中粘貼復(fù)制下來的地址,打開,這時就會播放你要翻譯的聲音,contrl+s保存,ok,搞定

    四、語音合成簡介 Text-to-speech

    這篇博客的主要內(nèi)容是對語音合成 (text to speech)的背景知識進(jìn)行介紹。 希望可以讓讀者通俗易懂的了解語音合成的工作原理, 并對為了理解state-of-the-art text to speech 的算法做基礎(chǔ)。

    這個簡介主要基于這篇論文 “Wavenet: a generative model for raw audio”的附錄介紹的。 論文鏈接如下: https://arxiv.org/pdf/1609.03499.pdf , 以及stanford CS224S的課程, 鏈接如下 http://web.stanford.edu/class/cs224s/lectures/224s.17.lec14.pdf

    語音合成是通過文字人工生成人類聲音, 也可以說語音生成是給定一段文字去生成對應(yīng)的人類讀音。 這里聲音是一個連續(xù)的模擬的信號。而合成過程是通過計算機(jī), 數(shù)字信號去模擬。 這里就需要數(shù)字信號處理模擬信號信息,詳細(xì)內(nèi)容可參考 [1]。

    圖片1, 就是一個例子用來表示人類聲音的信號圖。 這里橫軸是時間, 縱軸是聲音幅度大小。聲音有三個重要的指標(biāo), 振幅(amplitude) , 周期(period) 和 頻率(frequency) 。 振幅指的是波的高低幅度,表示聲音的強(qiáng)弱,周期和頻率互為倒數(shù)的關(guān)系, 用來表示兩個波之間的時間長度,或者每秒震動的次數(shù)。  而聲音合成是根據(jù)聲波的特點, 用數(shù)字的方式去生成類似人聲的頻率和振幅, 即音頻的數(shù)字化。了解了音頻的數(shù)字化,也就知道了我們要生成的目標(biāo)函數(shù)。

    音頻的數(shù)字化主要有三個步驟。

    取樣(sampling) :在音頻數(shù)字化的過程,采樣是指一個固定的頻率對音頻信號進(jìn)行采樣, 采樣的頻率越高, 對應(yīng)的音頻數(shù)據(jù)的保真度就越好。 當(dāng)然, 數(shù)據(jù)量越大,需要的內(nèi)存也就越大。 如果想完全無損采樣, 需要使用Nyquist sampling frequency, 就是原音頻的頻率2倍。

    量化 (quantization) : 采樣的信號都要進(jìn)行量化, 把信號的幅度變成有限的離散數(shù)值。比如從0 到 1, 只有 四個量化值可以用0, 0.25, 0.5, 0.75的話, 量化就是選擇最近的量化值來表示。

    編碼 (coding ):編碼就是把每個數(shù)值用二進(jìn)制的方式表示, 比如上面的例子, 就可以用2bit 二進(jìn)制表示, 00, 01, 10, 11。 這樣的數(shù)值用來保存在計算機(jī)上。

    采樣頻率和采樣量化級數(shù)是數(shù)字化聲音的兩個主要指標(biāo),直接影響聲音的效果。 對于語音合成也是同樣, 生成更高的采樣頻率和更多多的量化級數(shù)(比如16 bit), 會產(chǎn)生更真實的聲音。  通常有三個采樣頻率標(biāo)準(zhǔn)

    1. 44.1kHz 采樣, 用于高品質(zhì)CD 音樂

    2. 22.05kHz 采樣, 用于語音通話, 中品質(zhì)音樂

    3 . 11.025kHz 采樣, 用于低品質(zhì)聲音。

    而量化標(biāo)準(zhǔn)一般有8位字長(256階)低品質(zhì)量化 和16位字長(65536階)高品質(zhì)量化。

    還有一個重要參數(shù)就是通道(channel), 一次只采樣一個聲音波形為單通道, 一次采樣多個聲音波形就是多通道。

    所以在語音合成的時候,產(chǎn)生的數(shù)據(jù)量是 數(shù)據(jù)量=采樣頻率* 量化位數(shù)*聲道數(shù) , 單位是bit/s。 一般聲道數(shù)都假設(shè)為1.。 采樣率和量化位數(shù)都是語音合成里的重要指標(biāo),也就是設(shè)計好的神經(jīng)網(wǎng)絡(luò)1秒鐘必須生成的數(shù)據(jù)量 。

    文本分析就是把文字轉(zhuǎn)成類似音標(biāo)的東西。 比如下圖就是一個文本分析,用來分析 “PG&E will file schedules on April 20. ” 文本分析主要有四個步驟, 文字的規(guī)范化, 語音分析, 還有韻律分析。 下面一一道來。 

    文本分析首先是要確認(rèn)單詞和句子的結(jié)束。 空格會被用來當(dāng)做隔詞符. 句子的結(jié)束一般用標(biāo)點符號來確定, 比如問號和感嘆號 (??。? 但是句號有的時候要特別處理。 因為有些單詞的縮寫也包含句號, 比如 str. "My place on Main Str.  is around the corner". 這些特別情況一般都會采取規(guī)則(rule)的方式過濾掉。

    接下來 是把非文字信息變成對應(yīng)的文字, 比如句子中里有日期, 電話號碼, 或者其他阿拉伯?dāng)?shù)字和符號。 這里就舉個例子, 比如, I was born April 14. 就要變成, I was born April fourteen.  這個過程其實非常繁瑣,現(xiàn)實文字中充滿了 縮寫,比如CS,  拼寫錯誤, 網(wǎng)絡(luò)用語, tmr --> tomorrow. 解決方式還是主要依靠rule based method, 建立各種各樣的判斷關(guān)系來轉(zhuǎn)變。

    語音分析就是把每個單詞中的發(fā)音單詞標(biāo)出來, 比如Fig. 3 中的P, 就對應(yīng)p和iy, 作為發(fā)音。 這個時候也很容易發(fā)現(xiàn),發(fā)音的音標(biāo)和對應(yīng)的字母 不是一一對應(yīng)的關(guān)系,反而需要音標(biāo)去對齊 (allignment)。 這個對齊問題很經(jīng)典, 可以用很多機(jī)器學(xué)習(xí)的方法去解決, 比如Expectation–maximization algorithm.

    韻律分析就是英語里的語音語調(diào), 漢語中的抑揚頓挫。 我們還是以英語為例, 韻律分析主要包含了: 重音 (Accent),邊界 (boundaries),  音長 (duration),主頻率 (F0).

    重音(Accent) 就是指哪個音節(jié)發(fā)生重一點。 對于一個句子或者一個單詞都有重音。 單詞的重音一般都會標(biāo)出來,英語語法里面有學(xué)過, 比如banana 這個單詞, 第二個音節(jié)就是重音。 而對于句子而言,一樣有的單詞會重音,有的單詞會發(fā)輕音。 一般有新內(nèi)容的名詞, 動詞, 或者形容詞會做重音處理。 比如下面的英語句子, surprise 就會被重音了, 而句子的重音點也會落到單詞的重音上, 第二個音節(jié)rised, 就被重音啦。 英語的重音規(guī)則是一套英語語法,讀者可以自行百度搜索。

    I’m a little sur prised to hear it cha racterized as up beat .

    邊界 (Boundaries) 就是用來判斷聲調(diào)的邊界的。 一般都是一個短語結(jié)束后,有個語調(diào)的邊界。 比如下面的句子, For language, 就有一個邊界, 而I 后面也是一個邊界.

    For language, I , the author of the blog, like Chinese.

    音長(Duration) 就是每個音節(jié)的發(fā)聲長度。 這個通俗易懂。 NLP 里可以假定每個音節(jié)單詞長度相同都是 100ms, 或者根據(jù)英語語法, 動詞, 形容詞之類的去確定。 也可以通過大量的數(shù)據(jù)集去尋找規(guī)律。

    主頻率 (F0 )就是聲音的主頻率。  應(yīng)該說做傅里葉轉(zhuǎn)換后, 值 (magnitude) 最大的那個。 也是人耳聽到聲音認(rèn)定的頻率。一個成年人的聲音主頻率在 100-300Hz 之間。 這個值可以用 線性回歸來預(yù)測, 機(jī)器學(xué)習(xí)的方法預(yù)測也可以。一般會認(rèn)為,人的聲音頻率是連續(xù)變化的,而且一個短語說完頻率是下降趨勢。

    文本分析就介紹完了,這個方向比較偏語言學(xué), 傳統(tǒng)上是語言學(xué)家的研究方向,但是隨著人工智能的興起,這些feature 已經(jīng)不用人為設(shè)計了,可以用端到端學(xué)習(xí)的方法來解決。 比如谷歌的文章 TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS 就解救了我們。

    https://arxiv.org/pdf/1703.10135.pdf

    這個部分就比較像我們算法工程師的工作內(nèi)容了。 在未來的博客里, 會詳細(xì)介紹如何用Wavenet 和WaveRNN 來實現(xiàn)這一步驟的。 今天這個博客就是簡介一下算法。

    這里說所謂的waveform synthesis 就是用這些 語言特征值(text features)去生成對應(yīng)的聲波,也就是生成前文所說的采樣頻率 和 振幅大?。▽?yīng)的數(shù)字信號)。 這里面主要有兩個算法。

    串接合成(concatenative speech synthesis) : 這個方法呢, 就是把記錄下來的音節(jié)拼在一起來組成一句話,在通過調(diào)整語音語調(diào)讓它聽起來自然些。 比較有名的有雙音節(jié)拼接(Diphone Synthesis) 和單音節(jié)拼接(Unit Selection Synthesis)。這個方法比較繁瑣, 需要對音節(jié)進(jìn)行對齊(alignment), 調(diào)整音節(jié)的長短之類的。

    參數(shù)合成 (Parametric Synthesis) : 這個方法呢, 需要的內(nèi)存比較小,是通過統(tǒng)計的方法來生成對應(yīng)的聲音。 模型一般有隱馬爾科夫模型 (HMM),還有最近提出的神經(jīng)網(wǎng)絡(luò)算法Wavenet, WaveRNN. 

    對于隱馬爾科夫模型的算法, 一般都會生成梅爾頻率倒譜系數(shù) (MFCC),這個是聲音的特征值。 感興趣的可以參考這篇博客 去了解 MFCC。

    https://www.cnblogs.com/BaroC/p/4283380.html

    對于神經(jīng)網(wǎng)絡(luò)的算法來說, 一般都是生成256 個 quantized values 基于softmax 的分類器, 對應(yīng) 聲音的 256 個量化值。 WaveRNN 和wavenet 就是用這種方法生成的。

    下面是我學(xué)習(xí)語音合成的一些資料, 其中stanford cs224s 是強(qiáng)力推薦的,但是這個講義講的邏輯不是很清楚, 要反復(fù)看才會懂。

    UCSB Digital Speech Processing Course 課程, 聲音信號處理的基礎(chǔ)。 建議讀一遍, 鏈接如下,  https://www.ece.ucsb.edu/Faculty/Rabiner/ece259/

    Stanford CS224S http://web.stanford.edu/class/cs224s/

    WaveRNN,  https://arxiv.org/pdf/1609.03499.pdf

    音頻的數(shù)字化, https://wenku.baidu.com/view/68fbf1a4f61fb7360b4c658b.html

    以上就是關(guān)于谷歌語音生成器相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    怎么樣才能進(jìn)入谷歌商店(怎么才能進(jìn)去谷歌商店)

    谷歌收徒(谷歌搜圖怎么用)

    深圳谷歌搜索代理(深圳谷歌搜索代理怎么樣)

    青海省快手網(wǎng)紅排行榜(青??焓志W(wǎng)紅排名第一是誰)

    互聯(lián)網(wǎng)營銷師證書怎么報名(互聯(lián)網(wǎng)營銷師證書怎么報名的)