2015年8月13日 星期四

Linux下,解壓縮VOICEMITH夏語遙日語資料庫


VOICEMITH推出夏語遙的聲音資料庫,因為對語音合成還滿有興趣的,就想說載來試看看。

結果在Linux下使用unzip直接解壓縮其日與資料庫的結果,是慘烈的亂碼。

後來搜尋了部分的解決方式,在此記錄

1. 安裝7zip 解壓縮軟體
  #apt-get install p7zip-full

2. 下載VOICEMITH中的夏語遙的日語資料庫
  官方網站 : http://www.voicemith.com/download.html

3. 安裝日本字集
  #dpkg-reconfigure locales

   選擇 ja_JP.EUC-JP與ja_JP.UTF-8

4. 用7z解壓縮,這時看到會是解出滿滿的亂碼
  #LANG=C 7za x Xia_Voice_Bank_JP.zip

5. 安裝convmv,用來轉換檔案檔明的encoding
  #apt-get install convmv

6. 利用convmv轉換,因為這個日語資料庫好像是用windows的編碼字集去壓的,所以在參數設定上,原始字集要設定成Shift-JIS,而不是EUC-JP,然後選輸出成UTF8
  #convmv -f Shift-JIS -t utf8 --notest -r Xia_Voice_Bank_JP

經過以上步驟之後,在linux上應該就可以像下圖一樣顯示日文了



然後如果是在Windows上,想利用Putty連線並顯示日文(UTF8 )的話 :

開啟Putty →Window → Translation → 在Remote character set 中選UTF8即可