インターネット百科事典Wikipediaより構築した音声認識エンジンJulius用の言語モデル公開


Wikipedia言語モデルとは?

2009年1月22日(木)に実施された「第20回セマンティックウェブとオントロジー研究会 Wikipediaワークショップ」にて発表した『Wikipediaを利用した音声認識用言語モデルの構築および評価』(SIG-SWO-A803-11)で構築した言語モデルを公開しています。
言語モデルはインターネット百科事典Wikipediaをコーパスとして用いて構築しました。


Wikipediaを利用した音声認識用言語モデルの構築および評価』の概要

Abstract: 本研究ではインターネット百科事典のWikipediaをコーパスとして利用し,音声認識用言語モデルを構築した.再配布や再利用が可能なWikipediaを用いることにより,音声認識用言語モデルを一般に公開することができる.言語モデル構築にあたって,Wikipediaに対して,不要なデータ除去,読み付与処理などを行った.また,構築した言語モデルを使った音声認識の評価について述べる.


Wikipedia言語モデルの仕様

Wikipediaを利用した音声認識用言語モデルの構築および評価を参考にしてください。
後日、詳しく書きます。


Wikipedia言語モデルをダウンロード

Wikipedia言語モデルダウンロード(Ver 0.0.1)
約111MBで、tar.gz形式で圧縮しています。
この言語モデルの元となったWikipediaデータはWikipedia:データベースダウンロードよりダウンロードすることができます。
この言語モデルは、GNU Free Documentation Licenseに基づきデータ修正、再配布などが行えます。


Wikipedia言語モデルの使い方

大語彙音声認識エンジンJuliusのWebサイトをご覧ください。
JuliusBook(Web版)の付録 B. オプション一覧言語モデルの項目が役に立つと思います。
後日、詳しく書きます。

Q & A

Q.1 文字化けします

A.1 語彙辞書の文字コードはUTF-8です。
-charconv オプションを使って出力文字コードを変えてください。
-charconv 辞書の文字コード 出力文字コード


Q.2 Int なんたらエラーがでるんだけど

A.2 語彙サイズが 65,535 以上の言語モデルを作るために--enable-words-intオプションを付けたJuliusで言語モデルを作成してしまいました。言語モデルを作り直します。
しばらくお待ちください。
お急ぎの場合は、./configure --enable-words-intオプションを付けてJuliusをコンパイルし直してください。


お問い合わせ先

田中和紀(Kazuki Tanaka)
c304521あっとじーめーるどっとこむ
「あっとじーめーるどっとこむ」の日本語部分を@gmail.comに置き換えてください。


last update 2009.01.22