2009年1月22日(木)に実施された「第20回セマンティックウェブとオントロジー研究会 Wikipediaワークショップ」にて発表した『Wikipediaを利用した音声認識用言語モデルの構築および評価』(SIG-SWO-A803-11)で構築した言語モデルを公開しています。
言語モデルはインターネット百科事典Wikipediaをコーパスとして用いて構築しました。
Abstract: 本研究ではインターネット百科事典のWikipediaをコーパスとして利用し,音声認識用言語モデルを構築した.再配布や再利用が可能なWikipediaを用いることにより,音声認識用言語モデルを一般に公開することができる.言語モデル構築にあたって,Wikipediaに対して,不要なデータ除去,読み付与処理などを行った.また,構築した言語モデルを使った音声認識の評価について述べる.
Wikipediaを利用した音声認識用言語モデルの構築および評価を参考にしてください。
後日、詳しく書きます。
Wikipedia言語モデルダウンロード(Ver 0.0.1)
約111MBで、tar.gz形式で圧縮しています。
この言語モデルの元となったWikipediaデータはWikipedia:データベースダウンロードよりダウンロードすることができます。
この言語モデルは、GNU Free Documentation Licenseに基づきデータ修正、再配布などが行えます。
大語彙音声認識エンジンJuliusのWebサイトをご覧ください。
JuliusBook(Web版)の付録 B. オプション一覧や言語モデルの項目が役に立つと思います。
後日、詳しく書きます。
田中和紀(Kazuki Tanaka)
c304521あっとじーめーるどっとこむ
「あっとじーめーるどっとこむ」の日本語部分を@gmail.comに置き換えてください。