読者です 読者をやめる 読者になる 読者になる

.fstファイルのラティス(単語グラフ)可視化

OpenFST Ubuntu

OpenFSTのファイル形式(.fst)は、グラフ描画ができる。

OpenFSTがインストールされていることが前提。インストール方法は

教師なし形態素解析ツールlatticelmのインストールと実行方法 - Akiraのメモ書き

を参照。

 

ラティスをps、pdf形式で出力する方法

.fstファイルを生成していた後の処理

 $ fstdraw --isymbols=syms.txt --osymbols=syms.txt fst.fst > fst.dot

 $ nkf -w fst.dot >fst.dot   文字コードUTF-8に変換する)

dotファイルをps形式に変換

 $ dot -Tps:cairo fst.dot >fst.ps

 -Tpsオプションのみでは「Warning: UTF-8 input uses non-Latin1 characters which cannot be handled by this PostScript driver」というエラーが発生する場合がある。

日本語フォントだと文字化けする → 「-Tps:cairo」で日本語フォント挿入できる。

 

参考:

 

psファイルのpdf化

$ ps2pdf fst.ps fst.pdf

直接PDFに変換

$ dot -Tpdf:cairo fst.dot >fst.pdf

 

※適宜コマンドが実行できない場合はソフトウェアをインストールする必要がある。

sudo apt-get install nkf graphviz

 

例えば、音節辞書を使ったJuliusの音声認識結果ラティスをグラフ化するとこのようになる。

f:id:ataniguchi:20170124013217p:plain