記事一覧

二大音声認識ソフトを徹底比較「AmiVoice SP2」VS「ドラゴンスピーチ11J」

  • このエントリーをはてなブックマークに追加

去年の10月にドラゴンスピーチ11Jを購入して、約3ヶ月間ずっと使用してきました。しかし先日、AmiVoice SP2の評判の良さを知って以来、どうしても試してみたくなり、衝動的にAmiVoice SP2も購入することになってしまいました。しかし、おかげで両方のソフトを比べて使えるようになりました。せっかく比べれる環境になったので、早速両者のソフトを比較してみることにしました。


以下が今回比較するソフトです。

AmiVoice SP2とドラゴンスピーチ11J
 

実際に両者を使用してみて、真っ先に思ったことは「両者とも甲乙つけがたい…」ということ。というのも、ドラゴンスピーチにもAmiVoiceにも両方に良い面と悪い面が混在していて、「〇〇という機能はドラゴンスピーチの方がいいのだけど、〇〇はAmiVoiceの方がいいよなぁ」ということが多いです。

それに、両者にはそれぞれ得意分野があってユーザーの音声認識ソフトに求める要求と環境によっては、どちらとも上になり得るからです。そこで今回は、両ソフトの機能を細かく見ていくことによって、それぞれのソフトの強みもしくは弱みについて書いていければと思います。


使用環境

両ソフトを比較する前に、まずはソフト動かした使用環境です。

パソコンは以下の2台で試しています。

□ Windows XP機
 CPU:Core2 Quad
 メモリ: 3.5 GB
 SSD使用なし

□ Windows 7 64bit機
 CPU:Core i7 3820QM
 メモリ: 32 GB
 SSD使用あり

両ソフトは、XP環境でも7 64bit環境でも問題なく動作します。

両方のマシンとも音声認識ソフトを使用するときは、「SANWA SUPPLY MM-MCUSB16」というマイクを使用しています。値段の割にはクリアな音を拾ってくれる品質の良いマイクです。

サンワサプライ
パソコン内部のノイズに強いUSBマイクです。


音声認識率

音声認識ソフトを使う人のほとんどが「テキスト入力をもっと楽に行いたい」と考え利用していると思います。そういった意味では、この声に出した文章がどのくらい正確にテキスト化されるかと言う音声認識率は、非常に重要で音声認識ソフトの核とも言えます。

ということで、ドラゴンスピーチ11とAmiVoice SP2の音声認識率を比較してみたいと思います。ちなみに、ソフト使用期間は、ドラゴンスピーチ11が約3ヶ月。AmiVoice SP2が約3日ほど(この文章作成時のレベルは4となっています。

まずは、Yahoo!ニュースから適当に記事を選び、両ソフトで読んでみたいと思います。修正はせずに文節ごとの一発読みです。(※言い間違えたり、言いよどんだり、かんだりした場合は、キャンセルしてもう一度発声しています。)


元の記事

「尖閣」も世界遺産登録を 石垣市、国に現地調査要請へ
政府が世界自然遺産に「奄美・琉球」(鹿児島県、沖縄県)の登録を目指していることに関連し、沖縄県石垣市が、日本の領土である尖閣諸島を対象地域に含めるよう国に求めるとともに、登録に向けた現地調査を実施できるよう働きかける方針であることが3日、分かった。同市の中山義隆市長(45)は「国際機関に登録が認められれば、尖閣諸島が日本の領土ということがより一層、明確になる」としている。(産経新聞)
http://dailynews.yahoo.co.jp/fc/world/world_heritage/?1359943576


ドラゴンスピーチ11Jでディクテーション

「尖閣」も世界遺産登録を 石垣市、国に現地調査要請
政府が世界自然遺産に「奄美・琉球」 (鹿児島県、沖縄県)の登録を目指していることに関連し、沖縄県石垣市が、日本の領土である尖閣諸島を対象地域に含めるよう国に求めるとともに、登録に向けが現地調査を実施できるよう働き掛ける方針であることが3日、分かった。同市の中山義隆市長(45)は「国際機関に登録が認められれば、尖閣諸島は日本の領土と言うことがより一層、明確になる」としている。 (産経新聞)


AmiVoice SP2でディクテーション(レベル4)

「尖閣」も世界遺産登録を 石巻市、国に現地調査要請へ
政府が世界自然遺産に「奄美・琉球」(鹿児島県、沖縄県)の登録を目指していることに関連し、沖縄県石垣市が、日本の領土である尖閣諸島を対象地域に含めるよう国に求めるとともに、登録に向けた現地調査を実施できるよう働きかける方針であることが3日、わかった。同市の中山義隆市長(45)は「国際機関に登録が認められれば、尖閣諸島が日本の領土ということがより一層、明確になる」としている。(産経新聞)

どちらも結構いい感じですね。入力のコツとしては、どちらのソフトも句読点から句読点を一気に読むようにすると認識率が向上します。言いよどんだりせず、ハキハキと発声すれば、両者ともかなり正確に認識してくれます。


他にももう一つニュースを読んでみます。今度は芸能ニュースあたり。


元の記事

<大塚範一キャスター>「めざまし」で1年3カ月ぶりテレビ生出演 「元気になりました」復活アピール
急性リンパ性白血病のため、11年11月から休養していたフリーキャスターの大塚範一さんが4日、朝の情報番組「めざましテレビ」(フジテレビ系)で、約1年3カ月ぶりに生出演した。大塚さんは、「本当にありがとうございます。ここまで元気になりました」とあいさつした。
大塚さんは自身の後任を務める三宅正治アナウンサーや、番組で共演していた生野陽子アナらの拍手に迎えられ、笑顔で登場。「ゲストに来たのが非常に違和感があるんです」といい、1年3カ月ぶりの朝の生出演に「緊張しました。30分早く起きました」と話した。
http://headlines.yahoo.co.jp/hl?a=20130204-00200004-mantan-ent


ドラゴンスピーチ11Jでディクテーション

<大塚紀香キャスター> 「めざまし」で1年3ヵ月ぶりテレビ生出演 「元気になりました」復活アピール
旧制リンパ性白血病のため、11年11月から休養していたフリーキャスターの大塚紀香さんが4日、朝の情報番組「めざましテレビ」 (フジテレビ系)で、約1年3ヵ月ぶりに生出演した。大塚さんは、 「本当にありがとうございます。お困り元気になりました」とあいさつした。
大塚さんは自身の公認を務める三宅正治アナウンサーや、番組で共演していた庄野洋子アナの拍手に迎えられ、笑顔で登場。 「ゲストに来たのが非常に非常に違和感があるんです」といい、 1年3ヶ月ぶりの朝の生出演に「緊張しました。 30分早く起きました」と話した。

「公認」や「庄野洋子」は、間違えていますが修正ダイアログを開くと修正候補に出ているので、すぐさま修正できると思います。日付や数字などもパッチリと認識されています。


AmiVoice SP2でディクテーション(レベル4)

<大塚範一キャスター>「めざまし」で1年3ヶ月ぶりテレビ生出演 「元気になりました」復活アピール
急性リンパ性白血病のため、11年11月から休養していたキャスターの大塚範一さんが4日、朝の情報番組「めざましテレビ」(フジテレビ系)で、約1年3ヶ月ぶりに生出演した。大塚さんは、「本当にありがとうございます。ここまで元気になりました」と挨拶した。
大塚さんは自身の公認を務める三宅正治アナウンサーや、番組で共演していた生野陽子アナらの拍手に迎えられ、笑顔で登場。「ゲストに来たのが非常に違和感があるんです」といい、1年3ヶ月ぶりの朝の生出演に「緊張しました。30分早く起きました」と話した。

こちらも「公認」の修正変換候補に「後任」が出ているので、すぐさま修正できると思います。

それにしても、AmiVoice SP2の認識率が素晴らしい。前回も書きましたが固有名詞の認識が素晴らしいです。特に、大塚さんやアナウンサーの名前が一発で出るのには驚かされます。


あくまで僕の個人的な意見ですが、これまで実際に使ってきた感じや、これらの結果を見れば、音声認識率についてはAmiVoice SP2に軍配が上がると思います。ドラゴンスピーチがだいたい3ヶ月使用しているのに対して、AmiVoiceなんてせいぜい3、4日です。それでいて、この認識率には、もはや感動すら覚えました。

加えて、音声入力スピードもAmiVoiceの方が軽くてスムーズです。どちらのソフトも僕がいつも使っているエディターに直接入力で音声入力させているのですが、AmiVoiceの方が安定していますね。ドラゴンスピーチもサクサク認識する時はするのですが、スペックの低いパソコンだったり、Windowsを長時間動かしている時など、実際に音声認識が開始されるまで、かなり時間がかかったりすることがあります。

それに、発声から文字になるまでの時間もAmiVoiceの方が短いです。これは、AmiVoiceの辞書の語彙数の方が少ないので検索時間が少なくて済むことにもよるのでしょう。

それにしても前情報では、ドラゴンスピーチ11は語彙数が約100万語、AmiVoice SP2の語彙数は約20万語とのことだったので、認識率もAmiVoiceの方がよかったという結果は、かなり意外でした。AmiVoiceの方が辞書と認識エンジンが効果的に使われているのかもしれません。ただ、どちらのソフトも実用十分なほど認識してくれるので、ほんとに甲乙は付けがたいです。人によっては、ドラゴンスピーチの方が良いという人もいると思います。


テキストの編集方法

テキストの修正方法については、両者には大きな違いがあります。ドラゴンスピーチの方は、完全に声で選択、削除、修正、他多数のことができますが、 AmiVoice SP2場合は、基本的に修正はマウスやキーボードを使って行わなければなりません。ここら辺は、好みの問題だと思います。


何から何まで声で行いたい場合は、ドラゴンスピーチの方が向いています。修正からダイアログ操作まで、こちらの方は徹底して声でできるようになっています。僕自身も、直前に入力していた文章をやり直す「取り消し」コマンドや、狙った語句をピンポイントで修正できる「修正 ○○」機能が便利すぎて、多用しまくっています。


AmiVoiceでの修正は、マウスやキーボードを使って行うことになると思います。一応、音声コマンドもあって声だけで編集したりは出来なくもないのですが、あまり実用的ではありません。ただ音声コマンドにより編集が必要のない場合は、キーボードと組み合わせることで素早く編集することができるので、音声とキーボード両輪でテキスト入力を行っていく場合には効果を発揮すると思います。(※これはドラゴンスピーチでもできますが、多少AmiVoiceのほうがやりやすい。)


このテキスト編集の点において、文章の校正などを全て声で(声主体で)やりたいという場合は、ドラゴンスピーチ11Jしか選択肢はないと思います。


特徴的な機能

ここでは、メイン機能ではないけれど、それぞれのソフトにしかない機能を紹介したいと思います。

ドラゴンスピーチ11Jにしかない機能

□パソコンや、アプリケーションなどの操作
□iPhone/Androidアプリ(無料)を使っての、Wi-Fi経由でパソコンへの音声入力・操作
□英語入力に対応
□Google、 Facebook、Twitterなどにいつでも検索・投稿できる
□完全にタスクトレイに収納して使用することができる(AmiVoice SP2は出来ない)
□マイクを切り忘れても〇〇分後にマイクをスリープ状態にするなどの設定ができる


AmiVoice SP2にしかない機能

□入力する文書の種類によって、辞書を切り替えて使用できる
□辞書学習を効率化できる「テキストを学習ウィザード」がある
□効率的に入力できるスピーチマイクを使ってのディクテーションができる
□音声ファイルの書起し専用のエディタがある
詳しくはこちら


音声入力以外の機能の豊富さで言ったら、ドラゴンスピーチになると思います。パソコンそのものの機能を音声で操作したい場合や、スマートフォンから使いたい場合、英語入力がしたい場合は、選択肢はドラゴンスピーチしかないです。


エディターの使い勝手

両ソフトには、どちらにもデフォルトでエディターが付属しています。ただ、どちらもエディターもひどく使いにくいです 。以下では、それぞれのエディターの特徴について書きたいと思います。

ドラゴンスピーチ11JのDragonエディター


正直言ってかなり使いづらいです。デフォルトの文字の大きさが変更できないので不便。中でも最も困るのが、テキストをマウスで選択しようとしたとき。上のキャプチャーは、「最重要課題」と選択しようとしているのですが、どうしても余計なところまで選択されてしまいます。コピペをするときこれは、かなりイライラします。

AmiVoice SP2のエディター


Dragonエディターよりもマシではあるものの、こちらもお世辞にも使いやすいとはいえないエディターです。D&Dでのテキスト移動はできないですし、閉じるボタンを押すと、「保存しますか?」の確認のダイアログもなしにエディターが閉じられてしまうので、テキストをロストしてしまう恐れがあります。


これらのエディターに比べたら、まだブラウザのテキスト入力ボックスの方が使いやすかったりします。僕の場合は、両者とも使わず、いつも使用している使い慣れたエディターに直接入力して使用しています。直接入力した場合でも、ドラゴンスピーチ・AmiVoice双方とも修正機能が使えるので、大して問題ありません。


それぞれの長所と短所

僕がこれまでに、それぞれのソフトを使用してきて感じた、長所と短所を以下に箇条書きしたいと思います。〇は長所、×は短所です。

ドラゴンスピーチ11J

○認識率が良い
○音声コマンドが豊富で、テキスト編集が全て声でできる
○アプリケーションの操作などもできる
○機能が豊富(英語入力、スマホ入力など)
×デフォルトのエディターが使いづらい
×起動が遅い
×音声入力からテキストへの変換が遅い
×動作が不安定(たまに固まる)
×直接入力するとエラーダイアログが出て入力できないことがある(Windowsを長時間起動していると起きやすい)
×以前のドラゴンスピーチ2005のとき、Windows7の対応パッチを出さなかったことから、サポート面で少し不安

ドラゴンスピーチは、機能が豊富なだけに、重いのはしょうがないのかもしれません。低スペックパソコンだと、動作はかなりストレスのあるものになると思います。ただ、SSDを搭載しているパソコンだと結構サクサク動きます。


AmiVoice SP2

○認識率がとても良い
○起動が速い
○音声入力から変換までが速い
○動作が安定している
○音声ファイルの書き起こしエディターで、音声→テキストを効率的に行える
×声でのテキスト編集がかなりしづらい
×デフォルトのエディターが使いづらい
×アプリケーションの操作などはできない
×マウス操作ではタスクトレイから一旦出さないと使用出来ない(ホットキー操作でなら使用可能)
×マイクの自動スリープ機能がないために、マイクを切り忘れると悲惨なことに


AmiVoiceはテキスト入力だけに特化したといった感じだけあって、軽いです。動作環境を満たしていれば、低スペックのパソコンでも、十分いい働きをしてくれそうです。


まとめ

これまで両音声認識ソフトを使用してきた感想は、最初に書いた通り正直どっちも甲乙つけがたいです。ただ、音声入力機能に特化して使用するのであれば、僕はAmiVoice SP2を推したいと思います。テキスト入力に特化するならば、認識率も良く、軽く、安定しているAmiVoice SP2がストレスなく使えると考えます。AmiVoice SP2にも不満がないわけではありませんが、それを補って余りある音声入力ソフトだと思います。


一方、体に障害などがあったりしてキーボード操作などが行えない場合、豊富な機能を使いたい場合は、ドラゴンスピーチ11Jだと思います。ドラゴンスピーチはコマンドさを覚えてしまえば、ものすごく手軽にテキストを修正およひ単語の学習ができます。この、音声コマンド操作に関してはAmiVoiceは逆さまになったってかないません。


身も蓋もないことを言ってしまえば、AmiVoice SP2の音声入力機能に、ドラゴンスピーチ11Jの音声コマンドによるテキスト編集機能が付いて、エディターがもっと使いやすくなれば最高なんですが。これは今後に発売される両メーカーの音声認識ソフトに期待したいと思います。


エムシーツー
話すだけで簡単にPC入力。事前に声の登録の一切必要のない次世代音声認識エンジンを搭載。

ジャストシステム
Windowsでキーボードに代わって声でテキストを入力したり、「アプリケーションの起動」や「ファイルの保存」などの操作も声で行うことができる、音声ソフトウェア。

続き:ATOK2013を買ったら音声入力のVoiceATOKなるものが付いてきたので試しに使ってみた

タグ:AmiVoice SP2 ドラゴンスピーチ11J 音声認識 音声入力 レビュー

  • このエントリーをはてなブックマークに追加

コメント一覧

トテイ 2013年11月26日(火)15時10分 編集・削除

私は AmiVoice の SPを使用しています。一太郎の最新版に、ドラゴンスピーチが附属するバージョンが出てきて、本当はどちらが使い勝手がいいのか、使用された方のレポートを知りたいなと思っていたところ、丁寧な比較検証をやっていただきましてありがとうございました。実はSPの方でも、修正ソフトが配布されていて、うかつにも気づかないまま来ていましたが、これを当ててみると、驚くなかれ、サクサクと変換されるようになりました。
認識率については、よく指摘されているように、マイクによって大きく違うばかりか、ヘッドセットの場合は、マイクの向きというか位置によって、非常に大きな差があることも気づきました。
私はロジクールの2000円台で購入したヘッドセットタイプの USB 接続マイクを使っていますが、マイクの位置を鼻より上にもってくると、格段に認識率が向上しました。
ただ長時間ヘッドセットを装着するのはうっとうしいので、新しい版のようにマイクで入力できるのも面白いと思います。外国の法律事務所なんかでは、ほとんどディクテーションで文書作成をやっていて、ドイツの裁判所を見ていたら、裁判官までが、書記官なしでディクテーションマイクで記録を残しているのにびっくりしました。音声入力の愛好者は少ないようですが、肩もこらず、出来上がった文章も、話し言葉になるので、ストレスがありません。今後の記事に期待しております。

yhira 2013年11月27日(水)10時50分 編集・削除

本当、認識率はちょっとしたことで違いますね。
最近だと、エアコンの暖房を点けるので、その音があるのとないのでは全く認識率が違います。
周囲の雑音に強いのは、どちらかというとドラゴンスピーチかも。

ドイツとかそうなんですね。
慣れると、ディクテーション本当に楽ですよね。
最近は、文章作るとき全くキーボードを打つ気がしないのが困りものです;