忍者ブログ
古文自動翻訳研究センター 中学・高校の古文学習をパソコンにサポートさせようと試みるページ
サイト内検索  サイトマップ   文字サイズ変更方法
トップページ開発者ブログ >グーグル日本語入力の実力 その1
最終更新日 2024年03月31日 


◆ グーグル日本語入力の実力 その1

 
グーグル日本語入力の実力 その1 2010年01月23日(土) 00時31分  

グーグルが日本語入力ソフトウェアを作ってくれました。
しかも無料です。気軽に試せます。

http://www.google.com/intl/ja/ime/

そもそも、日本語入力ソフトウェアがなぜ必要なのかと言えば、
そりゃ、日本語には「ひらがな」の他に「カタカナ」と「漢字」があるからですよね。

昔は「和文タイピスト」という専門の職業の方がいらしたほど、
日本語の入力って大変だったそうです。
文字盤に、カタカナや漢字を含めた全部の文字が並んでいて、
それを1字1字ひろって文章を作っていったそうな。
 


で、日本語入力ソフトウェアの登場によって、
誰でも自由に日本語を活字に出来るようになったわけですが、

「同音異義語」

「文節区切」

という問題が生じました。

「同音異義語」とは、「敵が逃走する」と「敵と闘争する」の「とうそう」を
いかにして訳し分けるかという問題です。
日本語には同音異義語が大量にありますものね。

「文節区切」の問題は、

「ここで履き物を脱いでください。」
「ここでは着物を脱いでください。」

をいかに見分けるかの問題です。
上記の例のように両方正しい場合もあるので、機会に判断させるのは難しそうです。


この複雑な思考をやってくれるソフトウェアを、グーグルは無料で提供してくれるわけですね。
そう考えると気前が良いと思います。

MicrosoftやJustsystemも、同じようなソフトウェアを開発していますが、
どちらも有償での提供です。
(Microsoftのヤツは追加投資しなくても使えますが、OSと抱き合わせ販売なので)


なぜ、グーグルは無償でこのソフトウェアを提供できるのか。
ホントの所はグーグルに聞いたわけでないので解りません。
ただ、傍目からも言える事は、

「グーグルの社員は、仕事時間の一定量を、自分の興味ある分野を追求するのに使っていい」

ってな感じの規定を、グーグルが持っているという事でしょうか。
その時間を使って開発したってわけですね。

また、従来のソフトより開発に必要な経費を抑えているのではないかと思います。
先述の通り、日本語入力ソフトウェアには、「同音異義語」や「文節区切」を
見分ける事が求められます。それをどうやって見分けるのかと言えば、
ソフトウェアに内蔵されている辞書が頼りです。

兵士が投降する。
生徒が登校する。
読者が投稿する。

↑の例を考えると、

「へいし」の後の「とうこう」「投降」の可能性が高い。
「せいと」の後の「とうこう」「登校」の可能性が高い。
「どくしゃ」の後の「とうこう」「投稿」の可能性が高い。

という法則が見えてくると思います。
これを一つ一つソフトに覚えさせていくわけです。
人海戦術でこういう事をやっていれば、コストは高くなりますよね。

グーグルは、インターネットに存在する日本語のページを調査し、
機械的にこの作業をやっているそうです。
おかげで、国語辞典には載っていないような、

・芸能人の名前。
・小説やマンガのタイトル。
・その他流行語。

…も、正しく変換する事が出来るそうな。

と、いうわけで、精度がどんなもんか調べてみました。

 

◆ 変換精度 ◆


とりあえずは、以前にやったテスト↓

 http://kobun.blog.shinobi.jp/Entry/20/

を、グーグル日本語入力にもやってみました。

 

■ 国境の長いトンネルを抜けると雪国であった
■ お昼休みはウキウキウォッチング
■ 車で箱を運ぶ。
■ 二千九年度の予算額が過去最大に
■ ある晴れた日のこと
■ 貴社の記者は汽車で帰社した。
■ 素敵なロマンスしたい
■ 魔女狩り推進しそう
■ 国は国民から収められた税金で収められる。
■ イナバウアー
■ 中居正広
■ 野比のび太
■ 毘盧遮那仏


すげぇー。ほとんどちゃんと変換できてる。
「魔女狩り推進しそう」は「魔女狩推進思想」って変換して欲しかったんですけど。
まぁ「魔女狩り推進しそう」でも間違いとは言えないかな。
「国は国民から収められた税金で収められる。」はちょっと残念だけれど、


税金を収める。
国を治める。
学を修める。

ってな感じで変換すればちゃんと変換されます。
そのへんは考えて作ってあるんだと思います。

ただ、自動で読みを登録しているせいか、いささか変な変換も見られます。

「あったか→秋田県」

なぜか、「あったか」と入力すると、「秋田県」と変換できます。
秋田県は暖かいんでしょうか?個人的には東北なので日本の中では寒い地域に入るかと…。
あ、そこに暮らしている人の心が温かいという事でしょうか?


「はこだてのおんな→函館の女」

…別に変じゃないんじゃない?と思った人、確かにそうなんですけど…。
「函館の女」ってのは北島三郎さんのヒット曲で、「はこだてのひと」と読みます。
グーグル日本語入力には、「函館の女」で1単語として登録されているんです。
でも、1単語として登録するなら、読みは「はこだてのひと」にした方が良かったんじゃないのかなぁ…。
自動的にウェブから調べ上げて作った辞書だと、
こういう読みを「正しく」登録するのは難しいかも知れません。
だって、北島さんのヒット曲がなければ「はこだてのおんな」で読みは合ってますもんね。

「れもん→???」
「れもん」を「檸檬」と変換したかったのに、なんと変換候補に出てきません。
意外に登録できてない単語もあるようです。
ちなみに、「どうも」と入力して変換すると、「檸檬」という候補が出てきました。
明らかに登録ミスです。
こういうミスは、人がチェックしなければ無くならないのかも知れません。
グーグルさんが今後、
こういう細かいチェックを出来る仕組みを作ってくれたらなーと勝手に思ってます。


「五十代の女性」「五十台の車」を正しく変換し分けることが出来るかな…
と思って試してみたら、

ご重大の車
ご重大の女性

となって、なんかそれ以前の問題でした。
ちょっと使ってみた感じだと、ATOKのほうが変換精度は高い気がします。


あと、使い分けに関するヒントを表示して欲しいなとも思ったりします。

ためしに、ATOKで「ついきゅう」を変換してみると

追求
「目的のものを手に入れようとして、追い求めること」「利潤を追求する」「理想を追求する」

追究
「物事の真相や問題点を深く調べて、明らかにしようとすること」
「真理を追究する」「学問的に追究する」


追及
「責めたり問いただすことによって、相手を追い詰めること」
「責任を追及する」「検事の追及をかわす」

のように、意味と例文が表示されます。
この機能によって、たとえ日本語変換ソフトが間違った変換を返しても、
人間が間違いを見つけやすくなります。
どっちの字を使うべきか迷った時に、こういう助けがあるとありがたいですね。

同じ機能は、MicrosoftIMEにも搭載されています。

しかし、残念ながら、グーグル日本語入力にはこの機能がありません。
この機能を実現するには、人間がいちいち単語の意味をデータベースにして、
それをソフトに辞書として内蔵しなければなりませんから、
グーグルお得意の、ウェブから集めてきた情報を元に自動構築…
ってな具合には行かなさそうです。
ただ、日本語を入力する際にはぜひとも欲しい機能なので、
今後に期待してます。

 

◆ 動作 ◆
まず、インターネットに上に接続しなくても使えるのが嬉しい。
家なら常時接続の環境があるけれど、出先で使いたいときはそうもいかない。
ネット環境を気にせついつでも使えるのが嬉しいです。

動作も全く重さを感じません。
ノートパソコン(CPUはCeleron Mの1.20 GHz)でもちゃんと動きました。

他のソフトウェア側との相性も問題ありませんでした。
メモ帳やマイクロソフトオフィス、一太郎などで試しましたが、問題なく使えます。


◆ 設定 ◆
私は普段ATOKを使っているので、ATOKの仕様に慣れちゃっているのですが、
そのATOKと同じキー操作で使えるのがなかなか便利。もちろんMicrosoft-IMEの
仕様にも合わせられます。…というか、それが標準設定で、ダウンロードした当初はその設定です。

 


◆ ちょっとコレってどうなのよ ◆
上記のように、普通に使えるグーグル日本語入力。

が。

特筆すべきは、良くも悪くも

サジェスト機能

でしょうね。

 

「よろし」しか打たなくても、
「よろしくお願いします」

を候補として表示してくれます。

他にも、

「きくはい→聞くは一時の恥聞かぬは一生の恥」
「けいこうとな→鶏口となるも牛後となるなかれ」

というようなことわざや、

「りおで→リオデジャネイロ」
「すりじゃ→スリジャヤワルダナプラコッテ」

というような地名も表示されます。

「きのさきに→城之崎にて」
「のぎくの→野菊の墓」

など、文学作品も行けます。

「せかいにひ→世界に一つだけの花」
「ついてるね→ツイてるねノッてるね」

のような、曲名とか、

「おさかなく→お魚くわえたどら猫」
「とってもだ→とってもだいすきドラえもん」

のような、有名な歌詞なんかもサジェストしてくれます。
某団体から著作権料を請求されそうです。

とまぁ、これが意外と便利。ATOKにはもともとあった機能ですが、ATOKは有料だし、
Social IMEにもある機能だけど、インターネット接続環境下でしか使えなかった。


…で、このサジェスト機能で表示される単語、
こまったことに、ときどき突っ込みたくなる単語だったりします。


記事が長くなったので、今日はここまで。
続きはまた今度書きますね。

PR

コメント(0) [コメントする]  

トラックバック() [トラックバックする]  


 

この記事にコメントする

個人情報は、必要な範囲内でご記入下さい。コメント本文以外は空欄でも構いません。
お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード   Vodafone絵文字 i-mode絵文字 Ezweb絵文字
コメントは承認制となっております。投稿後しばらくして表示されます。詳しくは利用規約を御覧下さい。
 

この記事にトラックバックする

  この記事へのトラックURL :
トラックバックは承認制となっております。投稿後しばらくして表示されます。詳しくは利用規約を御覧下さい。



◆ 情報早見表

◆ 来客数

◆ カレンダー
2024年03月 2024年04月 2024年05月
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

◆ カテゴリー

◆ RSS

◆ ブログ内検索

◆ 月別索引




利用規約   推奨環境   個人情報保護   お問い合わせ トップページへ   最上へ

制作:古文自動翻訳研究センター

忍者ブログ [PR]