忍者ブログ
古文自動翻訳研究センター 中学・高校の古文学習をパソコンにサポートさせようと試みるページ
サイト内検索  サイトマップ   文字サイズ変更方法
トップページ開発者ブログ >時代は完全にコーパス!なんですが…
最終更新日 2016年12月31日 


◆ 時代は完全にコーパス!なんですが…

 
時代は完全にコーパス!なんですが… 2011年07月25日(月) 22時43分  

古文を翻訳するにあたって、

「いとをかし」



「いと/をかし」

みたいな感じで分ける必要があるわけです。
それをどうやって分けるかというと、古文翻訳装置は

とりあえず辞書引いてみて一番長い単語

を選んでます。

1.い
2.いと
3.いとを

…みたいに順番に辞書を引いていって、
「いと」は辞書にあるけど「いとを」は辞書にない。
んじゃ「いと」までが一語でいっかー。
ってな判断をしています。






でもね、数年前から「時代はコーパス」なんですよ。

コーパスってのは、

少女漫画の第一話、何故か目覚ましが鳴らなくて寝坊し、パンをくわえて家を飛び出したら交差点で…

さて次に何が起こるでしょう。

まぁ大方出会い頭に素敵な異性とぶつかるんだろうなぁと。

みたいなのです。

…いまいち説明になってないか。

刑事ドラマで取調室のシーン。黙秘する犯人に夜食を提供…

さて出てきたのは何?

多分カツ丼だろうなー。

みたいなのです。
実際にカツ丼出すと便宜供与ってのになるのでダメらしいですけど。

まだるっこしい例を出さずに、

「情けは人の」と来たら「ためならず」と続く可能性が高い。
「昨日の敵は」と来たら「今日の友」と続く可能性が高い。
「それを言っちゃあ」と来たら「おしめえよ!」と続く可能性が高い。
「この紋所が」と来たら「目に入らぬか」と続く可能性が高い。

そんな感じの「つながりやすさ」の情報を集めたモノがコーパスです。

・夜の一人歩きは危険です。
・○○選手は怪我のため棄権です。

「きけん」と言う単語を「危険」と「棄権」のどっちに変化するか。
ここでコーパスを使うと

・「夜」や「一人歩き」につながるのは「危険」の可能性が高い。
・「選手」や「怪我」につながるのは「棄権」の可能性が高い。

ってな感じで精度が高まるわけですよ。

一部古文翻訳装置にも導入してるんですが、

コーパス作るのがめんどくさすぎる!

って理由で導入が進まず…。

実際の企業はインターネット上のテキストを解析して自動で作ったり、人海戦術で作ったりしてるようです。

大学時代にお世話になった教授の研究では、
Aという言語をBという言語に翻訳した文章を大量に用意し、それをコンピュータに比較されれば
文法や単語の情報をインプットせずとも割と精度の高い翻訳プログラムが完成するそうな。

しかし私にはそんな技術も金も無いので……、
ま。地道にやります!

PR

コメント(0) [コメントする]  

トラックバック(0) [トラックバックする]  


 

この記事にコメントする

個人情報は、必要な範囲内でご記入下さい。コメント本文以外は空欄でも構いません。
お名前
タイトル
文字色
メールアドレス
URL
コメント
パスワード   Vodafone絵文字 i-mode絵文字 Ezweb絵文字
コメントは承認制となっております。投稿後しばらくして表示されます。詳しくは利用規約を御覧下さい。
 

この記事にトラックバックする

  この記事へのトラックURL :
トラックバックは承認制となっております。投稿後しばらくして表示されます。詳しくは利用規約を御覧下さい。



◆ 情報早見表

◆ 来客数

◆ カレンダー
2016年12月 2017年01月 2017年02月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

◆ カテゴリー

◆ RSS

◆ ブログ内検索

◆ 月別索引



◆ 最新コメント

◆ 広告


利用規約   推奨環境   個人情報保護   お問い合わせ トップページへ   最上へ

制作:古文自動翻訳研究センター

忍者ブログ [PR]