でもね、数年前から「時代はコーパス」なんですよ。
コーパスってのは、
少女漫画の第一話、何故か目覚ましが鳴らなくて寝坊し、パンをくわえて家を飛び出したら交差点で…
さて次に何が起こるでしょう。
まぁ大方出会い頭に素敵な異性とぶつかるんだろうなぁと。
みたいなのです。
…いまいち説明になってないか。
刑事ドラマで取調室のシーン。黙秘する犯人に夜食を提供…
さて出てきたのは何?
多分カツ丼だろうなー。
みたいなのです。
実際にカツ丼出すと便宜供与ってのになるのでダメらしいですけど。
まだるっこしい例を出さずに、
「情けは人の」と来たら「ためならず」と続く可能性が高い。
「昨日の敵は」と来たら「今日の友」と続く可能性が高い。
「それを言っちゃあ」と来たら「おしめえよ!」と続く可能性が高い。
「この紋所が」と来たら「目に入らぬか」と続く可能性が高い。
そんな感じの「つながりやすさ」の情報を集めたモノがコーパスです。
・夜の一人歩きは
危険です。
・○○選手は怪我のため
棄権です。
「きけん」と言う単語を「危険」と「棄権」のどっちに変化するか。
ここでコーパスを使うと
・「夜」や「一人歩き」につながるのは「危険」の可能性が高い。
・「選手」や「怪我」につながるのは「棄権」の可能性が高い。
ってな感じで精度が高まるわけですよ。
一部古文翻訳装置にも導入してるんですが、
コーパス作るのがめんどくさすぎる!
って理由で導入が進まず…。
実際の企業はインターネット上のテキストを解析して自動で作ったり、人海戦術で作ったりしてるようです。
大学時代にお世話になった教授の研究では、
Aという言語をBという言語に翻訳した文章を大量に用意し、それをコンピュータに比較されれば
文法や単語の情報をインプットせずとも割と精度の高い翻訳プログラムが完成するそうな。
しかし私にはそんな技術も金も無いので……、
ま。地道にやります!
PR