机と椅子
意味の面倒くささの話です。物語の生成にも理解にも関係します。
まぁ、適当な机と椅子があったとします。
さて、この状況の場合、普通だと「椅子に座って、机に向かって、机の上に手を置いたり何かしたり」という様子を思い描くと思います。「適当な机と椅子があったとします」という条件だけで。
では問題。あなたは机に座ったりすることはありませんか? あるいは、床に膝を着いたり、あるいは腰を下したりして、椅子の上で作業したりしませんか? そういうことは絶対しないという人もいないとは言えませんが、絶対にしないと言う人はまずいないだろうと思います。
だとしたら、そのように使っている時、机はいったい何なのでしょうか? 椅子はいったい何なのでしょうか? あるいは、机というものをどのようにとらえているから、そのようにも使うのでしょうか? 椅子というものをどのようにとらえているから、そのようにも使うのでしょうか?
これは、単語の意味というものがいったい何なのかという話なのです。
大昔の話。机には足が四本あって、上から見ると四角をしていてというように定義して与えてやる例がありました。まぁ、これは面倒ですけど、それでも範囲を絞ればできないでもありません。ところが、じゃぁ、それが何なのか、この場合だととくに、それで何が出来るのかがわからない。そこがわからないので、机とかいう言葉を使うにしてもどうしたもんだかさっぱりだったりしました。もちろん、形の多様性は問題でしたが、単純な話にするとそんな感じ。
そこで、それに加えて、その上でノートに何かを書いたりするためのものとかなんとかと定義するという方法がありました。
よし、これで、「だいたいこういう形である」というのと、「それで何ができるのか/それを何に使うのか」が与えられたと、一旦は考えました。もちろん、それを全部に与えるのは結構無理めの話なのですが、まぁ理屈としては。
しかし、そこで問題が起きます。つまり、「机に腰掛けたりするよ」という例がいくらでもあるのです。机とはその上で何か作業するものとすると、腰掛けるとかを生成できないし、受理や理解でもコケるわけです。
何かがあったとき、それが名詞だろうと動詞だろうと何だろうと、ではそれはいったい何なのか?
シソーラスとかその手のものが英語には当然ありますし、日本語にも一応できました。あるいはそれと似た感じで、計算機が読める形式のものも。でも、意味っぽいものをきっちり書いてやろうとするのは、どうもそのあたりが限界かなと思います。エッセイ1のころからかな? まぁ以前から書いてますが、そういうシソーラスとかも用いて、あとは単語の並びとかなんとかの例を大量に学習する。そっち方面に、物語の生成も、受理や理解も一回流れないとだめかなと思います。なお、先日、青空文庫に收められているものの形態素解析をしたデータが公開されたそうです。その手の基本コーパスとして使われていくと思います。
ですが、正直に言うと、その段階では実は足りなくて、文や文章と、それに対応する映像および音声のセットから、その時々のものの組合せとか、前後でのものの組合せとかまで含めて学習してやらないといけないんじゃないかと思ってます。現状、データを揃えるのが無理めな話ではあるのですが。
「机」という文字を計算機が見たときに、机の前後とかにどういう文字が来るかを学習するのと、映像および音声も込みで学習してモデルに收められているのとでは、性能が質的に違うだろうと思います。例えばの話、ある文章を計算機が読んでいて、そのとき計算機の脳裏に何が浮かんでいるかとか、そこまでやらないと難しいのかもしれないと考えています。
まぁ、まだその前の段階で、どこまでやれるかを試してみる必要があるわけですが。




