使える情報は何でも使う
前稿で「使える情報は何でも使う」と書いておきました。声や言葉を工学的に扱う場合、結構そのあたりが無節操だったりします。
まぁ無節操までいかないところをちょい紹介します。
日本語の場合、「〜ですか」という文字列を見た場合、「何となく納得」とか「確認」とか「疑問」とかのどれなのかわからないわけです。疑問だったら「〜ですか」の「か」の声が高くなったりして、疑問であることを示します。
「それは日本語の特殊事情で」と思われる方もいるかもしれません。「英語だったら、たとえば "Is this" とかになるじゃん」とかですね。英語の話は勝手にやっといてください。スペイン語とかでも、声の高さの変化で平叙文か疑問文かを示したりします。疑問詞を使わない疑問文の場合ですけど。
あるいは中国語は四声という声の高さの変化で、どの単語なのかを示したりします。まぁこれは前後の並びでややこしかったりもしますけど。
で、声を工学的に扱う場合、周波数分析をします。周波数分析をすると、声の高さの情報は消えるとまではいかなくても、かなり失なわれます。まぁだからこそ「あ」なら「あ」として扱いやすくなったりもするわけですけど。
でも、その分、声の高さについてはわかりにくくなったりします。マイクには入ってるのに。
なので、いわゆる周波数分析とは別に声の高さも計算して、使ったりもします。
あ、声の高さですが、これもまた実は面倒だったりします。というのも基本周波数とピッチってのがあるのです。基本周波数は、声帯が開閉する周期によるもので時間による物理量です。「声帯が開閉する」と書きましたが、ここが重要です。たとえば「さ」とか「す」とかの/s/の音を考えてみてください。声帯は開閉していないはずです。ですが、ある高さを感じると思います。基本周波数は存在しないのに、高さを感じているわけです。まぁ基本周波数の有無はともかく、高さの感覚という心理量がピッチです。一応、物理量と心理量なので、同じではありません。てか心理量にHzとかそのまま使えないし。
あるいは対話をする場合、対話文法というようなものを構築してやる場合もあります。対話はこういう流れで進むっぽいなんてのを記述したり、確率を求めたりしといてやるわけです。これを汎用的なものとして書くのは、たぶんかなり難しいと思います。でも状況設定をしてやればできないこともない。
その他にも「使える情報は何でも使う」という精神はいろいろ発揮されてます。表情、ジェスチャ、うなずきとか、「使える情報は何でも使う」という精神で、音声とか言葉を工学的に扱うにもかかわらず、画像も「使えるんだから使おう」というものがあります。マルチ・モーダルとかいろいろ。
人間が対面で話す場合にも、文字にできる言葉によって伝わる情報や信号は案外少ないとか言われますが。それについては実際にどうなのかはわかりません。でも、文字にできるもの以外の情報や信号が存在していて、使っているのも間違いありません。
さて、そういう感じに声や言葉を扱っている人って、ある意味恐い存在です。意識していなくても計算機に扱わせるために、いろいろな信号の組み合せを読み解く技能を持ってしまっていたりします。
声や言葉と表情にズレがあったりすると、「何かひっかかる」ってのを意識して見ることができたりします。そのズレがどういう意味なのかもわかったりとか。ズレがないならないで、それがどういう意味なのかもわかったりとか。恐いですねー。
こういう話を書くと、「それって特殊な場合でしょ」と思われるかもしれません。
まぁ、そうかもしれませんけど。
「マガーク効果」っのがあったりします。これについては検索してみてください。ともかく声や言葉を扱う人にとって、視覚と聴覚の相互作用(?)みたいなのは常識と言っていいと思います。
あるいは、いろいろな対話文法を持っていたり。
あるいは、「こういう言い方をしたら、聞いてる人は気になるかも」というのを意識的に言ったりとか。聞いてる人が気になった様子があるかどうかを表情とか対話文法から推測できたりとか。
そういうのを意識的に使って、相手を信用できるかどうかを確認したりとか。ある種の人にとっては天敵みたいなものかもしれません。話していて信用できるかどうかを能動的に試したりできるみたいですから。あらためて恐いですねー。
えと、持っていけたというわけでもないですけど、対話文法の話が出たので、次回はそっち方面を予定してみたいと思います。




