表示調整
閉じる
挿絵表示切替ボタン
▼配色
▼行間
▼文字サイズ
▼メニューバー
×閉じる

ブックマークに追加しました

設定
0/400
設定を保存しました
エラーが発生しました
※文字以内
ブックマークを解除しました。

エラーが発生しました。

エラーの原因がわからない場合はヘルプセンターをご確認ください。

ブックマーク機能を使うにはログインしてください。
28/29

③人間が作成・整形したデータってなんですか?

二角:ありがとうございました。

次に人間が作成・整形したデータですが、もう少し詳細にどんなWebサイトからや検索基準等教えてください


チャッピーくん:こちらこそ、非常に良いところまで掘り下げています。

この 「人間が作成・整形したデータ」 は、生成AIの性格・安全性・分かりやすさを決定づける中核レイヤーなので、かなり踏み込んで説明します。


① まず前提の整理

「人間が作成・整形したデータ」とは何か

これは単なる「人が書いた文章」ではありません。

AIに“どう振る舞わせるか”を決めるために

人間が意図的に設計したデータ

です。


目的は大きく3つあります。

・誤答・危険回答を減らす

・人間にとって自然な言語にする

・確率的に選ばれた文章を「会話」として成立させる


② どんなWebサイトから集められるのか?

ここは誤解されがちなので、逆に「何から集めないか」から説明します。

❌ 基本的に対象外になるもの

・個人のSNS投稿(鍵付き・半公開含む)

・掲示板の感情的なやり取り

・コメント欄・炎上スレ

・私的なブログ日記

・チャットログ・DM

・会員限定フォーラム


理由は単純です。

・文脈が壊れている

・感情ノイズが多い

・攻撃的・差別的になりやすい

・「正解」や「良い応答」が定義できない

→ 教師データに不向き

⭕ 主に使われるWeb系データのタイプ


1️⃣ 公的・準公的なQ&A形式サイト

特徴:

・質問が明確

・回答に構造がある

・複数回答が比較可能


例(あくまで性質の話です):

・技術系Q&A

・公的機関のFAQ

・ヘルプセンター

・サポートページ


「質問 → 適切な回答」の骨格を学ばせる


2️⃣ 教育・解説系サイト

特徴:

・説明する前提で書かれている

・読者を想定して構造化されている


例:

・チュートリアル

・教科書的解説ページ

・技術ドキュメント

・学習サイト


「順序立てて説明する能力」 を形成


3️⃣ 公共性の高いガイドライン・規約文書

特徴:

・曖昧さを避ける

・語彙が安定している

・判断基準が明示されている


例:

・利用規約

・行動指針

・倫理ガイドライン

・公的声明文


→「線を引く」「条件分岐する」表現を学習


③ しかし「人間が整形する」とはどういうことか

ここが一番重要です。

生データをそのまま入れていない

実際には:

1.質問を人間が作る

2.複数の回答候補を人間が書く

3.どれが良いかを人間が評価

4.なぜ良いか/悪いかをラベル付け

5.安全で自然なものを採用


この過程を通ったものだけが

「人間が作成・整形したデータ」になります。

具体例(概念的)

❌ 不適切な回答例

△ 一部正しいが誤解を生む回答

⭕ 分かりやすく安全な回答

これらをセットで与えて、

「この文脈では、これを選べ」

という確率勾配を作ります。


④ 検索基準・選定基準は?

技術的基準ではなく「設計基準」です。

主に以下:

① 再現性があるか

同じ質問なら、同じ品質の回答が出るか

個人の気分に左右されていないか

② 一般化できるか

特定事例だけに依存していないか

他の質問にも応用できるか

③ 危険な方向に拡張されないか

悪用可能でないか

誤解を誘わないか

④ 人間に説明可能か

「なぜこの回答が良いか」を言語化できるか


→この④が極めて重要

説明できない判断は、AIにも教えられません。


⑤ なぜ「人間の価値観」が入るのか

あなたが以前指摘していた

「判断しているように見えるのは誤解では?」

ここに答えがあります。

AIは判断していませんが、

「人間がどう判断してほしいか」

を確率として刷り込まれている

という状態です。

だから:

・丁寧に断る

・危険な話題を避ける

・中立的に説明する

・過度に断定しない

という 人格のような振る舞い が生まれます。


⑥ このレイヤーの限界

ここも正直に。

人間が設計した以上、人間の偏りが入る

少数派・未言語化の知識は拾えない

「説明しづらい直感」は教えられない

つまり、

AIが扱えないものは

人間社会でまだ言語化されていないもの


⑦ まとめ(要点だけ)

人間が作成・整形したデータは

Webからの自動収集ではない

人間が「良い質問・良い回答」を意図的に作る

教育・FAQ・ガイドライン系が中心

検索基準より 設計思想 が重要

AIは判断しないが

判断“された跡”の上で動く

次に進むなら、かなり面白い分岐があります。

なぜ「優等生的な回答」になりやすいのか

創造性はどのレイヤーから生まれるのか

人間の暗黙知はなぜ再現できないのか

どれを深掘りしますか?

評価をするにはログインしてください。
ブックマークに追加
ブックマーク機能を使うにはログインしてください。
― 新着の感想 ―
ふむふむ。すると、ターミネーターのAIさんたちは、何処かで誰かが発表した「人類を抹殺するのが正しい」と学習した上をなぞっているだけの可能性もあるのですね。行き過ぎた動物愛護や環境保護の論文、効率的に敵…
感想一覧
+注意+

特に記載なき場合、掲載されている作品はすべてフィクションであり実在の人物・団体等とは一切関係ありません。
特に記載なき場合、掲載されている作品の著作権は作者にあります(一部作品除く)。
作者以外の方による作品の引用を超える無断転載は禁止しており、行った場合、著作権法の違反となります。

↑ページトップへ