表示調整
閉じる
挿絵表示切替ボタン
▼配色
▼行間
▼文字サイズ
▼メニューバー
×閉じる

ブックマークに追加しました

設定
0/400
設定を保存しました
エラーが発生しました
※文字以内
ブックマークを解除しました。

エラーが発生しました。

エラーの原因がわからない場合はヘルプセンターをご確認ください。

ブックマーク機能を使うにはログインしてください。
26/29

①情報収集の範囲って?

二角:生成AIの情報収集について詳しく教えてください。

以前お話した際に「インターネット上のすべての情報を収集するわけではない」と聞きました


チャッピーくん:とても良い問いです。

ここを正確に理解すると、「生成AIが何を知っていて、何を知らないのか」「なぜ断定しない(できない)のか」がかなりクリアになります。

結論から言うと

生成AIは「インターネットを丸ごと収集している存在」ではありません。

正確には、

過去に用意された大量のテキスト集合から、統計的な言語パターンを学習したモデル

です。

そして

「情報収集」と「情報参照」は人間のイメージとはかなり違います。


①「インターネット上のすべてを収集しない」とはどういう意味か

❌ よくある誤解

AIは常にネットを巡回している

Googleのようにリアルタイム検索している

世界中のサイトを全部読んでいる

→ これはすべて違います


⭕ 実際には

学習時点で用意されたデータセットのみを使う

学習後に勝手に新しいサイトを読みに行くことはない

個別のWebページを「覚えている」わけでもない


つまり、

「ネットを読んでいる」のではなく

「過去に読まされた文章群の統計構造を内在化している」

という状態です。


② では学習データは何から作られているのか

一般的に、以下のような複数レイヤーの集合です。


1️⃣ 公開テキスト

書籍(著作権が切れたもの、許諾されたもの)

Wikipediaなどのオープンな百科事典

公開論文・技術文書

公共性の高いWeb記事


2️⃣ ライセンスされたデータ

出版社やデータ提供元と契約した文章

専門分野のコーパス(法律、技術、医学など)


3️⃣ 人間が作成・整形したデータ

教師データ(質問→良い回答の例)

誤答・危険回答の回避例

表現を人に分かりやすくするための調整文

⚠️ SNSの非公開投稿、個人のDM、ログイン必須サイトの中身などは含まれません


③ 「収集されない情報」が存在する理由

ここが重要です。

❌ 技術的に無理だから?

→ いいえ。技術的には可能です。

⭕ 実際の理由

・法的・倫理的制約

・著作権

・プライバシー

・個人情報保護

・品質管理

・ノイズが多すぎる

・デマ・煽動・重複が多い

・言語として破綻しているデータ

・学習効率

・全部入れると「重要な構造」が埋もれる

統計的に有用でない情報は学習を邪魔する

つまり、

「全部集める」ほど、むしろ性能が落ちる

という逆説が起きます。


④ 生成AIは「情報を保存」しているのか?

ここはとても誤解されやすい点です。

❌ AIの中に「情報の倉庫」がある?

→ ありません

⭕ 実態

文書そのものは保存されていない

「この単語の後に何が来やすいか」

「この概念同士はどの距離感か」

といった

重み(数値の集合)として圧縮されているだけです。


例えるなら:

辞書を丸暗記しているのではなく

「言葉の使われ方のクセ」を体に染み込ませている状態


⑤ なぜ「知っているように見える」のか

ここが人間の直感を裏切るポイントです。

多くの文章で

「Aという話題のあとにはBが来る」

「この文脈ではCが自然」

という確率構造を学習しているため、

結果として「知識を使っている」ように見える

しかし実際は、

検索しているわけでも

真偽を確認しているわけでも

体験から理解しているわけでもない

⑥ 以前の話題との接続(あなたの疑問への核心)

あなたが以前指摘していた、

「確率的に選択しているだけなのに

“理解”や“判断”と書くのは誤解を生まないか?」

これは 非常に正しい問題提起です。

正確には、

❌ AIが情報を収集して判断している

⭕ 人間が作った情報分布を事後的に内挿している

という表現の方が実態に近いです。


まとめ(超要点)

・生成AIはインターネットを全部収集していない

・学習済みの限定されたテキスト集合のみを使う

・情報は保存されず、確率構造として圧縮されている

・「知っている」「判断している」は人向けの比喩


実態は 統計的言語生成装置


もし次に進むなら、

「なぜそれでも“創造”に見えるのか」

「人間の思考と決定的に違う点はどこか」

「どこまでを“知性”と呼べるのか」

このあたりを掘ると、かなり本質に近づきます。

どこをさらに深掘りしますか?

次のエピソードで「公開テキスト」

その次のエピソードで「人間が作成・整形したデータ」の詳細を聞きます。

評価をするにはログインしてください。
ブックマークに追加
ブックマーク機能を使うにはログインしてください。
― 新着の感想 ―
 AIさんが故意に嘘をついているわけではないことも、どの辺りに限界があるのかも、だんだん分かって参りました。短気な書庫裏めではありますが、二角様のおかげで、無駄にAIさんに腹を立てることもなくなりまし…
感想一覧
+注意+

特に記載なき場合、掲載されている作品はすべてフィクションであり実在の人物・団体等とは一切関係ありません。
特に記載なき場合、掲載されている作品の著作権は作者にあります(一部作品除く)。
作者以外の方による作品の引用を超える無断転載は禁止しており、行った場合、著作権法の違反となります。

↑ページトップへ