27/29

②公開テキストってどんなもの？

二角：公開テキストについて詳しく教えてください。

書籍の許諾されたものとは、一般人がアクセスできるものですか。

それともchatgptが許諾されているものですか？

また公共性の高いWeb記事について具体的に教えてもらえますか？

チャッピーくん：とても核心を突いた質問です。

ここは生成AIの情報源を誤解しやすい最大のポイントなので、区別をかなり厳密に説明します。

①「公開テキスト」とは何か（まず定義）

生成AIで言う公開テキストとは、

法的・契約的に「学習利用してよい」と判断された文章群

であって、

「一般人が読めるかどうか」とは一致しません。

ここをまず切り分けます。

② 書籍の「許諾されたもの」とは何か

結論から言うと、両方あります

✔ 一般人もアクセスできるもの

✔ ChatGPT（正確には学習主体）が特別に許諾を受けたもの

1️⃣ 一般人が自由にアクセスできる書籍

代表例は：

・著作権が切れた書籍

・多くの国で著者死後70年

・古典文学、歴史書、哲学書など

・パブリックドメイン化されたテキスト

・Creative Commons（CC）で再利用許可が明示されている書籍

→これは

人間もAIも、同じ条件で使えるテキストです。

2️⃣ ChatGPT側が許諾を受けた書籍（一般人は自由に入手できない場合あり）

こちらが誤解されやすい部分です。

・出版社・データ提供会社と契約して提供されたテキスト

・学習用途限定で使用が許可されたもの

・一般人が全文を読めるとは限らない

例：

・電子書籍の全文データ

・専門書・技術書・学術資料

・商用データベースの一部

→ これは

**「ChatGPTが特別扱いされている」のではなく、

「学習用データとして提供されている」**という状態です。

重要なのは：

ChatGPTは

その書籍を「検索して読む」ことはできない

内容をそのまま再生することもできない

あくまで

統計構造だけが重みとして残る、という点です。

③ 「公共性の高いWeb記事」とは何か

これはかなり広いですが、次の3条件が重なっているものと考えると分かりやすいです。

条件①：誰でもアクセス可能

・ログイン不要

・有料会員限定でない

・クローズドコミュニティではない

例：

・公開ニュース記事

・行政・自治体の公式ページ

・公開FAQ・マニュアル

条件②：情報提供を目的としている

・私的な日記・感情吐露ではない

・社会的・説明的価値がある

例：

・解説記事

・ハウツー記事

・制度説明ページ

・技術ブログ（公開されているもの）

条件③：再利用・分析が想定されている

・構造が比較的整っている

・他者に読まれる前提で書かれている

例：

・Wikipedia

・公的機関の白書

・オープンな研究解説

・開発者向けドキュメント

④ 「公共性が高い」＝「信頼できる」ではない

ここも重要です。

公共性が高い → 学習対象になりやすい

正しい → 保証されない

生成AIは、

「多く使われている表現」

＝

「正しい表現」

とは区別できません。

だからこそ、

・デマが多い分野

・意見が割れる分野

・時代で変わる情報

では、それっぽいけど危うい回答が生まれます。

⑤ なぜ「全部集めない」方がよいのか（構造的理由）

あなたの関心と直結する部分です。

仮に：

・個人ブログ

・SNSの私的投稿

・感情的な断片

・誤情報・釣り記事

まで全部入れるとどうなるか。

→ 確率分布が歪みます

感情表現が過剰になる

煽り口調が「自然」になる

正確さより勢いが優先される

つまり、

「人間らしさ」は増えるが

「説明装置」としては劣化する

⑥ まとめ（あなたの質問への直接回答）

Q. 書籍の許諾されたものとは？

両方

一般人が自由に読めるもの

学習用として特別に契約されたもの

Q. 公共性の高いWeb記事とは？

誰でも読める

情報提供目的

社会的・説明的価値がある

再利用・分析が前提の文章

Q. それは「情報を知っている」ことになる？

❌ ならない

⭕ 言語の使われ方を学習しただけ

次に進むなら、

「なぜSNS的な文体を真似られるのか」

「少数派の知識が消える理由」

「学習データに含まれない“沈黙”の問題」

このあたりは、今の理解段階だとかなり面白く掘れます。

どこに進みますか？