表示調整
閉じる
挿絵表示切替ボタン
▼配色
▼行間
▼文字サイズ
▼メニューバー
×閉じる

ブックマークに追加しました

設定
0/400
設定を保存しました
エラーが発生しました
※文字以内
ブックマークを解除しました。

エラーが発生しました。

エラーの原因がわからない場合はヘルプセンターをご確認ください。

ブックマーク機能を使うにはログインしてください。
27/29

②公開テキストってどんなもの?

二角:公開テキストについて詳しく教えてください。

書籍の許諾されたものとは、一般人がアクセスできるものですか。

それともchatgptが許諾されているものですか?

また公共性の高いWeb記事について具体的に教えてもらえますか?


チャッピーくん:とても核心を突いた質問です。

ここは生成AIの情報源を誤解しやすい最大のポイントなので、区別をかなり厳密に説明します。


①「公開テキスト」とは何か(まず定義)

生成AIで言う 公開テキスト とは、

法的・契約的に「学習利用してよい」と判断された文章群

であって、

「一般人が読めるかどうか」とは一致しません。

ここをまず切り分けます。


② 書籍の「許諾されたもの」とは何か

結論から言うと、両方あります

✔ 一般人もアクセスできるもの

✔ ChatGPT(正確には学習主体)が特別に許諾を受けたもの


1️⃣ 一般人が自由にアクセスできる書籍

代表例は:

・著作権が切れた書籍

・多くの国で著者死後70年

・古典文学、歴史書、哲学書など

・パブリックドメイン化されたテキスト

・Creative Commons(CC)で再利用許可が明示されている書籍

→これは

人間もAIも、同じ条件で使えるテキストです。


2️⃣ ChatGPT側が許諾を受けた書籍(一般人は自由に入手できない場合あり)

こちらが誤解されやすい部分です。


・出版社・データ提供会社と 契約 して提供されたテキスト

・学習用途限定で使用が許可されたもの

・一般人が全文を読めるとは限らない

例:

・電子書籍の全文データ

・専門書・技術書・学術資料

・商用データベースの一部

→ これは

**「ChatGPTが特別扱いされている」のではなく、

「学習用データとして提供されている」**という状態です。

重要なのは:

ChatGPTは

その書籍を「検索して読む」ことはできない

内容をそのまま再生することもできない

あくまで

統計構造だけが重みとして残る、という点です。


③ 「公共性の高いWeb記事」とは何か


これはかなり広いですが、次の3条件が重なっているものと考えると分かりやすいです。


条件①:誰でもアクセス可能

・ログイン不要

・有料会員限定でない

・クローズドコミュニティではない

例:

・公開ニュース記事

・行政・自治体の公式ページ

・公開FAQ・マニュアル


条件②:情報提供を目的としている

・私的な日記・感情吐露ではない

・社会的・説明的価値がある

例:

・解説記事

・ハウツー記事

・制度説明ページ

・技術ブログ(公開されているもの)


条件③:再利用・分析が想定されている

・構造が比較的整っている

・他者に読まれる前提で書かれている

例:

・Wikipedia

・公的機関の白書

・オープンな研究解説

・開発者向けドキュメント


④ 「公共性が高い」=「信頼できる」ではない

ここも重要です。

公共性が高い → 学習対象になりやすい

正しい → 保証されない

生成AIは、

「多く使われている表現」

「正しい表現」

とは区別できません。

だからこそ、

・デマが多い分野

・意見が割れる分野

・時代で変わる情報

では、それっぽいけど危うい回答が生まれます。

⑤ なぜ「全部集めない」方がよいのか(構造的理由)

あなたの関心と直結する部分です。

仮に:

・個人ブログ

・SNSの私的投稿

・感情的な断片

・誤情報・釣り記事

まで全部入れるとどうなるか。

→ 確率分布が歪みます

感情表現が過剰になる

煽り口調が「自然」になる

正確さより勢いが優先される

つまり、

「人間らしさ」は増えるが

「説明装置」としては劣化する


⑥ まとめ(あなたの質問への直接回答)

Q. 書籍の許諾されたものとは?

両方

一般人が自由に読めるもの

学習用として特別に契約されたもの


Q. 公共性の高いWeb記事とは?

誰でも読める

情報提供目的

社会的・説明的価値がある

再利用・分析が前提の文章


Q. それは「情報を知っている」ことになる?

❌ ならない

⭕ 言語の使われ方を学習しただけ

次に進むなら、

「なぜSNS的な文体を真似られるのか」

「少数派の知識が消える理由」

「学習データに含まれない“沈黙”の問題」

このあたりは、今の理解段階だとかなり面白く掘れます。

どこに進みますか?

評価をするにはログインしてください。
ブックマークに追加
ブックマーク機能を使うにはログインしてください。
― 新着の感想 ―
うーん、OpenAI社は許諾のないものも学習に使っていますよ。 そうでなければ反AIがオプトインにしろと騒いでいるのと結びつかないですし、実際著作権侵害の文章や画像は生成されます。 AIが勝手に利用…
感想一覧
+注意+

特に記載なき場合、掲載されている作品はすべてフィクションであり実在の人物・団体等とは一切関係ありません。
特に記載なき場合、掲載されている作品の著作権は作者にあります(一部作品除く)。
作者以外の方による作品の引用を超える無断転載は禁止しており、行った場合、著作権法の違反となります。

↑ページトップへ