ChatGPT PlusのWebブラウジングが一時停止に 有料記事を読めてしまうとの報告を受け
コメント
注目のコメント
アクセス権限問題は文書検索の鬼門ですね。よほど上手く設計しないとすり抜けてしまいます。全文が読めるのは論外ですが、前半無料後半有料の記事を要約した際に、後半の内容が紛れ込むこともありそうです。
何故ペイウォールで守られている有料記事をスクレイピング出来たのかですが、ニュースサイト等ではGoogleBot等に限定してペイウォールを無効にしてクローリングを許可する事はわりと一般的です。Google等の検索でニュース記事がヒットするも実際にアクセスしてみたらペイウォールというパターンですね。
例えばBingだとMicrosoftはクローラーに用いるIPアドレスの一覧を公開していて、それに含まれるアドレスからのアクセスはBingのクローラーだと信用して有料コンテンツへのアクセスを許可する、みたいな運用になります。ちょうど作業でWebブラウジングを使おうとして、あれなくなってるぞ!と思ったら、こういうことだったんですね。たしかに当初から複数のメディアの有料記事が読める状況になっていましたね。