日記: 明らかにコンテンツ収集のクローラーが増えた

2026/04/27

明らかにコンテンツ収集のクローラーが増えた

最近、サーバー負荷高くないですか？

同一アクセス元からの、アクセス頻度制限回避のためか、

同一IPアドレスからなのに、毎回User-Agentがバラバラのアクセス
アクセス元がバラバラ。でも/16レベルで特定のデータセンターから散らしてアクセス
サービス対象じゃない国からの大量のアクセス
人間が巡回してたら、絶対に開かないようなURI（歴史的経緯で残っているがもっとUXのいいアドレスがある）への継続的なアクセス

などなど。
もう、LLM用のデータ収集だろ？という感じがあるのですが、まだ大手はちゃんとUser-Agentを名乗って、自社データセンターからアクセスしてくれるので良心的です。
（meta-externalagent、お前はちょっとやり過ぎ。）

サーバー側でアクセス解析とかしていると、人間じゃないアクセスが大量になって、統計が狂うんですよね。
あと、あまりにも無限のサーバーリソースがあると思ってるのか、大量の負荷を一気に掛けてきたりします。
なぜこちらがバースト費用払って、お前のデータ収集に付き合ってやらなければならないのか。
過去に検索エンジンのクローラーの行儀が悪いと話題になってブロックされまくったサービスがある事とかも知らなさそうです。
AWSのWAFとか、Cloudflareとか噛まして、チャレンジ（ページを開いたときにロボットによるアクセスか確認されるあれ）を設定していても、もう当然のように通過してきます。
ほかに、アクセスを見ていると、どうもbotネット構築しているよね？という感じで日本国内からのでも同様のアクセス（データセンターじゃなくて、普通のプロバイダ経由）があったりします。

結局サービス対象じゃない国・地域からブロックしたり、AS番号単位でブロックしたり、ハニーポットURIを用意して掛かったアドレスを個別にBANとかしているのですが、なんか不毛だなぁと。

スクリプト類とメニューボタン

2026/04/27

明らかにコンテンツ収集のクローラーが増えた

0 件のコメント:

コメントを投稿

広告