スクリプト類とメニューボタン

トップ ソフト 雑記 日記 リンク

2026/04/27

明らかにコンテンツ収集のクローラーが増えた

最近、サーバー負荷高くないですか?

同一アクセス元からの、アクセス頻度制限回避のためか、
  • 同一IPアドレスからなのに、毎回User-Agentがバラバラのアクセス
  • アクセス元がバラバラ。でも/16レベルで特定のデータセンターから散らしてアクセス
  • サービス対象じゃない国からの大量のアクセス
  • 人間が巡回してたら、絶対に開かないようなURI(歴史的経緯で残っているがもっとUXのいいアドレスがある)への継続的なアクセス
などなど。
もう、LLM用のデータ収集だろ?という感じがあるのですが、まだ大手はちゃんとUser-Agentを名乗って、自社データセンターからアクセスしてくれるので良心的です。
(meta-externalagent、お前はちょっとやり過ぎ。)

サーバー側でアクセス解析とかしていると、人間じゃないアクセスが大量になって、統計が狂うんですよね。
あと、あまりにも無限のサーバーリソースがあると思ってるのか、大量の負荷を一気に掛けてきたりします。
なぜこちらがバースト費用払って、お前のデータ収集に付き合ってやらなければならないのか。
過去に検索エンジンのクローラーの行儀が悪いと話題になってブロックされまくったサービスがある事とかも知らなさそうです。
AWSのWAFとか、Cloudflareとか噛まして、チャレンジ(ページを開いたときにロボットによるアクセスか確認されるあれ)を設定していても、もう当然のように通過してきます。
ほかに、アクセスを見ていると、どうもbotネット構築しているよね?という感じで日本国内からのでも同様のアクセス(データセンターじゃなくて、普通のプロバイダ経由)があったりします。

結局サービス対象じゃない国・地域からブロックしたり、AS番号単位でブロックしたり、ハニーポットURIを用意して掛かったアドレスを個別にBANとかしているのですが、なんか不毛だなぁと。

0 件のコメント:

コメントを投稿

広告