同一アクセス元からの、アクセス頻度制限回避のためか、
- 同一IPアドレスからなのに、毎回User-Agentがバラバラのアクセス
- アクセス元がバラバラ。でも/16レベルで特定のデータセンターから散らしてアクセス
- サービス対象じゃない国からの大量のアクセス
- 人間が巡回してたら、絶対に開かないようなURI(歴史的経緯で残っているがもっとUXのいいアドレスがある)への継続的なアクセス
もう、LLM用のデータ収集だろ?という感じがあるのですが、まだ大手はちゃんとUser-Agentを名乗って、自社データセンターからアクセスしてくれるので良心的です。
(meta-externalagent、お前はちょっとやり過ぎ。)
サーバー側でアクセス解析とかしていると、人間じゃないアクセスが大量になって、統計が狂うんですよね。
あと、あまりにも無限のサーバーリソースがあると思ってるのか、大量の負荷を一気に掛けてきたりします。
なぜこちらがバースト費用払って、お前のデータ収集に付き合ってやらなければならないのか。
過去に検索エンジンのクローラーの行儀が悪いと話題になってブロックされまくったサービスがある事とかも知らなさそうです。
AWSのWAFとか、Cloudflareとか噛まして、チャレンジ(ページを開いたときにロボットによるアクセスか確認されるあれ)を設定していても、もう当然のように通過してきます。
ほかに、アクセスを見ていると、どうもbotネット構築しているよね?という感じで日本国内からのでも同様のアクセス(データセンターじゃなくて、普通のプロバイダ経由)があったりします。
結局サービス対象じゃない国・地域からブロックしたり、AS番号単位でブロックしたり、ハニーポットURIを用意して掛かったアドレスを個別にBANとかしているのですが、なんか不毛だなぁと。





0 件のコメント:
コメントを投稿