スクリプト類とメニューボタン

トップ ソフト 雑記 日記 リンク

2017年10月1日日曜日

ふぁぼるっくの収集を停止しました

2009年7月から8年続けてきたふぁぼるっくですが、この度データの収集を停止しました。
公開されているサイトも、そのうち停止します。

公開当初は、まだふぁぼったーが有って、まだfavstarは無い状態でした。
ふぁぼったーの収集状況が完璧ではなかったのを見つけて作り始め、自分自身が面白いと感じるツイートを見つけるために開発を続けてきました。

ふぁぼ爆撃などの文化が生まれたため、アカウント毎にふぁぼの重み付けなどを行い、「あまりふぁぼらない人のふぁぼは貴重」という評価からスコアを算出したりしていました。

複数のサーバを運用し、収集したデータを一つのデータベースへ集め、色々と新技術を試してみたりする実験的なプロジェクトとしても役立ちました。
個人的にこれだけの大規模データを処理したことがなかったので、大変勉強になりました。

多くの方に支持をいただき、一時期はたくさんの方に見ていただけたのですが、設備投資が追いつかないままに競合が登場し、すっかり注目を集められないプロジェクトとなってしまいました。
今後もデータが増え続ける中で、運用にかかるコストが大きくなりすぎてしまい、 趣味の延長として続けるには辛くなってきたので、そろそろ終わりだなと決断した次第です。

つらみポイント

  • 公開当初、Twitter API勉強会@大阪で発表枠の申し込みに遅れ、知名度アップのスタートダッシュに失敗した。
  • クライアント作者へふぁぼるっくの宣伝をしなかったため、ふぁぼったーを開く機能を持っていたクライアントは軒並みfavstarに対応した。いやらしいかなと思ってやらなかったんだけど、もっと出て行かないと存在を示せない。
  • 自宅サーバから始まり、VPSへ移行し、AWSへ移り、再び自宅サーバへ戻ってきたが、データ取得部分だけはAWSに残していて費用が辛い。しかし現状が一番マシ。
  • AWS時代はサーバ代・通信量だけで年間80万円掛かっていた。スポットインスタンスとかも活用していたんだけど。それとは別に自宅サーバも別に運用。全データをインターネット側に置く費用は用意できなかった。
  • 広告を貼っているが年間5000円も収益がない。広告が非表示・別インデックスで表示が高速化される有料会員制度を作ってみたりしたが、契約はゼロだった。お試しみたいな宣伝が必要だったと思う。
  • 現在は2TBのSSDを5台でRAID5を構成しているが、寿命がどんどん削れる。2年は持たなさそう。
  • データベースはPostgreSQLで運用しているが、トランザクションID周回によるバキュームが常に動き続けている状態。そのうち間に合わなくなるのでは。データベースインスタンスそのものを水平分割するべきなのだろうけど、同じスペックのサーバを揃える費用が…。
  • スコア計算を導入したが、Twitterがインフラとして広がるにつれて計算量が爆発的に増えてしまい、当初は10分で終わっていた毎時処理が最終的には2週間以上も掛かるようになってしまった。Xeonの10コア20スレッド、メモリ64MBのサーバが常にロードアベレージ60以上。ぶろるっくも同じデータベースサーバで管理しているので、負荷に引きずられる。
  • 自分がマストドン( @osapon@mstdn.nere9.help )へ移行してしまい、Twitterの面白い話題を追いかけることが無くなった。面白い話題は大体RTで回ってくるのと、ふぁぼるっく側でスコア計算をやめてしまったため、自分自身がふぁぼるっくを見なくなってしまった。
  • 新しいこともしてみたくなる中で、ストレージの再設計とそれに伴う作り直しをするモチベーションが沸かなかった。
  • ふぁぼがいいねに変更されて、名前の由来が分からなくなった。(一番つらい)

収集したデータ

アカウント数54,906,240
ツイート数5,878,570,230
ふぁぼ数35,238,885,993
RT数10,629,973,759
データベースサイズ4.42TB

アプリケーション連携をしてくれた皆さん、見に来てくれた皆さん、ありがとうございました。

広告