トップ ソフト 雑記 日記 リンク

2015年7月25日土曜日

elasticsearch勉強会へ参加 & elasticsearchについて雑感

7月13日に大阪のYahoo事務所でelasticsearchの勉強会へ参加してきました。
ブログを書いていなくて、これを書いているのは7月25日ともう2週間も経ちますが、つらつらと。

内容はelasticの中の人である @johtani さんの「Elasticsearchの紹介
@takuya_a さんの「Elasticsearch での類似文書検索と More Like This API 詳解
@5kozawa さんの「Elasticsearchを用いたはてなブックマークのトピック生成
でした。

elasticsearchというと、よく聞くのがWebサーバのログをelasticsearchに放り込んで、kibanaで綺麗なグラフを描くというやつですが、今回の勉強会は本来?の使い方でもある検索に焦点を絞ったものでした。

わたしもelasticsearchは、趣味と仕事で少しだけ使っていますが、趣味の方はアクセス解析、仕事の方は全文検索で利用しています。
仕事でいろいろ試してみた限りでは、かなり検索の性能も良さそうでした。

現在、ふぁぼるっくで使っているPostgreSQLでもいろいろと不満点が溜まってきているので、いずれは別のデータベースに乗り換えたいなぁと思っています。
勉強会では、かなり検索に特化した使い方を紹介して貰えたので、たぶん何とかなるだろうなとは思うのですが、いろいろな制約からPostgreSQLの使い方がアクロバティックになっているので、その辺りが解決できるかどうかを調べていかないといけないなぁと。

現状の問題点と調べること
1.RDSでよく参照される最近のデータを保存、古いあまり参照されない古いデータを自宅サーバで保存。日次バッチでデータ移動している。
 elasticsearchでも、複数ノードで手動リバランスができるらしいので、 「このデータ境界以前をこのサーバに保存しろ」ということができるかどうか。

2.全文検索はsphinxsearchを利用して、RDSからデータをコピーしている。全てのデータをインデックス化できないので、最近のデータだけ。
 上の項目と関連して、特定のサーバだけで全文検索を生成できるかどうか。

3.数十億レコード(2TB)のデータを自宅サーバ一台で満足のいくパフォーマンスが出せるか。
 ノード分割が前提となっていると、自宅サーバやEC2の台数で破産してしまう。

すべてはふぁぼるっくで収益が上がれば解決なのですが、そこまで行ってないのが難点ですね。

0 件のコメント:

コメントを投稿

広告