Google's BigTable, Pregel, and Streaming PageRank

As already you might know, Google stores the webpages in BigTable. Considering the time-series dimension, the web graph is stored in 3D space like below:


And then Pregel is believed to be used for calculating PageRank. How do it work? When the new version is added to the "webtable" while crawling web pages periodically, each processor of Pregel scans latest version of anchors in its partition, and updates the graph structure. The several vertices received message from newly-created or updated vertex will be reactivated and begun to recompute PageRank incrementally.

Therefore, the Pregel paper describes as a batch system that processes iterative graph algorithms efficiently but I think the vertex-centric model and its spontaneous reactivation mechanism is especially worth noting and very fit for streaming graph.

Although Graph module (Pregel clone) of Apache Hama supports dynamic graph operations, I never tried yet. I'll post more details if it works fine.

2014년도를 떠나며

몇 일이 지나면 전세계인은 2014년도를 떠나보내야 한다. 나 역시 14년을 떠나고 이젠 새로이 준비를 해야하는 시점이 되었네.

나에게 2014년은 참 많은 일들이 일어났고, 그렇게 원하던 창업을 하면서 다양한 경험과 사람을 겪어본 한 해. 한 가지 크게 느낀 것이 있다면, 알게 모르게 사람들은 나를 지켜보고 평가한다는 것 (물론 그렇다고 의식하진 않지만), 모든 결정은 언제나 후회가 남는다는 것, 선동은 몇 마디로 가능하지만 반박을 위해서는 수십개의 근거 자료가 필요하다는 것 등등.

솔직히 엔지니어로써 커리어에는 이러한 것들은 도무지 쓸데 없는 경험일지 모르겠다. 이 때문에 한편으로는 계속 하던일에 몰두했어야하나 살짝 걱정도 되긴하나 분명 나에게 크나큰 밑거름이 되었음을! 결국 내가 살아가는 세상은 "사회"이니까.

부작용이라하면 내 몸안에 사파/마교 무림 고수의 광기가 다소 누그러진 정도? ㅋ

DataSayer received an OSS achievement award today.


Today @datasayer received an achievement award from the National IT Industry Promotion Agency.

.. Thanks for nominating me, Oracle Korea!