seri::diary::graduate_school

大学院修士課程での研究生活について書いています

MapReduceむずい

2017年10月30日

MapReduce実装としてHadoopの論文を2個ぐらい読んでMapReduce少しぐらいは理解できたかなーと思ってたけど、よく考えるとあれってどうなってんだ?とか俺の理解だと矛盾してるっぽい?みたいな箇所がちょこちょこ出てくることが多く、なんだかんだで「Hadoop MapReduceのこと、分かってるつもりだったけどよく分かってなかった」という結論になってきた。

Hadoop MapReduceは一時期爆発的な人気があったらしく、ネットを漁ると大量のチュートリアルや解説記事が見つかる。しかし、よくよく読んでみると、ある記事はバージョン0.20ぐらいを前提として書いていたり、またある記事は1.xだったりと、情報リソースによって書いてあることが色々と違ってたりする *1 すでにHadoopブームが去った2017年に、ネットの情報だけで体系的にHadoop MapReduceアーキテクチャについて理解し、最新の情報まで知識を繋げていくのは結構難しいということが分かってきた。こういう時に有料の論文掲載サイトで論文読み放題だとよいのだが。。

なので情報リソースは一旦この本に絞ることにした。

出版が2016年11月と比較的最近であることと、作者は本を書くためにHadoopを勉強した人とかではなく、実務でHadoop clusterを6年間運用してきた人物であることから、比較的正しい理解が得られそうな気がしたというのが選定理由である。

あとはHadoop公式tutorialがある。かなり長いがこれ以外に今のところ信用できるhadoopの最新のdocumentはなさそう。

*1:のだが、日付が書いてないことが多くて意外と気づかない