Tuesday, November 23, 2010

MapReduce

MapReduce 는 분산 컴퓨팅을 지원하기 위한구글에서 개발한 software framework 라고 한다.


사실 GFF 파일을 파싱하고 있는데 요즘.. biopython에 있는 Bio.GFF 모듈이 없어지고 BCBio 라고 새로히 모듈이 생성되고 있다(아직 biopython에는 완전히 포함되지 않은듯). 그런데 이 모듈 개발자 블로그를 가보니 GFF parsing을 parallel 하게 할 수 있게 해놨다는 블로깅을 보고 거기서 사용한 것이 Disco 라는 것이란다. 그런데 그 Disco는 또 MapReduce를 이용한 것이고...
아... 뭐래는 거냐 얘네.. 


그래서! 알아봐야지.. BCBio 모듈을 만든 저자가 했던 말처럼 NGS 덕에 데이터 양 엄청 많아지는데 그냥 one core parsing하면 안되니까.. 사실 내가 하려는 것도 NGS 에서 나온 데이터를 파싱하려는 것이라서.. 해야지 뭐. 


우선은 링크 
-GFF module developer blog
http://bcbio.wordpress.com/2009/03/08/initial-gff-parser-for-biopython/
http://bcbio.wordpress.com/2009/03/22/mapreduce-implementation-of-gff-parsing-for-biopython/


-Disco
http://discoproject.org/


-MapReduce (intro)
http://en.wikipedia.org/wiki/MapReduce


-MapReduce (example of using MapReduce)
http://www.michael-noll.com/wiki/Writing_An_Hadoop_MapReduce_Program_In_Python
http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/

No comments:

Post a Comment