Hadoop에 대하여

  • POSTED BY iendev
Hadoop 은 Google이 논문으로 발표한 GFS (Google File System)과 MapReduce를 기반으로 2005년 Doug Cutting이 개발하였고, 지금은 최상위 Apache Projectd에 위치하고 있습니다. 사실 Hadoop 이란 단어는 Doug Cutting의 아들이 노란색 코끼리 장난감을 Hadoop 이라 부르는 것을 보고 착안한 이름입니다. 여기까진 어디에서나 볼 수 있는 흔한 말이구요..
 
본론으로 들어가.. 핵심만 말씀드리면.. Hadoop 은 저렴한 예산으로 방대한 양의 Data를 분산 저장/처리하기 위하여 개발된 Open Source Framework 입니다. 흔히 Super Computer로 불리는 고성능 System으로 대변되는 중앙 집중형 처리 구조와는 달리, Hadoop은 일반적인 x86급 Computer (또는 서버) 다수로 Data를 관리합니다. 여기서 Cluster란 개념을 사용합니다. 만약 처리해야할 Data가 늘어나면, Scale Up (H/W 사양을 늘리는..) 대산 Sacle Out (H/W 수량을 늘리는..) 으로 대응합니다. 더 나아가, Data를 복제(Replication)함으로써 Data의 안전성도 확보할 수 있습니다.
 
2008년 Newyork Times 는 130년 분량의 신문기사 1,100만 Page를 Hadoop을 사용하여 단돈 200만원(?)으로 하루만에 PDF로 변환했다는 사실은 Hadoop의 병렬 처리 기술의 뛰어남을 보여주는 사례라 할 수 있습니다. 만약 일반 Server로 진행했을 경우 14년이 걸렸을 것으로 예상되었다고 하네요..
 
Hadoop은 그 자체 만으로도 훌륭한 Framework 이지만, Hadoop과 연계된 다양한 Solution들이 그 가치를 높이고 있습니다. 바로 Hadoop Eco System이라 불리는 것들인데요.. YARN, SPARK, Flume, Scoop, HBase, Kudu 등등이 있습니다. Eco System에 대한 자세한 내용은 Article에서 조금씩 다루도록 하겠습니다.
 
요컨데, Big Data는 Hadoop을 통해 저장/처리될 수 있고, Hadoop은 Big Date를 다루는데 가장 효율적이고 효과적인 대안입니다.
CREATIVE COMMONS LICENSE
Creative Commons License
RELATED POST
2017/11/08 16:21 2017/11/08 16:21
TRACKBACK URL : http://blog.iendev.kr/trackback/245
« PREV : 1 : 2 : 3 : 4 : 5 : ... 85 : NEXT »
COPYRIGHT(C) 2003-2017 iendev, ALL RIGHTS RESERVED.
TEXTCUBE REMASTERED BY iendev, IS Nature 0.1 black