Hadoop (뒤늦은) 분석 1 - 하둡 생태계

less than 1 minute read

Hadoop의 시작. Lucene의 일부인 nutch 프로젝트 개발중 처리속도의 한계를 경험. 고민중에 구글에서 나온 GFS 논문. MapReduce?

Hadoop의 구성요소 core ; 분산파일시스템과 일반적인 IO를 위한 컴포넌트와 인터페이스 집합 avro : rpc. 언어 MapReduce : 클러스터에서 분산데이터 처리 Pig : HDFS와 MapReduce에서 대규모 데이터 탐색 Hive : 분산 DW. HDFS에 저장된 데이터를 관리하고, 데이터 쿼리를 위하여 SQL 기반 쿼리 언어 제공 HBase : Distributed column-oriented 데이터베이스. 스토리지로 HDFS사용. 맵리듀스를 이용한 일괄처리방식과 랜덤읽기가 가능한 포인트 쿼리 방식 모두를 지원 ZooKeeper : 분산컴퓨터 사이의 고가용성조정highly available coordination 서비스. 분산 응용프로그램들을 구축하기 위하여 사용돌 수 있는 분산락distributed lock 같은 primitive를 제공 Scoop : RDBMS - HDFS 사이 데이터 인터페이스