Information Technology/Bigdata

Information Technology/Bigdata

[빅데이터] 빅 데이터와 하둡

단순히 방화벽에서 하루동안 발생하는 로그가 1TB라면 어떻게 처리할 것인가? 수많은 인력을 통해 매일 분석할 수도 없는 노릇이다. 이러한 대용량 데이터를 처리하기 위해서는 빅데이터에 의존할 수 밖에 없다. 여기서 설명하는 빅데이터는 하둡이며 분산파일처리 시스템이다. 최근 드라이브의 용량은 상승하였지만 전송 속도는 약 100MB/s 수준에 머물러 있기 때문에 1TB의 디스크의 전체를 읽으려면 2시간 반이라는 계산이된다. 그래서 빅데이터에서 분산 파일 시스템의 경우 여러 디스크로부터 데이터를 읽어 처리 속도를 상승시킨다. 1TB의 크기의 데이터를 1/10 (100GB)만을 사용한 10개의 디스크로 병렬로 구현하여 읽는다면 1000초 즉 16~17분 만에 읽을 수 있게 된다. 이렇게 데이터를 병렬로 읽고 쓰려..

Information Technology/Bigdata

How to install Hadoop 2.2.0

1. Introduction 하둡(Hadoop) 공식 홈페이지에 업로드 되어 있는 컴파일 된 하둡을 사용할 때 다음과 같은 문제가 발생하였다. (사실 하둡만을 운영 한다면 문제 될 에러는 아니다. Java의 native 라이브러리를 사용하려고 한다면 해결해야 할 문제이다.) WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 이 오류는 32비트 운영체제에서 컴파일 된 것이기 때문에 64비트에서 사용하게되어 WARNING 에러가 발생한다. 그래서 이 문서에서는 하둡 2.2.0을 64비트로 컴파일하여 Psedo-Distribute..

hakawati
'Information Technology/Bigdata' 카테고리의 글 목록