리눅스 및 하둡 용어
하둡 환경
- 독립모드(Standalone mode) : 데몬 프로세스가 동작하지 않고, 모든것이 단독 JVM 내에서 동작. 개발하는 동안 맵리듀스 프로그램을 동작시키기에 적합한데, 테스트하고 디버그가 쉽기 때문이다.
- 의사분산모드(Pseudo-distributed mode) : 하둡 데몬 프로세스가 로컬컴퓨터에서 동작하므로 작은 규모의 클러스터를 시뮬레이트 할 수 있다.
- 완전분산모드(Fully distributed mode) : 하둡 데몬프로세스는 다수 컴퓨터로 구성된 그룹에서 동작한다.
의사분산모드의 환경설정
설정 파일은 hadoop의 /conf/ 디렉토리에 있다.
- core-site.xml : 네임노드 위치 지정에 관한 파일. 데이터 노드는 주기적으로 네임노드와 통신하기 위해서는 네임노드의 위치를 지정해주어야 한다.
- hdfs-site.xm : HDFS에 저장될 파일의 복제본 개수를 정의한다.
- mared-site.xml : 파일의 맵리듀스 프레임워크 관련 설정에 관한 파일이다.
실습 환경 및 버전
ubuntu | 18.04.4 LTS |
Bionic Beaver | |
openjdk version | 1.8.0._252 |
Hadoop | 2.8.0 |
→ 18.04 버전에 맞는 R 패키지 저장소 주소를 알아야 한다.
저장소 : repository 를 통해 패키지를 업데이트한다. 리눅스에서 배포하는 파일들이 저장되어 있는 곳을 말한다. 리눅스는 현재 실행중인 버전과 저장소에 등록한 업데이트 버전을 비교하여 저장소에 등록한 버전이 최신일 경우 업데이트한다.
source.list : 우분투에서 패키지 설치 시 관련 패키지에 대한 저장소 주소를 저장하는 파일이다. 우리가 설치하고자 하는 R 패키지의 저장소 주소를 이 파일에 추가한 후 업데이트를 통해 최신 R 버전을 설치한다.
Rstudio 서버 설치
ubuntu 18.04 버전에 맞는 것을 설치해야 한다.
sudo apt-get install gdebi-core wget https://download2.rstudio.org/server/bionic/amd64/rstudio-server-1.2.5042-amd64.deb sudo gdebi rstudio-server-1.2.5042-amd64.deb
gdebi : *.deb 파일 설치를 위한 명령어
Reference
공유 라이브러리로 특정 R 버전 설치
웹사이트에서 R버전 다운로드 -> configure -> make -> make install
configure : 소스파일에 대한 환경 설정을 해주는 과정으로 설치할 서버의 환경에 맞추어 makefile을 생성 해주는 과정이다.
configure 과정에서 나오는 오류 , 라이브러리를 설치해주어야 한다.
linux configure: error: libcurl >= 7.22.0 library and headers are required with support for https
↓ 나는 이 명령어를 통해 해결 했다.
solved -> sudo apt-get install make cmake gcc git libcurl4-openssl-dev
make : 소스파일을 컴파일하는 과정, 즉 소스파일을 configure 과정에서 만들어진 makefile을 이용하여 사용자가 실행 가능한 파일로 만드는 과정
make install : make 과정을 통해 컴파일이 완료된 실행팔일을 해당 디렉토리에 설치하는 과정이다.
Reference
장애 해결 및 문제 분석
R 패키지 깔면서 http 사이트에 접속 안될 경우
tools-> global option-> packages -> enable package pane 체크 해제 -> CRAN 사이트도 맞게 바꿔주기
Reference