728x90
[수집 레이어]
- 로그 수집을 위한 플럼 사용
- 실시간 로그 이벤트를 처리하기 위한 스톰 사용
- 카프카 : 플럼과 스톰 사이에서 데이터의 안정적인 수집을 위해 버퍼링 및 트랜잭션 처리 담당
[적재 레이어]
- 적재 대상은 하둡, HBase, 레디스
- 대용량 로그 파일 : 플럼->하둡
- 실시간 데이터 : 플럼->카프카->스톰->HBase/레디스
[처리/탐색 레이어]
- 하둡에 적재된 데이터는 하이브를 이용해 정제/변형/통합/분리/탐색 등의 작업 수행
- 데이터를 정형화된 구조로 정규화 하여 데이터 마트 생성
- 가공/분석된 데이터를 외부로 제공하기 위해 스쿱 사용
- 우지의 워크플로를 통새 프로세스 구성 및 자동화
[분석/응용 레이어]
- 임팔라/제플린을 통해 데이터 분석
- 머하웃과 스파트ML로 군집, 분류/예측, 추천 등을 진행
- R로 통계분석을 진행하고, 텐서플로로 딥러닝 모델 생성, 플라스크로 서비스 API 제공
2021.02.10 - [IT 정보/IT 기술] - 빅데이터 기본 - 6V
2021.02.13 - [IT 정보/IT 기술] - 빅데이터 소프트웨어 아키텍처
728x90
반응형
'IT 정보 > IT 기술' 카테고리의 다른 글
CentOS 콘솔 모드 부팅 (7 버전 이상) (0) | 2021.02.14 |
---|---|
빅데이터 소프트웨어 아키텍처 (0) | 2021.02.13 |
빅데이터 기본 - 6V (0) | 2021.02.10 |
빅데이터 구현 기술 #4 - 분석/응용 기술 (0) | 2021.02.09 |
빅데이터 구현 기술 #3 - 처리/탐색 기술 (0) | 2021.02.09 |