Home Apache Hive 최적화를 위한 설계 방법들
Post
Cancel

Apache Hive 최적화를 위한 설계 방법들

1. Partition table design

2. Bucket table design

  • 버켓팅은 지정된 칼럼의 값을 해쉬 처리하고 지정한 수의 파일로 나누어 저장
  • 조인에 사용되는 키로 버켓 칼럼생성 -> 소트 머지 버켓(SMB) 조인으로 처리되어 수행속도가 빨라짐
  • Bucketing을 하면 Join을 하거나 샘플링 작업을 할 경우 성능향상

파티션: 데이터를 디렉토리로 나누어 저장하는 방식 버켓팅: 데이터를 파일별로 나누어 저장

3. Index design

연산 속도를 향상시키기 위해 컬럼에 인텍스를 생성 할 수 있으나, RDBMS에 비해 기능이 많이 제한적이다. 인덱스 생성시 별도의 디스크 공간이 필요하고 생성에 따른 비용이 발생한다.

4. Use skewed/temporary tables

This post is licensed under CC BY 4.0 by the author.