데이터베이스/SQLD

2-4 대량 데이터에 따른 성능

Frankie 2022. 9. 16. 16:18

1. 대량 데이터발생에 따른 테이블 분할 개요

 

아무리 설계가 잘 되어 있는 데이터 모델도 대량의 데이터가 하나의 테이블이나 하나의 하드웨어 공간에 저장되어 있으면 성능 저하를 피하기 힘들다.

-> 그래서 트랜잭션이 분산 처리될 수 있도록 테이블 단위에서 분할의 방법을 적용할 필요가 있다.

 

또한 한 테이블에 많은 수의 컬럼이 존재하게 되면 데이터가 디스크의 여러 블록에 존재하므로 인해 디스크에서 데이터를 읽는 I/O 량이 많아지게 되어 성능이 저하된다.

 

인덱스 크기가 커질 경우 조희의 성능에는 영향을 미치는 정도가 작지만 데이터를 입력/수정/삭제하는 트랜잭션의 경우 인덱스의 특성상 일량이 증가하여 더 많이 성능의 저하를 유발하게 된다.

또한 데이터에 대한 범위 조회시 더 많은 I/O를 유발할 수 있게 되어 성능저하를 일으킨다.

 

많은 컬럼은 로우체이닝과 로우마이그레이션이 많아지게 되어 성능이 저하된다.

* 로우체이닝 - 데이터 블록 하나에 데이터가 모두 저장되지 않고 두 개 이상의 블록에 걸쳐 하나의 로우가 저장되어 있는 형태

* 로우마이그레이션 - 데이터 블록에서 수정이 발생하면 수정된 데이터를 해당 데이터 블록에서 저장하지 못하고 다른 블록의 빈 공간을 찾아 저장하는 방식

 

2. 한 테이블에 많은 수의 칼럼을 가지고 있는 경우

도시정보 테이블에 칼럼이 생략된 것 까지 포함해서 대략 200개라 가정하면 칼럼의 앞쪽에 위치한 발행기관명, 수량, 중간에 위치한 공고일, 발행일에 대한 정보를 가져오려면 물리적으로 칼럼의 값이 블록에 넓게 산재되어 있어 디스크 I/O가 많이 일어나게 된다.(컬럼 순서가 조회에 영향을 미칠수도 있다.)

 

컬럼수가 많은 테이블에서 데이터 처리하게 되면 디스크 I/O양이 증가하여 성능이 저하된다.

-> 트랜잭션이 발생될 때 어떤 컬럼에 대해 집중적으로 발생하는지 분석하여 테이블을 쪼개어 주면 디스크 I/O가 감소하게 되어 성능이 개선된다.

 

3. 대량 데이터 저장 및 처리로 인한 성능

테이블에 많은 양의 데이터가 예상될 경우 파티셔닝을 적용하거나 PK에 의해 테이블을 분할하는 방법을 적용할 수 있다.

-> Oracle의 경우

- LIST PARTITION(특정값 지정): 가장 많이 사용. 데이터보관주기에 따라 테이블에 데이터를 쉽게 지우는 것이 가능.(데이터보관주기에 다른 테이블관리가 용이)

- RANGE PARTITION(범위): 대용량 데이터를 특정값에 따라 분리 저장할 수는 있으나 RANGE PARTITION과 같이 데이터 보관주기에 따라 쉽게 삭제하는 기능은 제공 X

- HASH PARTITION(해쉬적용): 성능향상을 위해 사용하며 데이터 보관주기에 따라 쉽게 삭제하는 기능은 제공 X

- COMPOSITE PARTITION(범위와 해쉬가 복합)

 

4. 테이블에 대한 수평분할/수직분할의 절차

1) 데이터 모델링 완성

2) 데이터베이스 용량산정

3) 대량 데이터 처리되는 테이블에서 트랜잭션 처리 패턴 분석

4) 컬럼 단위/로우 단위로 집중화된 처리가 발생되는지 분석하여 집중화된 단위로 테이블 분리 검토

 

 

 

'데이터베이스 > SQLD' 카테고리의 다른 글

2-6 분산 데이터베이스와 성능  (0) 2022.09.16
2-5 데이터베이스 구조와 성능  (0) 2022.09.16
2-3 반정규화와 성능  (0) 2022.09.16
2-2 정규화와 성능  (0) 2022.09.16
2-1 성능 데이터 모델링  (0) 2022.09.16