Efficient PostgreSQL Index 생성을 위한 몇가지 참고점

MySQL 과 마찬가지로, CREATE INDEX 를 하게 되면 B-Tree 를 사용한다.
B-Tree 는 별도로 공부해야하지만, it tries to remain balanced. 가 핵심이다. 각 tree의 branch 들에 속한 값의 양들이 거의 동일하게된다.

CREATE INDEX idx_comments_flagged_created_at ON comments(created_at) WHERE flag IS TRUE;

data 를 function 에 넣은 결과값에 대해 Index를 걸 수 있다.
예를들어, 사용자의 email 계정을 저장하는 column 이 있다고 할때, 사용자가 입력한대로 값은 저장하되 로그인등 인증시에는 아래처럼 소문자로 처리하고 싶으면,

CREATE INDEX idx_users_account_email ON users(lower(account));

CREATE INDEX idx_posts_day ON posts (date(published_at));

UK 는, data integrity 측면과 성능 측면에서 중요한 역할을 한다.
UK 와 Unique Constraints 에 는 차이가 있는데, Unique Constraints 는 위의 Partial, Expression Index 를 사용할 수 없다.

Postgres query planner 는 기본적으로 Multiple single-column indexes 들을 잘 조합해서 사용하는 능력이 있다. multi-column query 시에 말이다.
따라서, query 조건에 들어오는 column 들에 대해 각각 single-column index 들만 잘 걸어두면, Postgres 에서 알아서 잘 선택해준다.
그럼에도 multi-column index 를 생성한다면, order 가 중요하므로 반드시 column 순서를 고려해야 하고, 항상 index 에는 cost 가 따른다는점을 생각해서 benchmark 테스트를 해야한다.
아래와 같은 index 가 있다고 ㅎ

CREATE INDEX idx_posts_like_dislike ON posts (like,dislike);

CREATE INDEX idx_posts_published_at_index ON posts(published_at DESC NULLS LAST);

Index 를 건다고 해서 row 의 모든 데이터가 전부 index 에 포함되지 않는다. 따라서 index 를 통해 query 가 매칭 된다 하더라도 disk block 을 찾아가서 row data 를 fetching 한다.
따라서 index 는 disk-lookup 을 줄일 수 있는 경우에 사용되어야 한다
예를들어, big table 에서 PK 를통해 접근하는 것은 sequential scanning 을 피할수 있다
small table 같은 경우, 예를 들어 cities table 같은, city_name 으로 querying 을 한다 할지라도 index 가 불필요 할 수도 있다.
(Random I/O 는 sequential scanning 보다 비싸니, 이런 경우는 index 를 타는게 overhead 라고 판단되는 것 같다. )
이런 경우 Postgres 는 Index 를 무시하고 sequential scan 을 단행할 수 있으며, 이경우 index 는 dead index 가 된다.
index 는 결코 공짜가 아니므로 이런 관점에서 꼭 필요한지 따져봐야 한다.
benchmarking 을 할때도, 실 데이터 혹은 실데이터와 유사한 양의 데이터를 가지고 테스트를해야 효과가 있다. 그저 row 몇백개, 천개 가지고는 원하는 indexing 결과를 보기가 힘들다.

MySQL에서도 경험한 적이 있는데, CREATE INDEX 는 table lock(writing) 을 동반하는 작업이므로, productive 환경에서는 유의해야한다. 서비스 down 이 발생할 수도 있다.
Postgres 는 CREATE INDEX CONCURRENTLY 라는 옵션이 있는데, table lock 을 걸지 않고 작업이 가능한것 같다. 물론 훨씬 더 오래 걸린다.
index 도 시간이 지남에 따라 fragmented, unoptimized 되는데, 특히나 빈번히 업데이트, 삭제되는 column에 걸린 경우 더 그렇다.
그런 경우 REINDEX 를 수행해야 하는데, 이 역시 table lock 이 걸리므로, 동일한 column 으로 concurrently 수행하고, old index 를 삭제하는 방식으로 할 수 있다.

wanna be a software craftman step by step