into MySQL: DISTINCT 와 GROUP BY의 차이

2011년 1월 3일 월요일

DISTINCT 와 GROUP BY의 차이

DISTINCT는 주로 UNIQUE한 컬럼이나 튜플(레코드)을 조회하는 경우 사용되며,
GROUP BY는 데이터를 그룹핑해서 그 결과를 가져오는 경우 사용되는 쿼리 형태이다.

하지만 두 작업은 조금만 생각해보면 동일한 형태의 작업이라는 것을 쉽게 알 수 있으며,
일부 작업의 경우 DISTINCT로 동시에 GROUP BY로도 처리될 수 있는 쿼리들이 있다.
그래서 DISTINCT를 사용해야 할지, GROUP BY를 사용해서 데이터를 조회하는 것이
좋을지 고민되는 경우들이 가끔 있다.

간단하게 아래 예를 살펴 보자
1. SELECT DISTINCT fd1 FROM tab;
2. SELECT DISTINCT fd1, fd2 FROM tab;

위의 두개 쿼리는 간단히 GROUP BY로 바꿔서 실행할 수 있다.
1. SELECT fd1 FROM tab GROUP BY fd1;
2. SELECT fd1, fd2 FROM tab GROUP BY fd1, fd2;

그렇다면 이 예제의 쿼리에서 DISTINCT와 GROUP BY 는 어떤 부분이 다를까 ?
사실 이런 형태의 DISTINCT는 내부적으로 GROUP BY와 동일한 코드를 사용한다.
즉, 동일한 처리를 하게 된다는 것이다.

하지만 더 중요한 차이가 있다.
DISTINCT의 결과를 정렬된 결과가 아니지만, GROUP BY는 정렬된 결과를 보내준다.
GROUP BY의 작업을 크게 "그룹핑" + "정렬"로 나누어서 본다면, DISTINCT는 "그룹핑" 작업만
수행하고 "정렬" 작업은 수행하지 않는 것이다.
그런데, 여기서 "정렬"은 "그룹핑" 과정의 산물이 아닌 부가적인 작업이다.

최종적으로, 이 예제의 DISTINCT와 GROUP BY는 일부 작업은 동일하지만 GROUP BY는
"정렬"을 하기 위한 부가적인 작업을 더 하게 된다.

만약 "정렬"이 필요하지 않다면 DISTINCT를 사용하는 것이 성능상 더 빠르다고 볼 수 있다.
하지만, GROUP BY를 사용하는 경우에는 정렬을 하지 않도록 유도할 수 있다.
(자세한 내용은 "GROUP BY의 Filesort 작업 제거"를 참조)

참고로
GROUP BY와 DISTINCT는 각자 고유의 기능이 있다.

DISTINCT로만 가능한 기능
1. SELECT COUNT(DISTINCT fd1) FROM tab;
-- // 이런 형태의 쿼리는 서브 쿼리를 사용하지 않으면 GROUP BY로는 작성하기 어렵다.

GROUP BY로만 가능한 기능
1. SELECT fd1, MIN(fd2), MAX(fd2) FROM tab GROUP BY fd1;
-- // 이렇게 집합함수(Aggregation)가 필요한 경우에는 GROUP BY를 사용해야 한다.

<<주의사항>>
가끔 어떤 사용자는 DISTINCT가 마치 함수인 것처럼 (괄호를 사용하여) 아래와 같이 사용을 하는데
만약 fd1 컬럼은 unique 값, fd2는 전체 값을 원한다면 절대 그 결과를 얻을 수 없다.

SELECT DISTINCT(fd1), fd2 FROM tab;

SELECT 문장에 DISTINCT라는 키워드가 있으면, MySQL은 SELECT되는 모든 컬럼(튜플)들에 대해서 DISTINCT를 적용해서 결과를 보내주게 된다.
위와 같은 요건을 처리하기 위해서도 아래와 같이 GROUP BY로만 해결할 수 있다.

SELECT fd1, fd2 FROM tab GROUP BY fd1;

댓글 14개:

Unknown2016년 9월 1일 오후 4:39
감사합니다
답글삭제
답글
Unknown2016년 10월 28일 오전 9:50
많이 배웠습니다. 감사합니다.
답글삭제
답글
제와비2016년 11월 17일 오후 9:25
감사합니다.
답글삭제
답글
Unknown2017년 2월 25일 오후 10:51
감사합니다.
답글삭제
답글
Unknown2018년 2월 14일 오전 1:55
감사합니다.
답글삭제
답글
Unknown2019년 1월 11일 오후 6:56
본문에 DISTINCT로만 가능한 기능
SELECT COUNT(DISTINCT fd1) FROM tab;
GROUP BY 로도 가능하지 않나요?
=> SELECT COUNT(fd1) FROM tab GROUP BY fd1;
답글삭제
답글
Unknown2019년 4월 24일 오후 8:51
SELECT DISTINCT(fd1), fd2 FROM tab;

SELECT 문장에 DISTINCT라는 키워드가 있으면, MySQL은 SELECT되는 모든 컬럼(튜플)들에 대해서 DISTINCT를 적용해서 결과를 보내주게 된다.
위와 같은 요건을 처리하기 위해서도 아래와 같이 GROUP BY로만 해결할 수 있다.

SELECT fd1, fd2 FROM tab GROUP BY fd1;

여기서 'SELECT fd1, fd2 FROM tab GROUP BY fd1; ' 로 해결 할 수 없는 경우도 있네요
만약 fd1로 그룹핑을 했을때 맵핑되는 fd2의 값이 여러 개인 경우 저 쿼리는 오류가 나네요
답글삭제
답글
Unknown2019년 5월 19일 오후 6:04
감사합니다^^
답글삭제
답글
Unknown2019년 5월 23일 오전 12:31
오늘 면접때 나온 질문입니다ㅎㅎ
대답 못했지만요ㅋㅋ
답글삭제
답글
Unknown2020년 6월 21일 오후 8:07
설명이 너무 깔끔합니다. 감사합니다!
답글삭제
답글
널2020년 8월 12일 오후 6:00
잘 배우고 갑니다~
답글삭제
답글
Unknown2022년 3월 31일 오전 4:19
자세하게 써주셔서 감사합니다!!
답글삭제
답글

댓글 추가