AIDE 2급 D-10 학습정리 | 직장인 역량노트

빅데이터 3V / 5V

빅데이터의 특성을 정의하는 V 모델. 시험에서 3V와 5V의 구성 요소를 구분해 묻는 문제가 자주 출제됩니다.

Volume (규모)

데이터의 양이 방대함
TB·PB 단위

Velocity (속도)

데이터 생성·처리
속도가 매우 빠름

Variety (다양성)

정형·반정형·비정형
다양한 형태의 데이터

Veracity (정확성)

데이터의 신뢰성·
정확도 확보

Value (가치)

데이터로부터
유의미한 가치 창출

3V — Volume · Velocity · Variety

5V — 3V + Veracity · Value

⚠️ 시험 함정

3V에 Veracity(정확성)가 포함된다고 착각 — Veracity는 5V 추가 항목
영어 원어 스펠링 그대로 출제됨 — Volume/Velocity/Variety/Veracity/Value 암기 필수

데이터 유형 3가지

정형 데이터

구조화된 형태
엑셀, 관계형 DB
행·열로 표현 가능

반정형 데이터

일정한 구조이나
고정되지 않은 형태
JSON, XML, HTML

비정형 데이터

구조화되지 않은 형태
이미지, 영상, 음성
SNS 텍스트

📌 Variety(다양성)와 연결

빅데이터 3V의 Variety(다양성)는 이 세 가지 데이터 유형이 혼재한다는 의미입니다.

데이터 품질 6가지 기준

정확성 (Accuracy)

데이터가 실제 현실을 정확하게 반영하는 정도

완전성 (Completeness)

필요한 데이터가 누락 없이 존재하는 정도

일관성 (Consistency)

데이터가 서로 모순 없이 일관된 형태를 유지하는 정도

적시성 (Timeliness)

필요한 시점에 데이터를 사용할 수 있는 정도

유일성 (Uniqueness)

데이터 중복 없이 유일하게 존재하는 정도

유효성 (Validity)

정해진 형식·범위·규칙을 따르는 정도

과적합 (Overfitting)

과소적합

Underfitting

훈련 데이터도
제대로 학습 못 함
모델이 너무 단순

적정 학습

Good Fit

훈련·검증 모두
높은 성능 유지
목표 상태

과적합

Overfitting

훈련 데이터에만
지나치게 맞춰짐
새 데이터에 약함

과적합 방지 / 해결 방법

과적합드롭아웃(Dropout) — 학습 중 일부 뉴런을 무작위로 비활성화

과적합정규화(Regularization) — L1/L2 정규화로 가중치 크기 제한

공통데이터 증강(Data Augmentation) — 학습 데이터 양을 늘려 일반화 향상

공통교차 검증(Cross Validation) — 데이터를 여러 방식으로 나눠 성능 평가

과소적합모델 복잡도 증가 — 레이어·뉴런 수를 늘려 표현력 강화

⚠️ 시험 포인트

과적합 = 훈련 성능 높음 + 검증/테스트 성능 낮음
드롭아웃은 과적합 방지 기법 — 과소적합과 혼동 주의

활성화함수 (Activation Function)

뉴런의 출력값을 결정하는 함수. 비선형성을 부여해 딥러닝이 복잡한 패턴을 학습할 수 있게 함.

Sigmoid

출력 범위: 0 ~ 1

이진 분류 출력층에 사용
기울기 소실 문제 발생 가능
값이 0 또는 1에 가까울 때 학습 느려짐

ReLU

f(x) = max(0, x)

은닉층에서 가장 많이 사용
음수 입력 → 0 출력
기울기 소실 문제 완화

Softmax

출력 합계 = 1 (확률)

다중 분류 출력층에 사용
각 클래스의 확률값 출력
가장 높은 확률 = 예측 클래스

Tanh

출력 범위: -1 ~ 1

Sigmoid보다 출력 범위 넓음
음수 처리 가능
RNN 등에서 활용

⚠️ 시험 포인트

은닉층 기본 → ReLU / 이진분류 출력 → Sigmoid / 다중분류 출력 → Softmax
ReLU: 음수 입력 → 0 출력 (죽은 뉴런 문제)

CNN 기본 구조 (합성곱 신경망)

이미지 인식에 특화된 딥러닝 구조. 공간적 특징을 자동으로 추출.

입력층

원본 이미지
(픽셀 값)

합성곱층

Conv Layer
특징 추출

풀링층

Pooling
크기 축소

평탄화

Flatten
1D 변환

완전연결층

FC Layer
분류 수행

출력층

예측 결과
(클래스)

합성곱층 (Convolution)

필터(커널)를 이미지에 적용해 특징 맵(Feature Map)을 생성. 엣지·텍스처·패턴 검출.

풀링층 (Pooling)

Max Pooling: 영역에서 최댓값만 추출. 데이터 크기 축소, 연산량 감소, 위치 불변성 확보.

평탄화 (Flatten)

2D 특징 맵을 1D 벡터로 변환. 완전연결층 입력 준비.

완전연결층 (FC Layer)

추출된 특징으로 최종 분류 수행. 출력층에서 Softmax로 확률 출력.

⚠️ 시험 포인트

CNN 순서: 입력 → 합성곱 → 풀링 → 평탄화 → 완전연결 → 출력
Max Pooling = 최댓값 추출 / Average Pooling = 평균값 추출
CNN은 이미지 분류·객체 인식에 특화된 딥러닝 구조

핵심 키워드 (한·영)

Volume

규모

빅데이터 3V — 데이터 양

Velocity

속도

빅데이터 3V — 처리 속도

Variety

다양성

빅데이터 3V — 데이터 형태

Veracity

정확성

5V 추가 — 신뢰도

Value

가치

5V 추가 — 가치 창출

Overfitting

과적합

훈련↑ 검증↓

Dropout

드롭아웃

과적합 방지 기법

ReLU

렐루

은닉층 기본 활성화함수

Softmax

소프트맥스

다중분류 출력층

CNN

합성곱 신경망

이미지 인식 특화

Convolution

합성곱

특징 맵 생성

Max Pooling

맥스 풀링

영역 최댓값 추출

Flatten

평탄화

2D→1D 벡터 변환

Feature Map

특징 맵

합성곱 결과물

Regularization

정규화

가중치 크기 제한

핵심 용어 암기

빅데이터 3V / 5V

데이터 유형 3가지

데이터 품질 6가지 기준

과적합 (Overfitting)

활성화함수 (Activation Function)

CNN 기본 구조 (합성곱 신경망)

핵심 키워드 (한·영)

오늘의 체크리스트