AIDE 2급 · D-10

핵심 용어 암기

빅데이터 3V/5V · 데이터 품질 · 과적합 · 활성화함수 · CNN 기본 구조

01

빅데이터 3V / 5V

빅데이터의 특성을 정의하는 V 모델. 시험에서 3V와 5V의 구성 요소를 구분해 묻는 문제가 자주 출제됩니다.

V
Volume (규모)
데이터의 양이 방대함
TB·PB 단위
V
Velocity (속도)
데이터 생성·처리
속도가 매우 빠름
V
Variety (다양성)
정형·반정형·비정형
다양한 형태의 데이터
V
Veracity (정확성)
데이터의 신뢰성·
정확도 확보
V
Value (가치)
데이터로부터
유의미한 가치 창출
3V — Volume · Velocity · Variety
5V — 3V + Veracity · Value
⚠️ 시험 함정
  • 3V에 Veracity(정확성)가 포함된다고 착각 — Veracity는 5V 추가 항목
  • 영어 원어 스펠링 그대로 출제됨 — Volume/Velocity/Variety/Veracity/Value 암기 필수
02

데이터 유형 3가지

정형 데이터
구조화된 형태
엑셀, 관계형 DB
행·열로 표현 가능
반정형 데이터
일정한 구조이나
고정되지 않은 형태
JSON, XML, HTML
비정형 데이터
구조화되지 않은 형태
이미지, 영상, 음성
SNS 텍스트
📌 Variety(다양성)와 연결

빅데이터 3V의 Variety(다양성)는 이 세 가지 데이터 유형이 혼재한다는 의미입니다.

03

데이터 품질 6가지 기준

정확성 (Accuracy)
데이터가 실제 현실을 정확하게 반영하는 정도
완전성 (Completeness)
필요한 데이터가 누락 없이 존재하는 정도
일관성 (Consistency)
데이터가 서로 모순 없이 일관된 형태를 유지하는 정도
적시성 (Timeliness)
필요한 시점에 데이터를 사용할 수 있는 정도
유일성 (Uniqueness)
데이터 중복 없이 유일하게 존재하는 정도
유효성 (Validity)
정해진 형식·범위·규칙을 따르는 정도
04

과적합 (Overfitting)

과소적합
Underfitting
훈련 데이터도
제대로 학습 못 함
모델이 너무 단순
적정 학습
Good Fit
훈련·검증 모두
높은 성능 유지
목표 상태
과적합
Overfitting
훈련 데이터에만
지나치게 맞춰짐
새 데이터에 약함

과적합 방지 / 해결 방법

과적합드롭아웃(Dropout) — 학습 중 일부 뉴런을 무작위로 비활성화
과적합정규화(Regularization) — L1/L2 정규화로 가중치 크기 제한
공통데이터 증강(Data Augmentation) — 학습 데이터 양을 늘려 일반화 향상
공통교차 검증(Cross Validation) — 데이터를 여러 방식으로 나눠 성능 평가
과소적합모델 복잡도 증가 — 레이어·뉴런 수를 늘려 표현력 강화
⚠️ 시험 포인트
  • 과적합 = 훈련 성능 높음 + 검증/테스트 성능 낮음
  • 드롭아웃은 과적합 방지 기법 — 과소적합과 혼동 주의
05

활성화함수 (Activation Function)

뉴런의 출력값을 결정하는 함수. 비선형성을 부여해 딥러닝이 복잡한 패턴을 학습할 수 있게 함.

Sigmoid
출력 범위: 0 ~ 1
  • 이진 분류 출력층에 사용
  • 기울기 소실 문제 발생 가능
  • 값이 0 또는 1에 가까울 때 학습 느려짐
ReLU
f(x) = max(0, x)
  • 은닉층에서 가장 많이 사용
  • 음수 입력 → 0 출력
  • 기울기 소실 문제 완화
Softmax
출력 합계 = 1 (확률)
  • 다중 분류 출력층에 사용
  • 각 클래스의 확률값 출력
  • 가장 높은 확률 = 예측 클래스
Tanh
출력 범위: -1 ~ 1
  • Sigmoid보다 출력 범위 넓음
  • 음수 처리 가능
  • RNN 등에서 활용
⚠️ 시험 포인트
  • 은닉층 기본 → ReLU / 이진분류 출력 → Sigmoid / 다중분류 출력 → Softmax
  • ReLU: 음수 입력 → 0 출력 (죽은 뉴런 문제)
06

CNN 기본 구조 (합성곱 신경망)

이미지 인식에 특화된 딥러닝 구조. 공간적 특징을 자동으로 추출.

입력층
원본 이미지
(픽셀 값)
합성곱층
Conv Layer
특징 추출
풀링층
Pooling
크기 축소
평탄화
Flatten
1D 변환
완전연결층
FC Layer
분류 수행
출력층
예측 결과
(클래스)
합성곱층 (Convolution)
필터(커널)를 이미지에 적용해 특징 맵(Feature Map)을 생성. 엣지·텍스처·패턴 검출.
풀링층 (Pooling)
Max Pooling: 영역에서 최댓값만 추출. 데이터 크기 축소, 연산량 감소, 위치 불변성 확보.
평탄화 (Flatten)
2D 특징 맵을 1D 벡터로 변환. 완전연결층 입력 준비.
완전연결층 (FC Layer)
추출된 특징으로 최종 분류 수행. 출력층에서 Softmax로 확률 출력.
⚠️ 시험 포인트
  • CNN 순서: 입력 → 합성곱 → 풀링 → 평탄화 → 완전연결 → 출력
  • Max Pooling = 최댓값 추출 / Average Pooling = 평균값 추출
  • CNN은 이미지 분류·객체 인식에 특화된 딥러닝 구조
07

핵심 키워드 (한·영)

Volume
규모
빅데이터 3V — 데이터 양
Velocity
속도
빅데이터 3V — 처리 속도
Variety
다양성
빅데이터 3V — 데이터 형태
Veracity
정확성
5V 추가 — 신뢰도
Value
가치
5V 추가 — 가치 창출
Overfitting
과적합
훈련↑ 검증↓
Dropout
드롭아웃
과적합 방지 기법
ReLU
렐루
은닉층 기본 활성화함수
Softmax
소프트맥스
다중분류 출력층
CNN
합성곱 신경망
이미지 인식 특화
Convolution
합성곱
특징 맵 생성
Max Pooling
맥스 풀링
영역 최댓값 추출
Flatten
평탄화
2D→1D 벡터 변환
Feature Map
특징 맵
합성곱 결과물
Regularization
정규화
가중치 크기 제한
08

오늘의 체크리스트