오즈코딩스쿨/디자인부트캠프과정

[디자인부트캠프] DAY43. AI 활용한 데이터 분석_AI와 데이터 분석

chill0 2025. 6. 20. 11:42

PART1. 오늘의 내용

EDA_Exploratory Data Analysis

탐색적 데이터분석

 

데이터 과학자가 데이터 세트를 분석 및 조사하고 주요 특성을 요약하는 것에 사용.주요 목적은 가정을 하기 전에 데이터를 살펴보는 데 도움을 주는 것 (출처_IBM)

 

--> 좋은 재료로 맛있는 음식을 만들 듯!  좋은 데이터 자료를 준비하기

 

-컬러마다 무슨 뜻인지 이해하기

 

-결측치나 이상치가 있는지 확인하기

 

-변수 간 관계(상관관계)를 살펴보기

 

-그래프(히스토그램, 박스플롯 등)로 분포 보기

 

-데이터의 단위, 범위, 의미를 체크하기 

 

> 여러 각도에서 쪼개보고, 돌려보고, 비교해보는 과정

 

> 데이터를 분석하기 전에, 데이터를 '잘 이해하기 위해' 

이것저것 열어보고, 비교하고, 시각화해보는 과정

 

 

 

1. raw data의 desciption, dictionary를 통해 데이터의 각 column들과 row의 의미를 이해하는 기술 

 

 

2.결측치 처리 및 데이터필터링 기술. 

 

 

 

3. 누구나 이해하기 쉬운 시각화를 하는 기술

 

 

결론

데이터를 볼 때,

내 생각을 잠깐 내려놓고 다른 사람의 정보를 그대로 받아들이기 

데이터를 분석하고, 여러 방면에서 바라보기

 

PART2. 실시간강의/실습/과제

#EDA를 하는 이유

 

1. 데이터를 이해하기 위해

이 데이터가 어떤 구조인지 

2. 문제를 미리 발견하기 위해

누락된 값, 이상치 같은 문제를 조기에 발견

3. 분석 방향을 정하기 위해

어떤 컬럼이 중요할지, 어떤 분석이나 모델이 필요할지 힌트를 얻을 수 있다.

4. 데이터의 숨은 패턴을 찾기 위해

시각화를 통해 관계나 경향을 발견

 

#CRISP-DM 6단계 요약

(데이터 마이닝 프로젝트를 위한 표준 방법론)

데이터 마이닝- 대용량 데이터에서 의미 있는 통계적 패턴이나 규칙,

관계를 찾아내 분석하여 유용하고 활용할수 있는 정보를 추출하는 기술 (출처_네이버 지식백과)

 

1단계 비지니스 이해 

무엇을 위해 분석하는지, 목적과 가치를 정의

 

2단계 데이터 이해

데이터를 불러오고 구조와 통계를 파악

 

3단계 데이터 준비

이상치, 누락값 처리하고 머신러닝에 맞게 정리

 

4단계 모델링

데이터를 바탕으로 예측 모델을 만들고 학습시킴

 

5단계 평가 모델

얼마나 잘 작동하는지 확인

 

6단계 배포

분석 결과를 정리하고 공유하거나 적용

 

#머신러닝

컴퓨터와 기계가 인간의 학습 방식을 모방하여 작업을 자율적으로 수행하고,

경험과 더 많은 데이터에 대한 노출을 통해 성능과 정확도를 향상시킬 수 있도록 하는 데

중점을 둔 인공지능의 한 분야 (출처_IBM)

 

 

 

아직 하는 중..