[파이썬을 활용한 통계 개념 기초] 07. 표준화와 정규화(Standardization and Normalization)
통계/파이썬을 이용한 통계 기초2024. 10. 5. 09:30[파이썬을 활용한 통계 개념 기초] 07. 표준화와 정규화(Standardization and Normalization)

표준화와 정규화는 스케일링 (Scaling) 기법으로, 데이터의 스케일을 조정하여 모델이 특정 변수에 의존하거나 왜곡된 결과를 내는 것을 방지하고, 더 정확한 예측과 분석을 할 수 있게 돕습니다. 특히 머신러닝과 딥러닝에서 자주 사용됩니다.표준화와 정규화표준화 (Standardization)정의 : 데이터의 평균을 0, 표준편차를 1로 변환하는 기법.목적 : 다양한 변수의 분포와 단위가 다를 때, 동일한 기준으로 변환하여 상대적 비교를 용이하게 합니다.수식 :특징 :평균이 0, 표준편차가 1로 맞춰짐.데이터 분포의 모양은 유지하되, 중심을 0으로 맞추고 스케일을 조정하여, 모든 변수들이 동일한 표준편차를 갖게 함.이상치(Outliers)가 있는 데이터에도 강한 내성을 가질 수 있습니다. (평균 중심의 변..

프로그래밍 언어/R2024. 9. 25. 08:3019. R에서의 데이터 전처리 및 변환 1️⃣ (결측값 처리와 데이터 변환 및 정제)

결측치 처리는 데이터 전처리 과정에서 매우 중요한 단계입니다. 결측치가 있는 데이터를 잘못 처리하면 분석 결과에 큰 영향을 미칠 수 있기 때문에, 이를 적절히 처리하는 것이 중요합니다.결측값 처리결측치 확인 (Identifying Missing Data)먼저 데이터셋 내에 결측치가 어디에 있는지 확인해야 합니다.R에서 결측치를 확인하는 주요 방법은 is.na() 함수입니다.이 함수는 주어진 데이터셋에서 결측치가 있는 위치를 논리값(참/거짓)으로 반환합니다.# 결측치 확인하기is.na(data)이 코드는 데이터셋 data의 모든 값을 검사하여 결측치가 있는 위치를 TRUE로 표시하는 논리 행렬을 반환합니다.일반적으로 sum() 함수를 함께 사용하여 결측치의 총 개수를 확인할 수 있습니다.# 데이터프레임 전..

300x250
image