'데이터 전처리' 태그의 글 목록

통계/파이썬을 이용한 통계 기초2024. 10. 5. 09:30[파이썬을 활용한 통계 개념 기초] 07. 표준화와 정규화(Standardization and Normalization)

표준화와 정규화는 스케일링 (Scaling) 기법으로, 데이터의 스케일을 조정하여 모델이 특정 변수에 의존하거나 왜곡된 결과를 내는 것을 방지하고, 더 정확한 예측과 분석을 할 수 있게 돕습니다. 특히 머신러닝과 딥러닝에서 자주 사용됩니다.표준화와 정규화표준화 (Standardization)정의 : 데이터의 평균을 0, 표준편차를 1로 변환하는 기법.목적 : 다양한 변수의 분포와 단위가 다를 때, 동일한 기준으로 변환하여 상대적 비교를 용이하게 합니다.수식 :특징 :평균이 0, 표준편차가 1로 맞춰짐.데이터 분포의 모양은 유지하되, 중심을 0으로 맞추고 스케일을 조정하여, 모든 변수들이 동일한 표준편차를 갖게 함.이상치(Outliers)가 있는 데이터에도 강한 내성을 가질 수 있습니다. (평균 중심의 변..

프로그래밍 언어/R2024. 9. 27. 08:3020. R에서의 데이터 전처리 및 변환 2️⃣ (데이터 결합 및 집계와 샘플링)

데이터 결합 및 집계 (Data Merging and Aggregation)데이터 결합과 집계는 데이터 전처리 과정에서 매우 중요한 단계로, 여러 데이터 소스를 통합하거나 데이터를 요약하여 분석에 필요한 정보를 추출할 때 사용됩니다. 이 과정은 데이터의 일관성을 유지하고, 분석의 정확성을 높이는 데 필수적입니다.데이터 결합 (Data Merging)데이터 결합은 두 개 이상의 데이터 프레임을 결합하여 하나의 통합된 데이터 세트를 만드는 과정입니다. R에서 데이터 결합은 주로 merge() 함수를 사용하여 수행됩니다. 이 과정은 SQL의 조인(join) 연산과 유사합니다. merge() 함수 merge() 함수는 두 데이터 프레임을 공통 열을 기준으로 결합합니다. 결합 방식에는 내부 조인(inner joi..

프로그래밍 언어/Python2024. 7. 28. 23:34[파이썬 개념 정리 12] Pandas의 DataFrame 마스터하기 2️⃣ (데이터 전처리)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)데이터 전처리결측값 찾기Pandas의 DataFrame에서 결측값을 찾는 방법은 여러 가지가 있으며, 이에 대한 방법을 밑에서 설명하도록 하겠습니다.결측값 : 데이터셋에서 값이 누락되었거나 정의되지 않은 값 (NA, NaN, None)info() 메소드 사용info() 메서드는 DataFrame의 각 컬럼에 대한 요약 정보를 제공하기 때문에 요약 정보에 포함된 비결측값(non-null) 개수를 통해 결측값의 유무를 확인할 수 있습니다.df.info()isnull() 또는 isna() 메소드 사용isnull() 메서드는 DataFrame이나 Series 내의 결측값을 True..

프로그래밍/Excel2024. 7. 13. 23:33[Excel 개념 정리 3]엑셀을 활용한 추론 통계 개념 정리 3️⃣ (데이터 전처리)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)이번 글에서는 엑셀의 기초에 이어 엑셀에서의 데이터 전처리에 대한 내용 정리를 하려고 합니다.이번 글에서는 범주형 변수 처리, 결측값 처리, 이상치 처리에 대한 내용을 다룰 예정입니다.엑셀에서의 데이터 전처리데이터 전처리(pre-processing)데이터 전처리는 데이터를 통계적으로 분석하거나, 머신러닝을 통해 예측 모델을 만들 수 있도록 완벽한 상태로 가다듬는 과정을 말합니다.데이터 전처리는 데이터 분석 과정의 최소 50%이상을 차지합니다.데이터 전처리 단계에서 요구되는 과정은 범주형 변수 처리 / 결측치 처리 / 이상치 처리/ 데이터 병합(엑셀에서 이 과정은 까다롭다.)..

스프린트/위클리페이퍼2024. 7. 3. 18:46[#3] 스프린트 DA 트랙 3주차 위클리 페이퍼(데이터 전처리, t-test)

위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)2주차에 이어서 이번 3주차 위클리 페이퍼의 내용을 소개하려고 합니다.이번 3주차 위클리 페이퍼 주제는1. 데이터 전처리 방법들 (ex. 결측값 처리 등) 에 대해 설명해 주세요.2. t-test에 대해 설명해 주세요.이번 3주차 위클리 페이퍼의 첫번째 주제 데이터 전처리는 데이터 분석, 기계 학습 모델링, 통계 분석 등을 위해 필수적인 과정입니다.데이터 전처리..

티스토리툴바