기초 통계와 데이터 시각화통계 기본 상식과 그래프데이터 분포 퀴즈

Q

4번 질문 dataFrame으로 만들어 분산을 추출할 시 값이 다르게 나와요

조회 1,442

2024년 6월 28일

A
4개의 답변이 있어요
질문자 채택
2024년 6월 29일 ()

댓글 3

시간순
베스트 댓글
2024년 6월 29일
'height' 열의 분산을 구하는 함수 var을 이용해 위 사진처럼 출력해봤지만 116.666... 이 나왔네요...
그래서 찾아보니 해당 레슨에서도 나왔던 내용인 표본분산 계산 시 pandas는 N - 1 (N = 데이터의 개수)로 계산한다는 것을 알아냈습니다.
모분산을 계산하는 것처럼 N으로 나누고 싶다면
df1['height'].var(ddof=0)
이런식으로 파라미터에 ddof=0을 넣어주면 된다고 합니다!
실제로 해보니 87.5가 출력되었습니다.
2024년 6월 29일
네, 표본분산의 개념인데요, 다음 링크(https://m.blog.naver.com/sjloveu2/222908526347)에 설명이 잘 되어 있네요
2024년 6월 29일
모분산과 표본분산의 차이를 이해하시면, 통계적으로 데이터를 이해하시는 기반이 될 것 같습니다
2025년 4월 8일

댓글 1

시간순
베스트 댓글
2025년 4월 8일
import numpy as np

heights = np.array([177, 183, 160, 164])
variance = np.var(heights)
print(variance) # 👉 87.5
2025년 4월 8일
2025년 4월 8일

(주) 코드잇

대표강영훈, 이윤수

개인정보보호책임자강영훈

이메일support@codeit.kr

사업자 번호313-86-00797

통신판매업제 2019-서울중구-1034 호

주소서울특별시 중구 청계천로 100 시그니쳐타워 동관 10층 코드잇

전화02-2289-1998