파이썬은 데이터 처리에 최적화된 프로그래밍 언어이다. 데이터 처리를 위한 많은 기능들을 갖추고 있어 데이터 분석가들과 소프트웨어 개발자들이 자주 사용한다. 이 문서에서는 파이썬을 이용한 데이터 처리를 소개하고, 예제로 어떻게 사용하는지 알아보겠다.
파이썬은 다양한 라이브러리를 제공하여 데이터 처리를 도와준다. 가장 인기 있는 라이브러리로는 NumPy
, pandas
, SciPy
, Matplotlib
등이 있다.
다음은 파이썬으로 데이터 처리를 하는 예제이다.
NumPy 라이브러리를 이용하여 배열을 생성하는 예제이다.
import numpy as np
# 1차원 배열
arr1 = np.array([1,2,3])
# 2차원 배열
arr2 = np.array([[1,2,3], [4,5,6]])
# 0으로 초기화된 2x3 배열 생성
arr3 = np.zeros((2,3))
# 단위 행렬 생성
arr4 = np.eye(3)
pandas 라이브러리를 이용하여 데이터 전처리를 하는 예제이다.
import pandas as pd
# 데이터 프레임 생성
df = pd.DataFrame({'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]})
# 특정 열의 데이터를 모두 더하기
sum_of_column_B = df['B'].sum()
# 특정 열의 데이터를 최대값과 최소값 찾기
max_of_column_A = df['A'].max()
min_of_column_C = df['C'].min()
# 데이터프레임의 각 열의 값을 모두 더하기
sum_of_all_columns = df.sum()
Matplotlib 라이브러리를 이용하여 시각화하는 예제이다.
import matplotlib.pyplot as plt
# 0~9까지의 값을 갖는 배열 생성
x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
# 배열의 값을 제곱하여 새