본문 바로가기

Data-Analysis/Pandas

(4)
Pandas(데이터 구조 살펴보기) head() -head는 default 값으로 앞에서부터 5개의 행이 조회 된다. -파라미터로 숫자를 넣어 조회하고 싶은 행의 갯수를 지정할 수 있다. df.head() df.head(3) tail() -tail은 반대로 default 값으로 뒤에서부터 5개의 행이 조회 된다. -파라미터로 숫자를 넣어 조회하고 싶은 행의 갯수를지정할 수 있다. df.tail() df.tail(3) info() -열(column)별 정보를 보여준다. df.info() RangeIndex: 891 entries --> 891개의 행을 가진 데이터프레임을 의미. Non-Null Count --> 각 columns 별 결측치 데이터를 가지고 있지 않은 수. *deck열의 경우 891-203, 총 681개의 데이터가 결측치 데이..
Pandas(Excel, CSV 파일 불러오기) pandas를 통해 엑셀 파일을 불러올 수 있다. excel = pd.read_excel('data/seoul_transportation.xlsx', sheet_name='철도', engine='openpyxl') *sheet_name : 불러올 sheet이름 exce문서 왼쪽 하단에 위치해 있다. [참고] pd.read_excel()로 엑셀 데이터 로드시 에러 발생한다면 engine='openpyxl'을 추가 excel.head() *.head(): 데이터의 처음부터 5번째 줄까지만 표시해줌. 하나의 sheet말고 모든 sheet를 다 가져 오고 싶다면 sheet_name=None으로 지정해주면 된다. 가지고 올때는 Dictionary 형태로 가지고 오며, keys()로 시트명을 조회할 수 있다. ex..
Pandas(DataFrame) DataFrame -2차원 데이터 구조 -행(row), 열(column)으로 구성되어 있다. 각 열(column)애는 데이터 타입을 가진다. *이름이란 열은 object, 나이라는 열은 int, 몸무게라는 열은 float타입을 가진다. pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) *기본 열이름은 0부터 시작하는 숫자 형태로 주어진다. pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns=['가', '나', '다']) *각 열의 이름을 지정해 줄 수 있다. *columns 옵션을 지정해 줄때 하나의 컬럼을 지정해 주더라도 배열의 형태로 지정해 주어야 한다. pd.DataFrame(s,columns=['이름']) dict..
Pandas(Series, Indexing) 개요 pandas는 관계형 또는 레이블된 데이터로 쉽고 직관적으로 작업할 수 있돌고 설계되었고, 유연한 데이터 구조를 제공하는 Phthon패키지 이다. 또한 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석/조직 도구이다. Pandas는 다음의 종류의 데이터에 적합하다. SQL테이블 또는 Excel 스프레드 시트에서와 같은 열과 행으로 이루어진 정형 데이터 정렬되고 정렬되지 않은 시계열 데이터 다른형태의 관찰/통계 데이터 세트 *시계열 데이터는 일정 시간 간격으로 한 줄로 배열된 데이터를 의미(주식 데이터) Pandas의 자료구조 Pandas의 자료 구조로 크게 3가지만 알면 된다. 1차원 자료 구조(1D): Series 2차원 자료 구조(2D): Dataframe 3차원 자료 ..