본문 바로가기

Data-Analysis

(6)
머신러닝에서 주로 사용되는 argmax(), argmin() Argmax란? Argmax는 ML에서 주로 접할 수 있는 수학 함수이다. 예를 들어, 알고리즘을 설명하는데 사용되는 연구 논문에서 argmax가 사용되는것을 볼 수 있다. 알고리즘 구현에서 argmax function을 사용하도록 지시받을 수도 있다. 그렇다면 argmax는 무엇이며, 어떻게 작동하는 것일까?? 1. Armax는 파라미터로 받아오는 배열에서 최대값을 가지는 값의 인덱스를 리턴하는 함수이다. 2. Argmax는 예측 확률이 가장 큰 클래스를 찾기 위해 기계 학습에서 가장 일반적으로 사용된다. 3. Argmax는 직접 구현할 수 있지만, 실제로 Numpy 라이브러리의 argmax() 함수를 주로 사용한다. Argmax의 기본적인 예시를 들어보자면 다음과 같다. - 우선 0~9까지의 배열을 ..
pandas / DataFrame으로 3차원 데이터 표현하기 1. 3차원 데이터 수직으로 붙여 2차원 데이터로 표현하기 - 우리가 다룰 데이터는 mlist이고, 데이터의 shape은 다음과 같다. (train_images, train_labels), (test_images,test_labels)= tf.keras.datasets.mnist.load_data() train_images.shape - 행 28 열 28인 데이터 총 60000개의 면으로 구성되어 있다. - 면 하나를 하나의 행으로 만들도록 하려면 코드를 다음과 같이 구성하면 된다. m,n,r = train_images.shape out_arr = np.column_stack((np.repeat(np.arange(m),n),train_images.reshape(m*n,-1))) out_df = pd.Da..
Pandas(데이터 구조 살펴보기) head() -head는 default 값으로 앞에서부터 5개의 행이 조회 된다. -파라미터로 숫자를 넣어 조회하고 싶은 행의 갯수를 지정할 수 있다. df.head() df.head(3) tail() -tail은 반대로 default 값으로 뒤에서부터 5개의 행이 조회 된다. -파라미터로 숫자를 넣어 조회하고 싶은 행의 갯수를지정할 수 있다. df.tail() df.tail(3) info() -열(column)별 정보를 보여준다. df.info() RangeIndex: 891 entries --> 891개의 행을 가진 데이터프레임을 의미. Non-Null Count --> 각 columns 별 결측치 데이터를 가지고 있지 않은 수. *deck열의 경우 891-203, 총 681개의 데이터가 결측치 데이..
Pandas(Excel, CSV 파일 불러오기) pandas를 통해 엑셀 파일을 불러올 수 있다. excel = pd.read_excel('data/seoul_transportation.xlsx', sheet_name='철도', engine='openpyxl') *sheet_name : 불러올 sheet이름 exce문서 왼쪽 하단에 위치해 있다. [참고] pd.read_excel()로 엑셀 데이터 로드시 에러 발생한다면 engine='openpyxl'을 추가 excel.head() *.head(): 데이터의 처음부터 5번째 줄까지만 표시해줌. 하나의 sheet말고 모든 sheet를 다 가져 오고 싶다면 sheet_name=None으로 지정해주면 된다. 가지고 올때는 Dictionary 형태로 가지고 오며, keys()로 시트명을 조회할 수 있다. ex..
Pandas(DataFrame) DataFrame -2차원 데이터 구조 -행(row), 열(column)으로 구성되어 있다. 각 열(column)애는 데이터 타입을 가진다. *이름이란 열은 object, 나이라는 열은 int, 몸무게라는 열은 float타입을 가진다. pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) *기본 열이름은 0부터 시작하는 숫자 형태로 주어진다. pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns=['가', '나', '다']) *각 열의 이름을 지정해 줄 수 있다. *columns 옵션을 지정해 줄때 하나의 컬럼을 지정해 주더라도 배열의 형태로 지정해 주어야 한다. pd.DataFrame(s,columns=['이름']) dict..
Pandas(Series, Indexing) 개요 pandas는 관계형 또는 레이블된 데이터로 쉽고 직관적으로 작업할 수 있돌고 설계되었고, 유연한 데이터 구조를 제공하는 Phthon패키지 이다. 또한 어떤 언어로도 사용할 수 있는 가장 강력하고 유연한 오픈 소스 데이터 분석/조직 도구이다. Pandas는 다음의 종류의 데이터에 적합하다. SQL테이블 또는 Excel 스프레드 시트에서와 같은 열과 행으로 이루어진 정형 데이터 정렬되고 정렬되지 않은 시계열 데이터 다른형태의 관찰/통계 데이터 세트 *시계열 데이터는 일정 시간 간격으로 한 줄로 배열된 데이터를 의미(주식 데이터) Pandas의 자료구조 Pandas의 자료 구조로 크게 3가지만 알면 된다. 1차원 자료 구조(1D): Series 2차원 자료 구조(2D): Dataframe 3차원 자료 ..