본문 바로가기
데이터 분석

[패스트 캠퍼스 수강 후기] 직장인을 위한 파이썬 데이터 분석 올인원 패키지 Online 7일차

by HIMMEL95 2021. 3. 2.

수강한 강의
1강. Ch01.pandas-01.Pandas를 소개합니다 / 2강.Ch01.pandas-02.Series와 DataFrame / 3강.Ch01.pandas-03.csv파일 읽어오기 / 4강.Ch01.pandas-04.excel 파일 읽어오기

오늘은 데이터 분석을 하면서 필수적인 Pandas에 관한 내용을 공부하여 다루어보도록 하겠습니다.

  1. 1강. Ch01.pandas-01.Pandas를 소개합니다.

    • Pandas를 창시하신 분은 아래 사진에 명시되어 있다.

    • Pandas의 기능은 위 사진과 같이 명시되어 있다. Pandas에서는 엑셀로 할 수 있는 모든 것들을 할 수 있고, excel, DB, pdf 파일 등을 읽어 올 수도 있고, 크롤링 (웹 정보 수집), Database 핸들링, 시각화 등을 수행할 수 있다. 자세한 내용은 차후에 자세하게 다룰 예정이다.

    • 기본 문법
      import pandas as pd

    • Pandas 구성

      • Series :1차원으로 이루어진 데이터 배열 / Excel에서 봤을 때 하나의 column을 Series라고 한다.
      • DataFrame : 2차원으로 이루어진 데이터 배열 / Series가 모여서 DataFrame이 됐다고 봐도 된다.
  2. 2강.Ch01.pandas-02.Series와 DataFrame

    • Pandas에서 별칭 정하기

        import pandas as pd
      pd

      <module 'pandas' from '/usr/local/lib/python3.7/dist-packages/pandas/__init__.py'>

    • 저번에 Numpy에서는 별칭을 np를 사용하였지만, 요번 Pandas에서 별칭을 정해서 하게 되면 pd를 활용해서 하면 된다.

    • Pandas의 Series와 DataFrame에 관한 내용을 위 사진에서 확인할 수 있다.

      • 우선 Series는 위에서 설명했듯이 1차원, 1개의 column을 Series라고 한다.
      • 그리고 코드 작성 방법은 pd.Series([])로 작성하면 된다.
      • () 안에는 리스트 형식으로 만들어진 것을 입력하여야 코드를 실행을 할 수가 있다. 그리고 리스트 형태의 변수를 새로 생성하여 pd.Series()안에 작성을 해도 된다.
    • DataFrame

      • list로 만들기

      • 제목 컬럼 만들기

      • 위에 보이는 것처럼 기본 데이터를 리스트에 담아서 DataFrame을 만들 수가 있다. 하지만 리스트를 활용하여 DataFrame을 만들게 된다면 위에 컬럼값에 숫자 값이 지정되기 때문에, .columns = []을 활용하여 DataFrame의 제목 컬럼을 따로 만들어 주어야 한다.

      • dict로 만들기

      • 요번에는 dict 형식을 활용하여 DataFrame을 만들어 볼 수 있다. dict를 활용하여 DataFrame을 만들게 되면 list로 작성된 DataFrame과는 다르게 제목 컬럼이 dict 안에 명시되어 있으므로, list처럼 .columns = []를 작성하지 않아도 컬럼이 있는 DataFrame을 생성할 수가 있다.

      • 요번 사진은 작성된 DataFrame을 보게 되면 index 부분에 숫자 값이 생성되어 있는 것을 확인할 수가 있다. 하지만 이것을 특정 컬럼의 값으로 지정하고 싶다면 df1.index = df1['컬럼명'] 을 사용하게 되면 위 사진에서 보이는 것처럼 인덱스 부분이 내가 지정한 컬럼이 인덱스 값으로 지정되게 된다.

      • 다음 사진은 요번 블로그 초반에 Series는 엑셀의 컬럼과 같다고 한 것을 확인할 수 있는 부분이다.

      • 작성된 DataFrame에서 원하는 컬럼 명을 선택하여 실행시켜보고, 그것의 type() 을 찍어보게 되면 pandas.core.series.Series 라는 Series 값을 확인할 수가 있다.

  3. 3강.Ch01.pandas-03.csv파일 읽어오기

    • Pandas에서 csv파일을 읽어오는 방법에 관해서 공부를 해보면 우선 제공된 파일을 로컬에서 찾아오는 방법을 활용하여 colab에 파일을 불러와서 읽는 방법이 있다. 하지만 이것은 번거로워서 다음의 방법을 소개하겠습니다.

    • 요번 방법은 블로그 초기 파일 불러오는 방법에서 배운 내용이다. 우선 코드를 활용하여 colab에서 자신의 google drive를 마운트시키고 마운팅된 폴더에서 내가 읽어오고자 하는 파일의 경로를 복사하여 특정 변수에 해당 경로를 복사한 다음에 pd.read_csv(경로 변수) 를 하게 되면 위 사진처럼 csv 파일을 읽어올 수가 있다.

    • 다음은 csv의 url 주소를 직접 pd.read_csv(url) 을 하게 되면 위와 똑같이 csv 파일을 불러올 수가 있게 된다.

  4. 4강.Ch01.pandas-04.excel 파일 읽어오기

    • Pandas에서 excel 파일을 읽어오는 방법은 위에서 다룬 csv 파일 읽어오기와 동일하다. 내가 읽을 파일의 경로를 변수에 담거나 직접 pd.read_excel(경로)* 를 해서 excel 파일을 읽어올 수가 있다.

이렇게 오늘은 pandas에 관한 기본 개요와 Series, DataFrame, 그리고 csv와 excel 파일을 불러오는 방법에 관하여 공부를 하고 작성을 해보았습니다.

  • 데이터 분석

  • 홈페이지에서 강의 찾는 방법
    패스트 캠퍼스 -> 온라인 -> 올인원 패키지 -> [데이터 분석 강의 보러 가기] -> 직장인을 위한 파이썬 데이터 분석 올인원 패키지 Online.

패스트 캠퍼스 - [데이터 사이언스] 직장인을 위한 파이썬 데이터 분석

https://bit.ly/2MJqrMs

댓글