본문 바로가기
반응형

공부/데이터19

[python] 공공데이터 API호출 및 pandas 로 변환하기 공공데이터 홈페이지 https://www.data.go.kr/ 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr '상권정보'로 검색하면 다음과 같은 결과가 나온다. 각각 데이터를 제공하는 방식이 다른데, 위의 파일데이터는 csv나 xls 등 파일로 제공한다는 것이고, 아래가 API를 이용해 호출하는 것이다. 이번 글은 API에 관련된 것이니 아래것을 참조한다. End Point는 도메인의 root 경로다. 해당 API의 모든 경로는 저 경로에서 시작한다고 보면 된다. 데이터포.. 2019. 11. 3.
[NLP] 형태소 분석기 mecab 설치하기(mac) 자연어 처리에서 형태소 분석을 위해 사용되는 mecab를 설치하는데 겪었던 시행착오를 여기에 정리해둔다. ​ python jupyter 에서 mecab 를 실행하면 다음과 같은 에러가 발생했다. from konlpy.tag import Mecab tagger = Mecab() --------------------------------------------------------------------------- NameError Traceback (most recent call last) /usr/local/lib/python3.7/site-packages/konlpy/tag/_mecab.py in __init__(self, dicpath) 106 try: --> 107 self.tagger = Tagge.. 2019. 10. 19.
[pandas] loc 와 iloc 차이 iloc : integer position을 통해 값을 찾는다. ​ loc : label을 통해서 값을 찾는다. ​ 문법 공통점: df1.loc[[행],[열]] ​ ​ 단순 row만 필터할 땐 둘다 행열에는 숫자를 입력받으므로 동일하게 사용할 수 있다. ​ 공통점 예제: df1.loc[:2] 또는 df1.iloc[:2] column(열)을 필터할때엔 사용법이 각각 다르다. ​ 각각의 샘플을 해보면 다음과 같다 ​ - loc의 경우 df1.loc[:2, ['Survived', 'Pclass','Name']] - iloc의 경우 df1.iloc[:2,1:4] 사용한 샘플 데이터는 여기에 올려둔다(csv파일) 2019. 10. 9.
[pandas] groupby 에 컬럼별로 count, sum, mean 하기 컬럼별로 데이터를 조정하고 싶을 때 사용할 수 있다. 데이터 샘플은 캐글에 있는 타이타닉의 train.csv 로 했다. 받으러 가기 번거로우니 여기에 파일추가 import pandas as pd df1 = pd.read_csv('data/titanic.csv') df1.head() 단순 groupby 를 사용하면 모든 컬럼이 적용된다. df1.groupby('Survived').count() 이번엔 Servived를 기준으로 Pclass는 갯수를, Age는 평균을 Fare는 최대값이 나오도록 설정했다 df1.groupby('Survived').agg({'Pclass': 'count','Age':'mean', 'Fare':'max'}) 끝. 2019. 10. 8.
[pandas] 날짜 문자열을 datetime 형태로 변경 string 형태로 사용해도 문제가 없다면 써도 상관없겠지만, 시계열쪽을 하려면 미리 가공하는 연습을 해두는게 좋을듯 하다. import pandas as pd from pandas import DataFrame data = [['눈을감자','2019-10-01 11:12:35','2500'], ['진라면','2019-10-03 12:15:30', '1000'], ['1회용 면도기','2019-10-06 13:30:21', '300']] # data를 DataFrame 형태로 변경 d1 = DataFrame(data, columns=['종류','구매일자','금액']) d1 종류구매일자금액 0눈을감자2019-10-01 11:12:352500 1진라면2019-10-03 12:15:301000 21회용 면도기.. 2019. 10. 6.
통계용어정리, 기술통계, 추론통계 통계에서 가장 중요한 것은 데이터를 원하는 형태로 가공하는 방법이다. 데이터 관련 업종 많은 이들이 여기에 시간을 다수 할애한다. # 통계용어 정리 - 모집단(population)- 장점: 데이터의 정확성 향상- 단점: 비용이 많이듬(시간, 인력등 낭비가 커질 수 있음)- 표본집단(sample)- 표집(sampling)- 어떻게 표집할 것인가?- 특정기준을 주면 데이터 쏠림현상이 생길 수 있다 => 이를 편향 또는 오염이라 함(bios)- 이런 현상을 줄이기 위해 랜덤샘플링을 사용한다. (무작위로 데이터를 차출하는 것) - 모평균: 평균을 구하는 것- 이는 데이터만 있으면 구할 수 있지만 데이터가 없거나 너무방대하면 처리하기 힘들다.- 기호: m- 모분산: 관찰값들이 얼마나 많이 퍼져있는지 조사하는 것-.. 2019. 2. 17.
반응형