본문 바로가기
728x90

전체 글402

[Pandas 기초] 데이터프레임 합치기(merge, join, concat) 1. 데이터 프레임 붙이기 : pd.concat() pd.concat()함수는 데이터프레임을 말그대로 물리적으로 이어 붙여주는 함수로, pd.concat(데이터프레임리스트)로 사용한다. 두가지의 데이터프레임을 만들어보자. import pandas as pd df1 = pd.DataFrame({'a':['a0','a1','a2','a3'], 'b':['b0','b1','b2','b3'], 'c':['c0','c1','c2','c3']}, index = [0,1,2,3]) df2 = pd.DataFrame({'a':['a2','a3','a4','a5'], 'b':['b2','b3','b4','b5'], 'c':['c2','c3','c4','c5'], 'd':['d2','d3','d4','d5']}, inde.. 2022. 8. 18.
[Pandas 기초]5.Pandas 데이터 파일 입출력 4. Pandas 파일 입출력 Pandas로 입출력 할 수 있는 파일 포맷은 매우 다양하지만 대표적으로 아래와 같습니다. CSV, Excel, HTML, JSON 등 이번에는 CSV 및 Excel File을 입출력하는 방법을 알아보겠습니다. 예제에 사용하기 위한 데이터를 확보하기 위해 kaggle에서 fifa19 선수 Dataset을 다운로드 받았으며, 실습에 사용하기 위해 변형하였습니다. 4.1 파일 입력 4.1.1 (구분자가 있는)텍스트 파일 및 CSV 파일 읽기 Pandas에서 read_csv 함수를 이용하여 텍스트 파일 및 CSV 파일을 읽을 수 있으며, 읽은 데이터는 DataFrame형태로 저장됩니다. read_csv 함수 사용법은 아래와 같습니다. pd.read_csv(FilePath, sep.. 2022. 8. 17.
[파이썬]텍스트 파일2개로 나누기 https://hdongle.tistory.com/73 import os import shutil path = 'D:/Yolo/darknet/build/darknet/x64/model/fuelhole04_combo' train_txt = os.path.join(path, 'train.txt') test_txt = os.path.join(path, 'test.txt') f = open(train_txt) lines = f.readlines() f.close() #os.remove(train_txt) f_train = open(train_txt, mode='wt', encoding='utf-8') f_test = open(test_txt, mode='wt', encoding='utf-8') for i in .. 2022. 8. 16.
[Python] 파일명 설정을 위한 0 채우기 및 문자열 포매팅 출처: https://deep-i.tistory.com/48 1. 파일명에서 0 채우기 데이터셋을 만들다 보면 앞에 0을 채운 파일명을 순서대로 만들어야 하는 상황이 있습니다. 예를 들어 '0001.jpg', '0002.jpg'와 같은 파일들입니다. 딥러닝에서 데이터셋을 구축하는 경우 많이 사용되며 숫자의 개수로 파일명을 설정합니다. for문을 활용해서 순차적으로 이미지 파일명을 생성할 수 있습니다. 2. 간단한 문자열 포매팅 2022. 8. 16.
[파이썬] if문 안에 정규식 문자열 비교 출처: https://codechacha.com/ko/python-compare-strings/ Python - 문자열 비교 방법 PYTHONEXAMPLE 파이썬에서 두개의 문자열 비교하는 다양한 방법들을 소개합니다. 1. ==, !=으로 문자열이 같은지, 다른지 확인 2. in, not in으로 문자열 포함 여부 확인 3. startswith()로 특정 문자열로 시작하는지 확인 4. endswith()로 특정 문자열로 끝나는지 확인 5. 정규표현식으로 문자열 패턴 비교 1. ==, !=으로 문자열이 같은지, 다른지 확인 ==, !=으로 두개의 문자열이 서로 같은지 다른지 비교할 수 있습니다. str1 = "Hello, World" str2 = "Hello, World" str3 = "Hello, Pyt.. 2022. 8. 16.
[정규식] 정규표현식 공부 https://www.youtube.com/watch?v=t3M6toIflyQ&t=59s Groups and ranges | 또는 ()그룹 ex) (a|e|d) [] 문자셋, 괄호안의 어떤 문자든 ex) [aed] [^] 부정 문자셋, 괄호 안의 어떤 문자가 아닐때 (?:) 찾지만 기억하지는 않음 Quaintifiers ? 없거나 있거나 (Zero or One) * 없거나 있거나 많거나 (Zero or More) + 하나 또는 많이 (One or More) {n} n번 반복 {min, } 최소 {min, max} 최소, 그리고 최대 Boundary-type \b 단어 경계 \B 단어 경계가 아님 ^ 문장의 시작 $ 문장의 끝 Character classes \ 특수 문자가 아닌 문자 . 어떤 글자 (줄바.. 2022. 8. 15.
파이썬 크롤링, re로 특정 정보 선택하기(간단한 정규표현식) re란? re는 파이썬 기본 라이브러리로 별도 설치가 필요 없다. re를 사용하면 특정 규칙을 가지고 있는 형태의 정보만 선택해서 가져올 수 있다. re 예제 re를 import한 다음 아래와 같이 쓰면 된다. re.findall( 정규표현을 활용한 규칙, 값이 담긴 변수명 ) .+?는 하나 이상의 글자를 의미하며, (.+?)는 해당 위치에 있는 값을 선택하는 것이다. ( )안에 들어가는 것이 내가 추출하고자 하는 정보를 뜻한다. 한번에 여러개의 가로를 쓸수 있음. ( )에 담긴 정보는 배열의 형태로 반환된다. re의 findall 메소드를 사용하면 반환 값이 하나여도 배열을 반환한다. 그렇기 때문에 일반적으로 2차원 배열이 반환 된다. 그래서 그 안의 정보를 가져오기 위해서는 배열변수명[ 1차 인덱스 .. 2022. 8. 12.
728x90