'Big Data' 카테고리의 글 목록

Big Data 2021. 11. 20. 15:53

데이터 변환 데이터 유형 변환 as.character() : 문자형 변환 as.numeric() : 숫자형 변환 as.double() : 실수형 변환 as.logical() : 논리형 (T / F) 변환 as.integer() : 정수형 변환 자료구조 변환 as.data.frame() : 데이터 -> 데이터프레임 as.list() : 데이터 -> 리스트 as.matrix() : 데이터 -> 행렬 as.vector() : 데이터 -> 벡터 as.factor() : 데이터 -> 요인 > a str(a) int [1:5] 0 1 2 3 4 > a 프레임 > a a 1 0 2 1 3 2 4 3 5 4 > a a a 리스트 > a $a [1] 0 1 2 3 4 5 6 7 8 9 > a a 행렬 > a [,1] [..

[R] - 데이터 정제

Big Data 2021. 11. 19. 21:19

결측값 입력이 누락된 값 (not available) 결측값이 데이터에 포함되어 있을 경우 산술 연산을 수행할 수 없어 분석 결과가 왜곡될 수 있다. 결측값 인식 함수인 is.na(x), complete, cases(x) 함수를 통해 결측값을 확인할 수 있다. airquality : 뉴욕의 공기질을 측정한 데이터 is.na(x) : 결측값이면 T , 아니면 F 반환 행 별로 결측이 없는 지 출력 (5행은 있으므로 F) 결측값 처리 PimaIndiansDiabetes2 데이터를 사용하여 특정 컬럼 삭제 단순 대치법 결측값을 그럴듯한 값으로 대체하는 통계적 기법 완전 분석법(결측값이 있는 행 삭제), 평균 대치법(결측 값을 평균 값으로 변경) 등 존재 dim : 전체 행의 수 확인 , na.omit : 결측..

[R] - 데이터 전처리

Big Data 2021. 11. 18. 17:32

데이터 전처리 데이터 전처리 패키지는 전처리 작업에 필요한 함수들을 모아놓은 패키지 패키지 유형 : plyr, dplyr, reshape2, data.table plyr 원본 데이터를 분석하기 쉬운 형태로 나눠서 다시 새로운 형태로 만들어 주는 패키지 데이터 분할(split), 특정 함수 적용(apply), 재조합(combine)하여 반환 패키지 함수는 **ply 형태 (data frame, list, array ) 첫 번째 입력, 두 번 째 출력 - adply 라면 array로 입력 받아 data frame으로 출력 adply adply(iris, 1, function (row) {row$Sepal.Length >= 5.0 & row$Species == "setosa"}) adply함수를 통해 데이터 ..

[R] - 데이터 수집

Big Data 2021. 11. 17. 17:29

파일 종류 TXT : 일반 문자열이 저장된 텍스트 파일 CSV : Comma-Separated Values (필드를 콤마로 구분한 텍스트 파일) TSV : Tab-Separated Values : 필드를 \t(탭)으로 구분한 텍스트 파일 EXCEL : 스프레드시트를 이용한 엑셀의 데이터 파일 파일 데이터 수집 파일 읽어오는 함수 scan, read.table, read.csv, read.delim 파일 쓰는 함수 write.table, write.csv, write.xlsx scan scan 함수는 키보드를 통해 값을 직접 입력하거나 지정된 파일을 읽는 함수 scan("") # scan("")을 입력하면 키보드 입력 대기 1: 1 2 3 # 처음 입력 4: # 공백 엔터 시 결과 출력 Read 3 ite..

[R] - 시각화 함수

Big Data 2021. 11. 17. 16:04

시각화 함수 graphics 산점도, 히스토그램, 막대형 그래프 등의 시각화 기능 함수 : plot, hist, barplot, pie, boxplot 등 plot 산점도를 나타내는 시각화 함수 a = c(3,5,4) plot(a) length

[R] - 기본 문법

Big Data 2021. 11. 16. 17:40

벡터 함수 숫자함수 제곱근 : sqrt(x) 로그 : log(x) 절댓값 : abs(x) 반올림: round(x) 소수점 버림 : trunc(x) 통계적 함수 평균 : mean(x) 합계 : sum(x) 중앙값 : median(x) 범위 (최소,최대) : range(x) 표준편차 : sd(x) 분산 : var(x) 공분산 : cov(x,y) 상관 계수 : cor(x,y) 최솟값 : min(x), 최댓값 : max(x) 집합 함수 합집합 : union(x) 교집합 : intersect(x,y) 차집합 : setdiff(x,y) 리스트 리스트는 (키, 값)으로 데이터를 저장하는 R의 모든 객체를 담을 수 있는 데이터 구조 list(key=value, key=value, ...) 형태로 나열하며 정의 list..

[Big Data] Chap 4. 빅데이터 결과 해석

Big Data 2021. 9. 27. 21:04

분석 모형 평가 종속변수의 유형에 따라 다르다. 종속변수가 범주형(분류 모형) : 혼동 행렬 종속변수가 연속형(회귀 모형) : RMSE (평균 제곱근 오차) 혼동 행렬 분류의 예측 범주와 실제 범주를 교차 표로 정리한 행렬 정확도 : 실제 분류 범주를 정확하게 예측한 비율 오차 비율 : 실제 분류 범주를 잘못 분류한 비율 TPR(재현율, 민감도) : 실제 긍정에서 올바르게 예측한 비율 FPR (거짓 긍정율) : 실제 부정에서 긍정으로 잘못 예측한 비율 특이도 : 실제 부정인 범주에서 부정으로 올바르게 예측한 비율 정밀도 : 긍정으로 예측한 비율에서 실제 긍정인 비율 ROC 곡선 가로축 FPR, 세로축 TPR로 두어 시각화한 그래프 0.5 ~1.0 까지 있으며 1에 가까울 수록 좋은 모형 교차 검증 일반화..

[Big Data] Chap 3. 빅데이터 모델링(2)

Big Data 2021. 9. 27. 20:19

회귀 분석 독립변수와 종속변수 간 선형적인 관계 도출 독립변수를 통해 종속변수를 예측하는 분석 기법 독립변수 (설명 변수, 예측 변수) 종속변수 (반응 변수, 결과 변수) 회귀 모형의 가정 선형성, 독립성, 등분산성, 비상관성, 정상성 5가지 만족시켜야 한다. (선독등비정) 회귀 모형 검증 F-통계량을 통해 통계적 유의미 확인 F-통계량의 p-value가 유의 수준보다 작으면 유의하다고 볼 수 있다.(대립 가설) F-통계량이 클수록 회귀 모형은 통계적으로 유의하다. t-통계량을 통해 각 독립변수가 종속변수에 미치는 영향 파악 모형의 설명력은 결정계수 R^2으로 판단 결정계수는 0~1 값을 가지며, 높을 수록 설명력이 높다. 회귀 제곱합 (SSR) / 전체 제곱합 (SST) 수정된 결정계수는 기존 결정 계..

검색 태그

티스토리툴바