본문 바로가기

반응형

AI & Computer Science

(6)
R 프로그래밍에서 결측치(NA) 처리 및 연산 방법 결측치(NA) 처리R 프로그래밍에서 결측치(missing value)는 NA(Not Available)라는 문자로 처리됩니다. 또한, NaN(Not a Number)은 분모를 0으로 나누는 것과 같이 계산이 불가능한 경우 출력되는 문자입니다. 이 글에서는 NA를 처리하는 방법과 결측치가 포함된 데이터에 대한 연산 방법을 알아보겠습니다. 1. 결측치의 기본 이해R에서 결측치는 NA로 표시됩니다. 예를 들어, 다음과 같은 벡터 y가 있을 때:y  is.na() 함수는 벡터에 결측치가 존재하는 경우 TRUE를 반환합니다.is.na(y)# [1] FALSE FALSE FALSE TRUE 결측치가 포함된 벡터 y에 대해 요약 통계를 구하면 다음과 같이 결과에 NA's 항목이 포함됩니다.summary(y)# Mi..
통계적 이상치 탐지: R을 활용한 단계별 가이드 이상치란?통계에서 이상치(outlier)는 데이터 샘플에서 관측된 값이 다른 관측값들과 큰 차이를 보일 때를 의미합니다. 이는 데이터의 가변성 때문일 수 있으며, 경우에 따라 잘못된 실험으로 인해 발생한 에러일 수도 있습니다. 후자의 경우 데이터 분석 이전에 반드시 이상치를 제거해야 합니다. 이 포스팅에서는 R 프로그래밍을 활용해 다양한 이상치 검출 방법을 알아보겠습니다. 0. 데이터 샘플링이상치 검출 테스트를 위해 이상치가 포함된 데이터를 생성해보겠습니다.1) 데이터 생성정규분포를 따르는 100개의 데이터를 생성하고, 그 중 일부 데이터에 이상치를 추가합니다.data 2) 데이터 분포 시각화생성된 데이터의 분포를 시각화하여 이상치를 확인합니다.hist(data, breaks=20, probability..
DICOM (DCM) 이미지를 PNG, JPG로 변환하기 의료 영상 데이터를 활용한 머신러닝 학습을 위해 DICOM 파일을 PNG나 JPG와 같은 이미지 포맷으로 변환해야 할 때가 많습니다. 예전에 어떤 라이브러리를 사용했는지 기억이 나지 않아 다시 찾아보니, 간단하면서도 강력한 패키지를 발견했습니다. 바로 mritopng입니다. mritopng 패키지 소개mritopng는 DICOM 파일을 PNG 포맷으로 손쉽게 변환할 수 있는 파이썬 패키지입니다. 설치와 사용법이 매우 간단하며, 폴더 내의 모든 DICOM 파일을 일괄적으로 변환하는 기능도 지원합니다. mritopng 설치 방법먼저 GitHub에서 소스 코드를 다운로드합니다: mritopng GitHub Repository.다운로드한 zip 파일을 압축 해제합니다.터미널(콘솔)에서 다음 명령어로 패키지를 설..
DeLong’s Test를 활용한 AUC 비교: Python 구현 가이드 머신러닝과 딥러닝 모델을 평가할 때, AUC(Area Under the ROC Curve)는 중요한 성능 지표 중 하나입니다. 특히, 두 모델 간의 성능을 비교할 때는 단순히 AUC 값을 비교하는 것 이상으로, 그 차이가 통계적으로 유의한지를 확인하는 것이 중요합니다. 이를 위해 DeLong’s test라는 강력한 통계 검정 방법을 사용할 수 있습니다. 이번 포스트에서는 Python을 사용하여 DeLong’s test를 구현하는 방법과 그 작동 원리에 대해 설명하겠습니다.  DeLong’s Test란? DeLong’s test는 두 개의 ROC(Receiver Operating Characteristic) 곡선의 AUC를 비교하여 두 모델 간의 성능 차이가 통계적으로 유의한지를 평가하는 방법입니다. 이 ..
2-Fold Macro-Average 시각화: R을 활용한 파워포인트 Meta 형식 그래프 추출 가이드 AI와 관련된 연구를 진행하다 보면, 모델의 성능을 평가하기 위해 ROC 그래프를 그리는 작업은 필수적인 과정입니다.ROC 그래프는 모델의 예측 성능을 시각적으로 표현해 주며, 특히 이진 분류 문제에서 중요한 지표로 사용됩니다. 많은 연구자들은 Python의 다양한 라이브러리(예: Scikit-learn, Matplotlib 등)를 이용해 ROC 그래프를 생성하곤 합니다. Python은 강력한 데이터 처리 및 시각화 도구를 제공하지만, 생성된 그래프를 후속 작업에서 수정하거나, 여러 개의 ROC 그래프를 하나로 합치는 데 상당히 제한적입니다.특히, 학술 발표나 보고서 작성 시, 그래프의 범례와 같이 세부적인 요소를 조정해야 하는 경우가 종종 발생합니다. 이러한 문제를 해결하기 위해, R을 활용 해볼겁니다..
AI 모델 성능 평가를 위한 R 코드: 신뢰 구간(CI) 계산 가이드(파이썬) AI 모델 성능 평가를 위한 완벽한 가이드: 성능 지표와 신뢰 구간 계산AI 모델을 개발하고 평가하는 과정에서, 모델의 성능을 정확히 측정하고 그 결과를 신뢰할 수 있도록 하는 것은 매우 중요합니다. 특히, 정확도(Accuracy), 민감도(Sensitivity), 특이도(Specificity), 양성예측도(PPV), 음성예측도(NPV)와 같은 주요 성능 지표는 모델이 얼마나 잘 예측하는지를 보여주는 중요한 척도입니다. 그러나 이러한 지표들은 단순한 값 이상을 의미하며, 신뢰 구간(CI)을 함께 계산함으로써 그 값의 신뢰성을 평가할 수 있습니다. 이 포스팅에서는 Python 코드를 활용해 AI 모델의 성능 지표와 그 신뢰 구간을 간단하게 계산하는 방법을 소개합니다. 반복적인 작업을 자동화하고, 필요할 때..

반응형