R에서는 기본 그래픽 시스템과 ggplot2 외에도, 보다 고급화된 시각화를 위한 다양한 패키지를 제공합니다.
이 중에서도 특히 lattice, shiny, plotly는 복잡한 데이터 시각화와 상호작용을 가능하게 하는 강력한 도구입니다.
고급 시각화 기법
Lattice 패키지
lattice 패키지는 고급 다변량 그래프를 그릴 수 있도록 설계된 강력한 그래픽 시스템입니다. lattice는 ggplot2와 마찬가지로 "Trellis Graphics"라는 개념을 바탕으로 여러 변수의 상호작용을 시각화하는 데 중점을 둡니다. 다중 플롯이나 복잡한 데이터 구조를 시각화할 때 매우 유용합니다.
- xyplot() 함수: lattice의 기본 함수 중 하나로, 산점도(scatter plot)를 그립니다. ggplot2와 달리 lattice는 기본적으로 데이터를 한 번에 여러 패널로 나누어 그릴 수 있습니다.
library(lattice)
xyplot(Ozone ~ Wind | Month, data = airquality, layout = c(5, 1))
위 코드는 airquality 데이터에서 Ozone과 Wind 변수의 관계를 월별로 나누어 5개의 패널로 시각화합니다. layout 옵션은 그래프를 가로 5, 세로 1의 그리드로 배치합니다.
- bwplot() 함수: 상자 그림(Box-and-Whisker plot)을 그려 범주형 데이터의 분포를 시각화합니다.
bwplot(Species ~ Sepal.Length, data = iris)
이 코드는 iris 데이터에서 종(Species)별로 Sepal.Length의 분포를 상자 그림으로 시각화합니다.
- densityplot() 함수: 밀도 그래프를 그려 연속형 데이터의 분포를 시각화합니다. 이는 데이터의 형태와 분포를 이해하는 데 유용합니다.
densityplot(~ Sepal.Length | Species, data = iris)
이 코드는 종(Species)별로 Sepal.Length의 밀도를 시각화하는 그래프를 생성합니다.
lattice 패키지는 이러한 다양한 고급 시각화 기능을 제공하며, 특히 다변량 데이터를 직관적으로 시각화하는 데 탁월한 성능을 발휘합니다.
Shiny
shiny 패키지는 R에서 웹 애플리케이션을 개발할 수 있도록 해주는 도구입니다. shiny를 사용하면 R에서 작성한 분석 결과를 동적인 대화형 웹 애플리케이션으로 배포할 수 있습니다. shiny 앱은 데이터 시각화뿐만 아니라 데이터 입력, 필터링, 분석 결과를 실시간으로 조정할 수 있는 대화형 기능을 제공합니다.
- shiny의 기본 구조:
- UI(User Interface): 사용자 인터페이스를 정의하는 부분으로, 사용자가 입력하거나 조작할 수 있는 다양한 요소(입력 필드, 슬라이더, 버튼 등)를 설정합니다.
- Server: 서버 로직을 정의하는 부분으로, 입력된 데이터를 바탕으로 분석을 수행하고, 결과를 UI에 출력합니다.
- App 실행: shinyApp() 함수를 사용해 UI와 Server를 결합하여 앱을 실행합니다.
library(shiny)
ui <- fluidPage(
titlePanel("Simple Shiny App"),
sidebarLayout(
sidebarPanel(
sliderInput("bins", "Number of bins:", min = 1, max = 50, value = 30)
),
mainPanel(
plotOutput("distPlot")
)
)
)
server <- function(input, output) {
output$distPlot <- renderPlot({
x <- faithful$waiting
bins <- seq(min(x), max(x), length.out = input$bins + 1)
hist(x, breaks = bins, col = 'darkgray', border = 'white')
})
}
shinyApp(ui = ui, server = server)
위 코드는 shiny를 사용해 간단한 히스토그램을 생성하는 웹 애플리케이션을 만드는 예제입니다. 사용자에게 슬라이더를 제공하여 히스토그램의 빈(bin) 수를 실시간으로 조정할 수 있도록 합니다.
shiny는 이러한 인터랙티브 기능을 통해 데이터 분석 결과를 보다 직관적이고 동적으로 공유할 수 있는 도구입니다.
Plotly 패키지
plotly는 R에서 대화형(interactive) 그래프를 생성하는 데 매우 유용한 패키지입니다. plotly는 웹 기반의 시각화를 제공하므로, 사용자는 그래프의 요소에 마우스를 가져다대거나 클릭하여 추가 정보를 확인할 수 있습니다. 이는 복잡한 데이터를 시각적으로 탐색하는 데 매우 유용합니다.
- plot_ly() 함수: plotly에서 그래프를 생성하는 기본 함수로, 데이터와 그래프 유형을 정의합니다.
library(plotly)
p <- plot_ly(data = iris, x = ~Sepal.Length, y = ~Sepal.Width, type = 'scatter', mode = 'markers', color = ~Species)
p
이 코드는 iris 데이터셋에서 Sepal.Length와 Sepal.Width의 산점도를 그리며, 점의 색깔은 종(Species)에 따라 다르게 지정됩니다. 생성된 그래프는 대화형으로, 점에 마우스를 올리면 해당 데이터 포인트에 대한 자세한 정보가 표시됩니다.
- ggplotly() 함수: 기존 ggplot2 그래프를 대화형으로 변환합니다.
library(ggplot2)
library(plotly)
p <- ggplot(data = mpg, aes(x = displ, y = hwy, color = class)) + geom_point()
ggplotly(p)
이 코드는 ggplot2로 생성된 산점도를 대화형 그래프로 변환합니다. ggplotly() 함수는 ggplot2와 plotly의 강점을 결합하여 대화형 그래프를 쉽게 생성할 수 있게 해줍니다.
plotly는 웹 기반으로 대화형 시각화를 제공하기 때문에, 데이터 분석 결과를 웹 페이지에 통합하거나 대화형 보고서를 작성하는 데 매우 유용합니다.
통계적 그래프 및 분석 시각화
데이터 분석에서 통계적 시각화는 매우 중요합니다. 이는 데이터를 더 깊이 이해하고, 결과를 효과적으로 전달하는 데 필수적입니다. 밑은 주요 통계적 시각화의 기법들입니다.
- 상관 관계 시각화: 변수 간의 상관 관계를 시각화하는 것은 데이터의 패턴을 이해하는 데 도움이 됩니다. ggplot2의 geom_smooth()를 사용해 회귀선을 추가하거나, corrplot 패키지를 사용해 상관 행렬을 시각화할 수 있습니다.
- 회귀 분석 시각화: 회귀 분석 결과를 시각화하여 변수 간의 관계를 더욱 명확하게 이해할 수 있습니다. ggplot2의 geom_smooth()를 사용해 회귀선을 추가하는 방법이 일반적입니다.
- 시계열 데이터 시각화: ggplot2의 geom_line() 또는 plotly의 대화형 기능을 사용해 시계열 데이터를 시각화할 수 있습니다. 이를 통해 시간에 따른 데이터의 변동을 쉽게 파악할 수 있습니다.
- 클러스터링 시각화: heatmap() 함수나 ggplot2의 geom_tile()을 사용해 데이터의 클러스터링 결과를 시각화할 수 있습니다. 이는 유사한 데이터 그룹을 시각적으로 구분하는 데 유용합니다.
그래프 저장 및 시각화 최적화
데이터 시각화의 최종 목표는 종종 보고서나 프레젠테이션에 포함되어 정보를 전달하는 것입니다. 따라서, 그래프를 저장하고, 최적화하며, 이를 보고서나 프레젠테이션에 포함하는 과정은 매우 중요합니다.
그래프 저장
R에서 생성한 그래프를 파일로 저장하는 것은 보고서 작성이나 프레젠테이션 준비에 필수적입니다. R은 여러 형식으로 그래프를 저장할 수 있는 기능을 제공합니다.
- ggsave() 함수: ggplot2 그래프를 저장하는 가장 쉬운 방법입니다. 이 함수는 ggplot2로 생성된 마지막 그래프를 자동으로 저장하거나, 특정 그래프 객체를 지정하여 저장할 수 있습니다.
library(ggplot2)
p <- ggplot(mpg, aes(x = displ, y = hwy)) + geom_point()
ggsave("myplot.png", plot = p, width = 10, height = 8, dpi = 300)
위 코드에서 ggsave() 함수는 p 객체에 저장된 그래프를 myplot.png 파일로 저장합니다. width와 height 인수는 이미지의 크기를, dpi는 해상도를 설정합니다.
- pdf() 및 png() 함수: ggsave()는 주로 ggplot2 그래프에 사용되지만, 기본 그래픽 시스템에서는 pdf() 또는 png() 함수를 사용하여 그래프를 저장할 수 있습니다.
pdf("myplot.pdf")
plot(mpg$displ, mpg$hwy)
dev.off()
이 코드는 PDF 형식으로 그래프를 저장합니다. dev.off() 명령은 그래프 저장을 종료하는 역할을 합니다. png() 함수도 비슷한 방식으로 사용되며, PNG 형식으로 저장합니다.
시각화 최적화
그래프를 저장할 때, 특히 프린트용이나 웹용으로 사용할 경우, 그래프의 크기, 해상도, 색상 등을 조정하여 최적화하는 것이 중요합니다.
- 크기 조정: 그래프의 크기는 보고서 레이아웃에 맞춰 조정해야 합니다. ggsave()에서 width와 height 인수를 사용하여 그래프의 크기를 지정할 수 있습니다.
ggsave("myplot.png", width = 8, height = 6)
이 설정은 그래프를 8인치 너비와 6인치 높이로 저장합니다.
- 해상도 조정: 해상도(DPI, dots per inch)는 이미지의 품질을 결정합니다. 일반적으로 웹용 이미지는 72 DPI, 인쇄용 이미지는 300 DPI 이상으로 설정하는 것이 좋습니다.
ggsave("myplot_highres.png", dpi = 300)
이 설정은 고해상도 이미지를 생성합니다.
- 색상 조정: 그래프의 색상은 프린트용인지, 웹용인지에 따라 다르게 설정할 수 있습니다. 예를 들어, 프린트 시 잘 표현되지 않는 색상을 피하고, 웹에서 잘 보이는 색상을 선택해야 합니다. scale_color_manual()이나 scale_fill_manual()과 같은 ggplot2의 기능을 사용하여 색상을 조정할 수 있습니다.
p <- ggplot(mpg, aes(x = displ, y = hwy, color = class)) +
geom_point() +
scale_color_manual(values = c("red", "blue", "green", "orange"))
이번 글에서는 R에서 제공하는 다양한 고급 시각화 도구인 lattice, shiny, plotly 패키지를 활용하여 복잡한 데이터를 효과적으로 시각화하는 방법을 소개했습니다. 이러한 패키지들은 데이터 분석의 가시성을 높이고, 직관적이고 상호작용적인 시각화를 가능하게 해줍니다.
감사합니다.
'프로그래밍 언어 > R' 카테고리의 다른 글
17. R을 활용한 기본 통계 1️⃣ (기초 통계 분석 및 확률 분포) (0) | 2024.09.13 |
---|---|
16. R에서의 객체 지향 프로그래밍 (Class) (0) | 2024.09.10 |
14. R 함수를 이용한 데이터 시각화 2️⃣ (ggplot2 패키지) (0) | 2024.09.05 |
13. R 함수를 이용한 데이터 시각화 1️⃣ (기본 그래픽 시스템) (1) | 2024.09.03 |
12. R에서의 데이터 프레임 생성 및 조작 (0) | 2024.08.31 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!