[R 프로그래밍] 대학생 가장 많이 검색하는 단어 기준 워드클라우드 테스트

가장 많이 검색되는 단어를 워드클라우드로 작성 봄.

출처는 밝힐 수 없고.. 대충 100건 그냥 긁어서 해봄..

결론은... 애들은 역시 성적, 학점을 어떻게 잘 받아서 장학금을 받을 것인가에 관심이 많다는 것을 알게 되었다. 끝.

그리고 요새는 졸업, 토익.. 스펙에 대한 부분도 관심이 많다는 것도 알게되었네. ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ

밑에는 워드클라우드 작성시 한 프로그래밍... ㅋㅋㅋㅋㅋ

#필요한 패키지 구성

library(KoNLP)

library(wordcloud)

useSejongDic()

data1 <- readLines("forever.txt")

head(data1)

data2 <- sapply(data1, extractNoun, USE.NAMES=F)

head(data2)

data3 <- unlist(data2)

data3 <- Filter(function(x) {nchar(x) <= 5}, data3) # 5개이하 단어만 추출

head(unlist(data3), 30) #30개 단어 확인

data3 <- gsub("\\d+", "", data3) #모든숫자제거

data3 <- gsub("\\.", "", data3) #. 제거

data3 <- gsub("\\'", "", data3) #' 제거

write(unlist(data3), "forever_2.txt") #데이터만 메모장에 저장

data4 <- read.table("forever_2.txt") #테이블로 데이터형식 바꿔서 공백 제거

nrow(data4) #row 행 개수

wordcount <- table(data4) #테이블 내 단어 카운트 세기

head(sort(wordcount, decreasing=T), 20) #상위 20개 확인

# 필요없는 단어 제거

data3 <- Filter(function(x) {nchar(x) >= 2}, data3) #2단어 이상 단어만 추출

data3 <- gsub("질문", " ", data3) #단어제거

data3 <- gsub("관련", " ", data3) #단어제거

data3 <- gsub("학교", " ", data3) #단어제거

data3 <- gsub("홍익", " ", data3) #단어제거

data3 <- gsub("가능", " ", data3) #단어제거

data3 <- gsub("오늘", " ", data3) #단어제거

data3 <- gsub("이요", " ", data3) #단어제거

data3 <- gsub("이번", " ", data3) #단어제거

data3 <- gsub("학년", " ", data3) #단어제거

data3 <- gsub("신청", " ", data3) #단어제거

data3 <- gsub("언제", " ", data3) #단어제거

data3 <- gsub("이해", " ", data3) #단어제거

data3 <- gsub("홍대", " ", data3) #단어제거

data3 <- gsub("학생", " ", data3) #단어제거

data3 <- gsub("교수님", " ", data3) #단어제거

data3 <- gsub("추천", " ", data3) #단어제거

data3 <- gsub("전공", " ", data3) #단어제거

data3 <- gsub("수업", " ", data3) #단어제거

data3 <- gsub(" ", "", data3) #공백단어로 제거

head(sort(wordcount, decreasing=T), 20) #상위 20개 단어 추출

write(unlist(data3), "forever_2.txt") #데이터만 메모장에 저장

data4 <- read.table("forever_2.txt") #테이블로 데이터형식 바꿔서 공백 제거

nrow(data4) #row행 개수 확인

wordcount <- table(data4) #테이블형식으로 data4 워드카운트

head(sort(wordcount, decreasing=T),30) #상위 30개만 보기

#워드클라우드 작성

library(RColorBrewer)

palete <- brewer.pal(9,"Set3")

wordcloud(names(wordcount), freq=wordcount,scale=c(5,1), rot.per=0.25, min.freq=2, random.order=F, random.color=T, colors=palete)

legend(0.3,1,"홍대생이 가장 많이 검색하는 단어", cex=0.8, fill=NA, border=NA, bg="white", text.col="red", text.font=2, box.col="red")

저작자표시

'R' 카테고리의 다른 글

[R 프로그래밍] 대학생 관심 대상 워드 클라우드 (0)	2017.02.13
[R 프로그래밍] 여고생 성형관련 워드클라우드 (1)	2017.02.12
[R 프로그래밍] 한글패키지 및 워드클라우드 생성 (0)	2017.02.12
[R 프로그래밍] R 프로그래밍 언어의 특징 (0)	2017.02.12
[R 프로그래밍] MAU 통계 집계 후 히스토그램, 크로스집계 (0)	2017.02.10

퍼포먼스 마케팅 데이터 분석

[R 프로그래밍] 대학생 가장 많이 검색하는 단어 기준 워드클라우드 테스트

'R' 카테고리의 다른 글

댓글

티스토리툴바

[R 프로그래밍] 대학생 가장 많이 검색하는 단어 기준 워드클라우드 테스트

'R' 카테고리의 다른 글

관련글

댓글

티스토리툴바