R是否适用于多语言数据

R是否适用于多语言数据,r,multilingual,R,Multilingual,我们已经准备好了机器学习算法,比如以特征为因素的分类算法。文本数据为英语的文本数据主题建模 下面是准备好的脚本 complete <- subset(complete,select=c(Group,Type,Text,Target)) data <- complete$Text corpus <-tm_map(corpus,content_transformer(tolower)) toSpace <- content_transformer(funct

我们已经准备好了机器学习算法,比如以特征为因素的分类算法。文本数据为英语的文本数据主题建模

下面是准备好的脚本

  complete <- subset(complete,select=c(Group,Type,Text,Target))

  data <- complete$Text
  corpus <-tm_map(corpus,content_transformer(tolower))
  toSpace <- content_transformer(function(x, pattern) { return (gsub(pattern, " ", x))})
  removeSpecialChars <- function(x) gsub("[^a-zA-Z0-9 ]","",x)
  corpus <- tm_map(corpus, toSpace, "/")
  corpus <- tm_map(corpus, toSpace, "-")
  corpus <- tm_map(corpus, toSpace, ":")
  corpus <- tm_map(corpus, toSpace, ";")
  corpus <- tm_map(corpus, toSpace, "@")
  corpus <- tm_map(corpus, toSpace, "\\(" )
  corpus <- tm_map(corpus, toSpace, ")")
  corpus <- tm_map(corpus, toSpace, ",")
  corpus <- tm_map(corpus, toSpace, "_")
  corpus <- tm_map(corpus, content_transformer(removeSpecialChars))
  corpus <- tm_map(corpus, content_transformer(tolower))
  corpus <- tm_map(corpus, removeWords, stopwords("en"))
  corpus <- tm_map(corpus, removePunctuation)
  corpus <- tm_map(corpus, stripWhitespace)
  corpus <- tm_map(corpus, removeNumbers)
  corpus <- tm_map(corpus,stemDocument)
  tdm <- DocumentTermMatrix(corpus)

  train1 <- as.matrix(tdm)
  complete1 <- subset(complete,select=c(Group,Type,Target))
  complete1 <- Filter(function(x)(length(unique(x))>1), complete1)
  train <- cbind(complete1, train1)
  train$Text <- NULL

  train$Target <- as.factor(train$Target)

  ############################################################################################
  #                       Model Run
  ############################################################################################
  fit <-svm(Target ~ ., data = train)

  termlist <- list(dictionary = Terms(tdm))
  retval <- list(model = fit, termlist = termlist, complete = complete)
  saveRDS(retval, "./modelTarget.rds")

complete如果您使用linux,只要您始终如一地使用UTF编码,就不会有太多问题。但我不确定是否有许多专门用于处理其他语言的软件包。
tm
在描述stopwords函数时的文档中说“支持的语言包括丹麦语、荷兰语、英语、芬兰语、法语、德语、匈牙利语、意大利语、挪威语、葡萄牙语、俄语、西班牙语和瑞典语”这只包括您列出的几种语言。Unicode本身不是一个问题,但是对于文本挖掘,它不仅仅是模式匹配,您需要找到一个合适的包来处理非欧洲语言,如韩语。@JohnColeman非常感谢您提供的信息。将试图找到一个合适的包来处理非欧洲语言