PTtextmining

Pacote em R para text mining fácil em português.

OTHER License

Stars
5
Committers
1

Text Mining PT

Este pacote implementa uma srie de funes que auxiliam no tratamento de textos escritos em portugus para que possam ser usados em anlises de Text Mining.

Uma das principais diferenas deste pacote que ele feito para lidar com vetores de caracteres e no com Corpus que nem o pacote tm. Isso o torna muito mais simples de utilizar mesmo que exista queda na performance.

Usando

Considerando o seguinte pargrafo:

s <- c("J dizia o clich: dados so o novo ouro. O mundo gera informao esponencial e ao mesmo tempo, todos querem uma fatia desse bolo. Intuio ou regras do senso comum so teis, mas no suficientes.  preciso saber que os dados permitem s empresas e organizaes entenderem seus clientes, produtos e processos muito melhor.")

Ele possui um erro de ortografia: na palavra excencial que est escrita essencial Alm disso, o texto precisa de um tratamento, antes de entrar em algum algoritmo de text mining.

Com o pacote, possvel fazer da seguinte maneira:

library(PTtextmining)
s %>%
  transformar_minusculo() %>%
  transformar_corrigir() %>%
  remover_stopwords() %>%
  remover_acentos() %>%
  remover_pontuacao() %>%
  remover_numeros() %>%
  remover_dinheiro() %>%
  remover_espacos_excedentes()
#> [1] "dizia cliche dados novo ouro mundo gera informaao exponencial tempo querem fatia desse bolo intuiao regras senso comum uteis suficientes e preciso saber dados permitem empresas organizaoes entenderem clientes produtos processos"