library(tidyverse)
#> -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
#> v ggplot2 3.3.5 v purrr 0.3.4
#> v tibble 3.1.6 v dplyr 1.0.8
#> v tidyr 1.2.0 v stringr 1.4.0
#> v readr 2.1.2 v forcats 0.5.1
#> -- Conflicts ------------------------------------------ tidyverse_conflicts() --
#> x dplyr::filter() masks stats::filter()
#> x dplyr::lag() masks stats::lag()
library(moranajp)
<- "d:/pf/mecab/bin/" # input your environment
bin_dir library(tidyverse)
data(neko)
<-
neko %>%
neko ::mutate(text = stringi::stri_unescape_unicode(text)) %>%
dplyr::mutate(cols = 1:nrow(.))
dplyrhead(neko)
#> # A tibble: 6 x 2
#> text cols
#> <chr> <int>
#> 1 吾輩は猫である。名前はまだ無い。 1
#> 2 どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニ~ 2
#> 3 この書生の掌の裏でしばらくはよい心持に坐っておったが、しばらくすると非~ 3
#> 4 ふと気が付いて見ると書生はいない。たくさんおった兄弟が一疋も見えぬ。肝~ 4
#> 5 ようやくの思いで笹原を這い出すと向うに大きな池がある。吾輩は池の前に坐~ 5
#> 6 吾輩の主人は滅多に吾輩と顔を合せる事がない。職業は教師だそうだ。学校か~ 6
<-
n_match list.files(bin_dir) %>%
::str_count("mecab") %>%
stringrsum()
if(n_match > 0){
moranajp_all(neko, text_col = "text", bin_dir = bin_dir) %>%
print(n=100)
}#> # A tibble: 2,893 x 12
#> text_id cols 表層形 品詞 品詞細分類1 品詞細分類2 品詞細分類3 活用型 活用形
#> <dbl> <int> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
#> 1 1 1 吾輩 名詞 代名詞 一般 * * *
#> 2 1 1 は 助詞 係助詞 * * * *
#> 3 1 1 猫 名詞 一般 * * * *
#> 4 1 1 で 助動~ * * * 特殊~ 連用形
#> 5 1 1 ある 助動~ * * * 五段~ 基本形
#> 6 1 1 。 記号 句点 * * * *
#> 7 1 1 名前 名詞 一般 * * * *
#> 8 1 1 は 助詞 係助詞 * * * *
#> 9 1 1 まだ 副詞 助詞類接続 * * * *
#> 10 1 1 無い 形容~ 自立 * * 形容~ 基本形
#> 11 1 1 。 記号 句点 * * * *
#> 12 1 1 EOS 名詞 固有名詞 組織 * * *
#> 13 2 2 どこ 名詞 代名詞 一般 * * *
#> 14 2 2 で 助詞 格助詞 一般 * * *
#> 15 2 2 生れ 動詞 自立 * * 一段 連用形
#> 16 2 2 た 助動~ * * * 特殊~ 基本形
#> 17 2 2 か 助詞 副助詞/並~ * * * *
#> 18 2 2 とんと 副詞 一般 * * * *
#> 19 2 2 見当 名詞 サ変接続 * * * *
#> 20 2 2 が 助詞 格助詞 一般 * * *
#> 21 2 2 つか 動詞 自立 * * 五段~ 未然形
#> 22 2 2 ぬ 助動~ * * * 特殊~ 基本形
#> 23 2 2 。 記号 句点 * * * *
#> 24 2 2 何 名詞 代名詞 一般 * * *
#> 25 2 2 でも 助詞 副助詞 * * * *
#> 26 2 2 薄暗い 形容~ 自立 * * 形容~ 基本形
#> 27 2 2 じめ~ 副詞 一般 * * * *
#> 28 2 2 し 動詞 自立 * * サ変~ 連用形
#> 29 2 2 た 助動~ * * * 特殊~ 基本形
#> 30 2 2 所 名詞 非自立 副詞可能 * * *
#> 31 2 2 で 助詞 格助詞 一般 * * *
#> 32 2 2 ニャ~ 名詞 一般 * * * *
#> 33 2 2 泣い 動詞 自立 * * 五段~ 連用~
#> 34 2 2 て 助詞 接続助詞 * * * *
#> 35 2 2 いた事 名詞 一般 * * * *
#> 36 2 2 だけ 助詞 副助詞 * * * *
#> 37 2 2 は 助詞 係助詞 * * * *
#> 38 2 2 記憶 名詞 サ変接続 * * * *
#> 39 2 2 し 動詞 自立 * * サ変~ 連用形
#> 40 2 2 て 助詞 接続助詞 * * * *
#> 41 2 2 いる 動詞 非自立 * * 一段 基本形
#> 42 2 2 。 記号 句点 * * * *
#> 43 2 2 吾輩 名詞 代名詞 一般 * * *
#> 44 2 2 は 助詞 係助詞 * * * *
#> 45 2 2 ここ 名詞 代名詞 一般 * * *
#> 46 2 2 で 助詞 格助詞 一般 * * *
#> 47 2 2 始め 動詞 自立 * * 一段 連用形
#> 48 2 2 て 助詞 接続助詞 * * * *
#> 49 2 2 人間 名詞 一般 * * * *
#> 50 2 2 という 助詞 格助詞 連語 * * *
#> 51 2 2 もの 名詞 非自立 一般 * * *
#> 52 2 2 を 助詞 格助詞 一般 * * *
#> 53 2 2 見 動詞 自立 * * 一段 連用形
#> 54 2 2 た 助動~ * * * 特殊~ 基本形
#> 55 2 2 。 記号 句点 * * * *
#> 56 2 2 しかも 接続~ * * * * *
#> 57 2 2 あと 名詞 一般 * * * *
#> 58 2 2 で 助詞 格助詞 一般 * * *
#> 59 2 2 聞く 動詞 自立 * * 五段~ 基本形
#> 60 2 2 と 助詞 接続助詞 * * * *
#> 61 2 2 それ 名詞 代名詞 一般 * * *
#> 62 2 2 は 助詞 係助詞 * * * *
#> 63 2 2 書生 名詞 一般 * * * *
#> 64 2 2 という 助詞 格助詞 連語 * * *
#> 65 2 2 人間 名詞 一般 * * * *
#> 66 2 2 中 名詞 接尾 副詞可能 * * *
#> 67 2 2 で 助詞 格助詞 一般 * * *
#> 68 2 2 一番 名詞 副詞可能 * * * *
#> 69 2 2 獰悪 名詞 形容動詞語~ * * * *
#> 70 2 2 な 助動~ * * * 特殊~ 体言~
#> 71 2 2 種族 名詞 一般 * * * *
#> 72 2 2 で 助動~ * * * 特殊~ 連用形
#> 73 2 2 あっ 助動~ * * * 五段~ 連用~
#> 74 2 2 た 助動~ * * * 特殊~ 基本形
#> 75 2 2 そう 名詞 特殊 助動詞語幹 * * *
#> 76 2 2 だ 助動~ * * * 特殊~ 基本形
#> 77 2 2 。 記号 句点 * * * *
#> 78 2 2 この 連体~ * * * * *
#> 79 2 2 書生 名詞 一般 * * * *
#> 80 2 2 という 助詞 格助詞 連語 * * *
#> 81 2 2 の 名詞 非自立 一般 * * *
#> 82 2 2 は 助詞 係助詞 * * * *
#> 83 2 2 時々 副詞 一般 * * * *
#> 84 2 2 我々 名詞 代名詞 一般 * * *
#> 85 2 2 を 助詞 格助詞 一般 * * *
#> 86 2 2 捕え 動詞 自立 * * 一段 連用形
#> 87 2 2 て 助詞 接続助詞 * * * *
#> 88 2 2 煮 動詞 自立 * * 一段 連用形
#> 89 2 2 て 助詞 接続助詞 * * * *
#> 90 2 2 食う 動詞 自立 * * 五段~ 基本形
#> 91 2 2 という 助詞 格助詞 連語 * * *
#> 92 2 2 話 名詞 サ変接続 * * * *
#> 93 2 2 で 助動~ * * * 特殊~ 連用形
#> 94 2 2 ある 助動~ * * * 五段~ 基本形
#> 95 2 2 。 記号 句点 * * * *
#> 96 2 2 しかし 接続~ * * * * *
#> 97 2 2 その 連体~ * * * * *
#> 98 2 2 当時 名詞 副詞可能 * * * *
#> 99 2 2 は 助詞 係助詞 * * * *
#> 100 2 2 何 名詞 代名詞 一般 * * *
#> # ... with 2,793 more rows, and 3 more variables: 原形 <chr>, 読み <chr>,
#> # 発音 <chr>