現代日本語書き言葉均衡コーパスデモンストレーション版

試しに使ってみた。年度、媒体を選んで調べられるのがいい感じ。

case1 "確立"、"確率"の使い分け

  • Yahoo!知恵袋のデータに限定して、"確立"、"確率"をそれぞれ検索。
  • 「かくりつがある」というのはちょっとよく分からないがおそらく「確率が0ではない」という意味なのだろうと解釈して、「確率がある」が正しいことにしておく。
  • 用例が抜き出されるので、一つ一つに対して誤用か正しい用法であるかを判定。
  • 主観に基づいたやっつけ仕事なので鵜呑みにしないように。
"確立"と記述 "確率"と記述
"確立"であるべき 34/87 0/190
"確率"であるべき 52/87 190/190
判定不能 1/87 0/190

打ち間違えても別に気にしなくて良さそうな感じ。

case2 "結子"という"文字列"の登場シーン

  • 何も考えずに"結子"という"文字列"で検索。
"結子"という"文字列"
"竹内結子"という"文字列"の一部 12/14
"連結子会社"という"文字列"の一部 1/14
その他("内結子") 1/14

case3

  • case2の過程で"松嶋菜々子"と表記すべきところを誤植しているようなのを発見。いくつかの文字列で検索してみる。
"松島" "松嶋"
"菜々子" 1 3
"奈々子" 0 5

目くじら立てるなってことかな。

使ってみて

  • 変換ミスには寛大でいいのかもしれません。
  • このような調べ物はGoogleでもできるかもしれないけど、このような用途ではGoogleを使うより適切で楽そう。
  • もっとおもしろい使い方があったら是非知りたい。