https://d1021.hatenadiary.com
http://d1021.hatenablog.com

「人知の限界」を補う 一億語の日本語データベース

 コーパスとは、大規模な言語データベースのこと。前川氏は2006年から、過去30年間の日本語を対象にした1億語規模のコーパスの構築に取り組む。現在8000万語ほどを収集済みで、2011年に完成予定だ。「言葉は常に変化するもので、全体像が把握されたことは過去にない。ITやストレージの発展で、初めて可能になってきた」。インターネットの普及により、日記など私的な書き言葉が表に出るようにもなった。

 今後の日本語について、前川氏は“規範性”が重要になるとみる。