文章のもちょらしさを測定してみる
もちょブログ、見てますか?
先日、謎サービスをとても適当な感じに実装したのですが、もう少し適当じゃない感じに何か実装できないかなと思い、今異常な流行を見せている機械学習のビッグウェーブに乗ってみることにしました。
端的に言うとCNNを用いた文章の分類です。
何でCNNなの
文章解析といえばRNNという感じもありますが、猫でも分かりそうな感じだったので人間でもわかるCNNで実装することにしました。
自然言語処理へのCNNの適用は案外例があって、[1]とかがそんな話をしてます。
ちなみにKerasでフィルタの大きさを可変にする方法がよくわからなかったのでフィルタサイズは固定してあります。
実装
だいたいexampleをコピペしました。
github.com
結果
余談
[2]によると小さいデータセットならngramsの方が性能が出るらしいです。ただ2クラス分類なら何やってもそれなりの性能が出るようなので満足しておきます。
出典
[1] Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP 2014), 1746–1751.
[2] Zhang, X., Zhao, J., & LeCun, Y. (2015). Character-level Convolutional Networks for Text Classification, 1–9.