読者です 読者をやめる 読者になる 読者になる

計量文献学によるアプローチ

計量文献学とは端的に言えば文を統計処理の対象として、そこから特徴量を抽出する学問である。贋作説のある古典作品の作者推定などでたまに登場するが、ニッチな学問であることは間違いなく、研究者の数は世界でも日本でも極めて少ない。

何を特徴量とすると適切かについては色々と考案されてきた。が、そこで扱われている文学作品(つまり母集団)が実に様々である点で少し問題がある。というのも、シェークスピアの作品群に対してある特徴が抽出できたとしても、それが源氏物語の宇治十帖にも適用できる手法かといえばそうではない。同じような母集団で比較することで特徴量の抽出が可能になる以上、ラノベで何が有効な特徴量たりえるかは、結局のところラノベで調べてやってみるしかない。

ということで、秋山瑞人の特徴抽出を目的とした計量文献学的手法を少し試みてみた。いつか誰かが似たようなことを考えた際、その調査の叩き台ぐらいにはなるかもしれないと思ったので、特徴としてうまくいったものだけでなくうまくいかなかったものも記載してある。

ラノベにおける秋山文体の特徴

対象とした本は以下の4冊である。

全ページではなく、それぞれ序盤約10ページの地の文を集計対象としている(会話文と地の文では文体が異なるため)。またその特徴が作家固有のものか、その本の特徴なのかの簡単な確認用として秋山を2冊入れた。もっと冊数とページ数を増やしてやるのが理想だが、所詮個人ブログなのでその辺は妥協した次第である。

文の長さ

まず基本的な情報として、一文の長さに特徴はあるか、という点を確認してみた。一文の長さを10文字単位で丸めた値が横軸、その全体に対する割合が縦軸である。

f:id:AllPersonalDead:20161201230640p:plain

西尾はともかく秋山と鎌池の差は僅かであり、体感できるレベルではないだろう。「文の長さの分布は印欧語、日本語を問わず有力な書き手の特徴量にはならない」*1という言及通りの結果と言える。

文節の長さ

日本語では読点を打つ場所に文法上の規則は無く、書き手の感覚に依存する。そこで文節の長さに特徴が生じるのではと考え、集計してみた。

文節は読点や括弧類を区切りとして(ただし強意表現として使われた括弧は除外した)、その文節内に含まれる記号以外の文字を数え、それを3文字単位でまるめたものを横軸とした。縦軸はそれが全体に占める割合である。

f:id:AllPersonalDead:20161202005213p:plain

秋山は12文字前後を頂点とした山になっており、また2文字以下の文節が非常に少ない。2文字以下の文節は化物語や禁書では全体の6%ほどあるが、これは平均すれば16文節に1つある計算になる。対して秋山は2%~3%であり、32文節に1つということになる。

ただこれについては個別に見ていくと秋山がどうというより、西尾が「いや、」「そう、」「まあ、」を、鎌池が「と、」をしばしば使うことが特徴として出た結果である、といった方が適切であるように思われる。

文節の数

ついでに一文あたりの文節の数に傾向はあるのか、という点で集計したものが次の図である。

f:id:AllPersonalDead:20161201231516p:plain

秋山の二冊が異様に似た数値を示しているため、作者の真贋判定などでは有効な特徴量と言えるのかもしれない。ただ全体の傾向という点ではどれも似たようなものであり、人間が体感として分かるようなものではなさそうに思える。

副詞の集計

名詞は文の内容に強く左右される。動詞や形容詞もどうしても名詞に引きずられる。しかし副詞は文の内容に影響を受けにくい、という論文があったため、猫とイリヤの双方で出現した副詞を集計してみた。

イリヤ 禁書 化物語
少し 0.61% 6.25% 0.00% 0.00%
すぐ 3.66% 3.13% 0.00% 0.00%
まだ 3.05% 2.50% 0.00% 0.00%
じっと 2.44% 1.25% 0.00% 0.00%
まるで 0.61% 2.50% 0.00% 0.00%
なぜ 1.22% 1.88% 0.00% 0.00%
はっきり 2.44% 0.63% 0.00% 0.00%
まさか 1.22% 1.25% 0.00% 0.00%
再び 1.22% 1.25% 0.00% 0.00%
どう 2.44% 2.50% 1.22% 1.27%
ちゃんと 0.61% 1.25% 0.00% 0.00%
ついに 0.61% 1.25% 0.00% 0.00%
やはり 0.61% 1.25% 0.00% 0.00%
とうとう 1.22% 0.63% 0.00% 0.00%
あっという間に 0.61% 0.63% 0.00% 0.00%
いっぱい 0.61% 0.63% 0.00% 0.00%
がっかり 0.61% 0.63% 0.00% 0.00%
すっかり 0.61% 0.63% 0.00% 0.00%
せっかく 0.61% 0.63% 0.00% 0.00%
どうにか 0.61% 0.63% 0.00% 0.00%
なお 0.61% 0.63% 0.00% 0.00%
もっと 0.61% 0.63% 0.00% 0.00%
一度 0.61% 0.63% 0.00% 0.00%
本当に 1.83% 0.63% 0.00% 1.27%
ずっと 1.22% 2.50% 0.00% 2.53%
とにかく 0.61% 0.63% 0.00% 1.27%
こう 0.61% 1.25% 1.22% 1.27%
どうせ 0.61% 0.63% 2.44% 0.00%
もう 1.22% 0.63% 3.66% 1.27%
そう 4.88% 6.25% 3.66% 11.39%
きっと 1.83% 0.63% 2.44% 5.06%

「そう」の割合が高いが、これは他の作家でも同様に高いため特徴とは言いがたい。対して「すぐ」「まだ」「じっと」あたりは秋山の特徴と言って問題ないだろう。また「ちゃんと」「いっぱい」は出現頻度が高いわけではないが、他の作家の地の文では確かにそうそう見ない副詞である。「まさか」「がっかり」「せっかく」のような感情を滲ませる副詞も目につく。

加えて、全体的に時間経過に関する副詞が多いという印象を受ける。「すぐ」「まだ」「あっという間に」はもちろん、「じっと」「とうとう」「ついに」なども一定の時間経過を意味に含む。

このあたりの特徴については改めてもう少し深く検討する余地があるように思う。

接続詞の集計

あわせて接続詞についても集計してみた結果が以下である。

イリヤ 禁書 化物語
また 9.76% 5.88% 0.00% 3.33%
しかし 17.07% 11.76% 0.00% 16.67%
こうして 9.76% 5.88% 5.56% 0.00%
そして 14.63% 17.65% 5.56% 16.67%
12.20% 2.94% 5.56% 0.00%
でも 4.88% 2.94% 0.00% 0.00%
ただ 7.32% 5.88% 5.56% 0.00%
だって 2.44% 2.94% 0.00% 0.00%
つまり 2.44% 2.94% 0.00% 3.33%

印象深いのはやはり「でも」「だって」だろう。他の作家がこれを地の文で使うことはそうそう無いが、確かに秋山はしばしば使う。また「しかし」「でも」「が」、補足的側面はあるが「ただ」も含めれば、秋山の小説では逆説的表現の出現頻度が高いようにも見える。逆説表現を期待に対する裏切りであるとすれば、持ち上げてから落とす、を段落単位で細かく秋山は繰り返す傾向がある、と言えるかもしれない。この点ももう少し深掘りして検討して良さそうである。

形容詞、形容動詞

ダメだろうと思いつつ確認のため、それぞれ集計してみた。

形容詞基本形
イリヤ 禁書 化物語
大きい 4.17% 2.41% 0.00% 0.00%
悪い 0.83% 2.41% 0.00% 0.00%
深い 0.83% 2.41% 0.00% 0.00%
固い 1.67% 1.20% 0.00% 0.00%
近い 0.83% 1.20% 0.00% 0.00%
面白い 0.83% 1.20% 0.00% 0.00%
形容動詞語幹
イリヤ 禁書 化物語
得意 1.52% 3.70% 0.00% 0.00%
大量 1.52% 1.85% 0.00% 0.00%
懸命 1.52% 1.85% 0.00% 0.00%
簡単 1.52% 1.85% 0.00% 0.00%

見ての通り、パッとしない結果となった。特徴といえば特徴なのだろうが……。

N-gram(3)による特徴

形態素に分けた上で、その連続における共起頻度を集計したのが以下である。数が多すぎるため、猫、イリヤで共に出現率0.04%以上、禁書と化物語で出現率0.00%に絞っている。

イリヤ 禁書 化物語
思っ た 。 0.05% 0.17% 0.00% 0.00%
の 中 で 0.07% 0.13% 0.00% 0.00%
と 思っ た 0.04% 0.11% 0.00% 0.00%
いる の だ 0.09% 0.04% 0.00% 0.00%
見つめ て いる 0.04% 0.09% 0.00% 0.00%
ない よう に 0.05% 0.06% 0.00% 0.00%
聞こえ た 。 0.05% 0.06% 0.00% 0.00%
しまっ た 。 0.04% 0.06% 0.00% 0.00%
い た し 0.05% 0.04% 0.00% 0.00%
という こと は 0.05% 0.04% 0.00% 0.00%
は なかっ た 0.05% 0.04% 0.00% 0.00%
決め た 。 0.05% 0.04% 0.00% 0.00%
は し ない 0.04% 0.04% 0.00% 0.00%
中 で 、 0.04% 0.04% 0.00% 0.00%
大き さ の 0.04% 0.04% 0.00% 0.00%

「と思った。」はひどく凡庸で一般的表現に思えるが、こうして比較すると西尾や鎌池が全く使っていないことがわかる。「決めた」はともかく、「見つめている」「聞こえた」あたりも同様に他の作家が使っていても不思議はないように思えるが、意外と使われない表現なのかもしれない。

「いたし」はこれだけ抜き出すとわかりにくいが、次のように使われている。

なにしろ慌てていたし、大量の薬が詰まった瓶のインパクトに目を奪われていたし、それ以上はろくに見もしなかった。

ただ、本当に色々なことがあったというぼんやりとした印象だけがある。ずいぶん歩いたし、たくさん喋ったし、いつもいつも笑っていたような気がする。

秋山の特徴的表現の本体というわけではないが、秋山の特徴的表現に含まれやすいものであることは確かと言っていいだろう。

感想

ということで試みてみた計量文献学だが、環境を整えるのがなかなかに大変だった。各本から文をデジタイズするのがまず一苦労で、使ったIPA辞書では解析に失敗する箇所が散見されたため、単語量補充のためにNEologdが必須だった。ところが現時点のWindows環境でこれの辞書ファイル化は容易ではなく、結局シェルスクリプトを読んで必要処理だけ抜き出して、と結構な工数がかかった。

ということでそこそこ気合を入れて挑む必要はあるが、やってみると確かに意外な傾向が見えたりするような部分もある(そうでないこともかなりあるが)アプローチだと思う。データ量さえ十分にあればディープラーニングに突っ込んでみるとまた新しい発見があるかもしれないが、そこまでデータを準備するのは私にはちょっと厳しいので、そのうち誰かがやってくれればと思う。

*1:金明哲『計量文献学の基礎研究とその応用』