はじめに
実用的な文章であれ,非実用的な文章―――たとえば二次創作小説,SS,怪文書,その他―であれ,よりよいものを書こうとするには,どうすればよいでしょうか.以前の記事では,その目的で,執筆の最中,あるいは執筆後の推敲に使える手法として,日本語変換システム『ATOK』およびそれに統合して利用できる各種辞書であるとか,『一太郎』に付属する校正ツールであるとか,あるいは今はやりの大規模言語モデル(LLM)だとかを簡単に紹介しました.LLM およびそれによって得られる生成物の利用については,日進月歩で変わりゆく分野であることから,いまだに議論が続いていますが,各種ガイドラインに従う限り,有用な技術であることは変わりありません.LLM を使えば,先の記事に示したように,自分の書いたものに対する定性的分析は,自然言語――われわれが普段使う言葉――を用いて,容易に行えることは否定できません.
ただ,これには取りこぼしがあります.最近では,自然言語処理(NLP)と言えば LLM といった風潮があります.ただ,実際のところはそうではなく,NLP というのは,LLM 以外も含んだ,より広い概念であるはずです.特に,データ傾向の可視化などに用いられる,テキストマイニングと呼ばれる手法は,文章の定量的解析に,いまだに有用な技術です.もちろん,LLM でもプロンプトを工夫すればできるのかもしれませんが,やや牛刀を以て鶏を割くというきらいがあります.とりわけ,非実用的な文章を解析しようとするときに,いちいち LLM を利用して,大量の計算資源を浪費するのは,持続可能な開発という点でも問題があると思います――というのは半分冗談ではありますが.
そこで,この記事では,テキストマイニングを中心とする伝統的な NLP の技法を用いて,自作の非実用的な文章を解析した試みを,備忘録としてまとめておきます.まずは,テキストを場面ごとに区切り,文体のダッシュボードとでも呼ぶべきものを作るべく,基礎的な指標を抽出して比較することにしました.
なお,先ほどのようにとうとう語ってはみましたが,実のところ私は NLP の専門家でも,ましては情報学の体系的教育を受けた人間でもないので,以下は――あるいはこれまでの話も――話半分で,自己責任のもとお読みください.以下の手順は,LLM にも示唆を求めつつ――惜しむらくは,このご時世,自分で一からコードを書くことの意義が揺らいでいることです――,自分で適宜修正を行いました.
準備
NLPのツールとしては,Python で書かれた有用なものが多く存在するので,それを利用できる環境を整えればよいと思います.私が利用している環境は,Windows 11 上の WSL2 (Ubuntu) です.これには新しめの Python 3 がついてくるはずです.また,テキストエディタは Visual Studio Code としました.これを構築する方法は,どこにでも転がっているし,いっそのこと LLM に訊けば分かることなので,ここでは示しません.
具体的には pandas ――これはデータ解析に汎用的に使われるツールですが――や spaCy を使うのですが,前者はともかく,後者は apt では入らず,pip などを用いる必要があります.ただ,グローバルで pip を普通に使ってしまうと,ライブラリが入り乱れて後々面倒になるので,仮想環境を使うことにしました.仮想環境といえば venv というイメージがありましたが,最近は uv というものがはやりなので,これを使います.
詳しくは公式のウェブサイトを見ていただきたいのですが,uv は以下で導入できます(sudo 不要):
|
|
仮想環境の構築は以下の通りです(ディレクトリ名は好きなものに変えてください):
|
|
そして,くだんの pandas, spaCy と,spaCy のモデル,ついでにビジュアライズ用に matplotlib と seabornを以下で導入します:
|
|
また,ビジュアライズで使う日本語フォントも導入しておきます:
|
|
道具立てがそろったので,解析するテキストを選定します.ここでは,以前 pixiv に投稿した二次創作小説 を利用します.もしネタバレを気にされるなら――そのような方は少ないかもしれませんが――,あらかじめこの小説を読んでおいてください.これでも私が書いた中では癖が少ない,まだましなものです.以下の記事では,説明の都合上,小説のあらすじにも触れますので,ご承知おきください.
以前書いたように,私は pixiv に直接書き付けるのではなく,Obsidian にて Markdown ファイルとして保存してから,適宜変換しています.よって,そのファイルを mihanada.md として上記の nlp-playgrounds ディレクトリに保存しておきました.ここではシーンごとに水平線---で区切っているので,後に示すように,それを利用することにします.ちなみに,各シーンの要約は下記の通りです.
- 駅~洋食店:二人が新幹線から駅に降り立ち,近くの百貨店にある洋食店で昼食をとる.
- 美術館:この地に生を受けたデザイナーの回顧展で,ヒロインがあるドレスに圧倒され,競走生活と重ね合わせる.
- 歴史博物館:打って変わって,県で古くから生活に用いられてきた布地の展示を見ていて,社会見学に来たとある子どもと交流することとなる.
- 夕暮れのベンチ:城近くで,未来に向けた会話をする.
解析
とりあえず,ここでは以下の項目を解析することにしましょう:
- 文字数・文数・平均文長:感情が動く場面や情景描写が深い場面では一文が長くなる傾向がある
- 会話文比率:全文字数のうち,「」で囲まれた文字数が占める割合
- 形容詞・動詞の比率:情景描写(色や温度)が多い場面は形容詞が,動作が多い場面は動詞が増える
そのためには,以下のようなソースコードを実行します.昔はこういうものも手で書いていましたが,今は LLM がまたたく間に書いてしまいますね.
|
|
これを実行すると,コンソールに表が出力されるとともに,それを可視化した画像が出力されます.表の出力を整形したものを示します:
| 場面 | 総文字数 | 文数 | 平均文長 | 会話率(%) | 名詞数 | 動詞数 | 形容詞数 |
|---|---|---|---|---|---|---|---|
| シーン 1 | 1575 | 52 | 30.3 | 14.7 | 238 | 135 | 36 |
| シーン 2 | 1241 | 42 | 29.5 | 7.3 | 196 | 108 | 23 |
| シーン 3 | 1240 | 38 | 32.6 | 8.9 | 185 | 121 | 32 |
| シーン 4 | 864 | 31 | 27.9 | 30.8 | 108 | 81 | 17 |
そして,画像を以下に示します:
特筆すべきは,以下の点でしょうか.
-
シーン 4(夕暮れのベンチ)の特異性
- シーン 1〜3 まで 15% 未満に抑えられていた会話率が,シーン 4 で一気に跳ね上がっている.平均文長も最短である.
- シーン 1〜3 までは情景描写や内省を地の文で積み重ねてきたが,最後のシーン 4 では,二人の対話によって一気に解放されるという構造をもつことがうかがえる.
-
シーン 2(美術館)の「静」とシーン 3(歴史博物館)の「動」
- シーン 2 では,名詞の密度が高く,会話が少ない.「ドレス」「リボン」「縫い目」といったモノ(名詞)に対する観察と,主人公の内面的な回想に焦点が当たっているためであると考えられる.
- シーン 3 では,動詞と形容詞の密度が最大で,平均文長が最長である.社会見学の列が通り過ぎる,帽子を直してあげる,少女が駆けていくといった「動き(動詞)」と,布の質感や少女の表情などの描写が多いためか.平均文長が最も長いのは,一文の中に複数の動作や情景を詰め込んでいるため.
参考書籍
Python や NLP が初めての方なら,下記が手に取りやすいと思います.身近な例を通じて,おもしろおかしく基礎を学べる本です.ただ通読するだけでも楽しめるという,異色の技術書です.ただ,体系的に学ぶというよりも,あくまでも紹介あるいはダイジェストというきらいがあります.
もう少し体系的に伝統的な NLP の技法を学ぶなら,たとえば下記の本がいいのかもしれません.たまたま書店で見かけて,手に取りました.いろいろな技法がぎゅっと詰まっていて,個人的には辞書的にも使えそうな気はしました.コード例も豊富です.ただ,人によってはとっつきにくいと思われるかもしれません.もしおすすめの書籍等があれば,ご紹介いただけますと幸いです.