非実用的文章のテキストマイニングによる定量的分析の試み:場面ごとの文体ダッシュボード

はじめに 実用的な文章であれ,非実用的な文章―――たとえば二次創作小説,SS,怪文書,その他―であれ,よりよいものを書こうとするには,どうすればよいでしょうか.以前の記事では,その目的で,執筆の最中,あるいは執筆後の推敲に使える手法として,日本語変換システム『ATOK』およびそれに統合して利用できる各種辞書であるとか,『一太郎』に付属する校正ツールであるとか,あるいは今はやりの大規模言語モデル(LLM)だとかを簡単に紹介しました.LLM およびそれによって得られる生成物の利用については,日進月歩で変わりゆく分野であることから,いまだに議論が続いていますが,各種ガイドラインに従う限り,有用な技術であることは変わりありません.LLM を使えば,先の記事に示したように,自分の書いたものに対する定性的分析は,自然言語――われわれが普段使う言葉――を用いて,容易に行えることは否定できません. ただ,これには取りこぼしがあります.最近では,自然言語処理(NLP)と言えば LLM といった風潮があります.ただ,実際のところはそうではなく,NLP というのは,LLM 以外も含んだ,より広い概念であるはずです.特に,データ傾向の可視化などに用いられる,テキストマイニングと呼ばれる手法は,文章の定量的解析に,いまだに有用な技術です.もちろん,LLM でもプロンプトを工夫すればできるのかもしれませんが,やや牛刀を以て鶏を割くというきらいがあります.とりわけ,非実用的な文章を解析しようとするときに,いちいち LLM を利用して,大量の計算資源を浪費するのは,持続可能な開発という点でも問題があると思います――というのは半分冗談ではありますが. そこで,この記事では,テキストマイニングを中心とする伝統的な NLP の技法を用いて,自作の非実用的な文章を解析した試みを,備忘録としてまとめておきます.まずは,テキストを場面ごとに区切り,文体のダッシュボードとでも呼ぶべきものを作るべく,基礎的な指標を抽出して比較することにしました. なお,先ほどのようにとうとう語ってはみましたが,実のところ私は NLP の専門家でも,ましては情報学の体系的教育を受けた人間でもないので,以下は――あるいはこれまでの話も――話半分で,自己責任のもとお読みください.以下の手順は,LLM にも示唆を求めつつ――惜しむらくは,このご時世,自分で一からコードを書くことの意義が揺らいでいることです――,自分で適宜修正を行いました. 準備 NLPのツールとしては,Python で書かれた有用なものが多く存在するので,それを利用できる環境を整えればよいと思います.私が利用している環境は,Windows 11 上の WSL2 (Ubuntu) です.これには新しめの Python 3 がついてくるはずです.また,テキストエディタは Visual Studio Code としました.これを構築する方法は,どこにでも転がっているし,いっそのこと LLM に訊けば分かることなので,ここでは示しません. 具体的には pandas ――これはデータ解析に汎用的に使われるツールですが――や spaCy を使うのですが,前者はともかく,後者は apt では入らず,pip などを用いる必要があります.ただ,グローバルで pip を普通に使ってしまうと,ライブラリが入り乱れて後々面倒になるので,仮想環境を使うことにしました.仮想環境といえば venv というイメージがありましたが,最近は uv というものがはやりなので,これを使います. 詳しくは公式のウェブサイトを見ていただきたいのですが,uv は以下で導入できます(sudo 不要): 1 curl -LsSf https://astral.sh/uv/install.sh | sh 仮想環境の構築は以下の通りです(ディレクトリ名は好きなものに変えてください): 1 2 3 mkdir nlp-playgrounds cd nlp-playgrounds uv init そして,くだんの pandas, spaCy と,spaCy のモデル,ついでにビジュアライズ用に matplotlib と seabornを以下で導入します: ...

5月 17, 2026

非実用的文章作成のための実用的道具群

はじめに 人それぞれのところはあるのでしょうが,私は日々文章を書いています.最近では,実用的文章に飽き足らず――あるいは,その機会が一時的に減ったこともいいことに――,非実用的文章(小説,SS,怪文書,その他)もしたため,あまつさえ一粲に供しているところです.そのためにはいくつかのツールを使っているのですが,思えばそれをまともに文章化したことはないことに気づきました.そこで,長らく放置していたブログの編集方法を思い出しかたがた,それをまとめてみました.なお,私は何かの回し者ではないので,念のため. Obsidian 何はともあれ,まずは書き付けるためのプラットホームが必要です.いきなり pixiv などの下書きを作成してもいいのですが,それだと操作ミスなどで不意にデータが消失するおそれがありますし,せっかく作ったものですから,手元でしっかり管理しておきたいものです.そこで,しっかりと文章を保存でき,さまざまな環境――少なくとも Windows と iOS――で利用できるようにしています. 以前は,idraft というサービスのプレミアム版を利用していました.これは,フォルダーに分けて文章を管理できるのみならず,表記揺れや類語の提案など,小説作成に有用な機能も備えていました.しかし,2025 年 3 月をもって終了してしまいました. そこで,現在では Obsidian を利用しています.大雑把に言えば,その実体はプレーンテキスト(Markdown ファイル)ですので,自分でどうとでも管理できるという利点があります.私は,リポジトリを iCloud Drive に置くことで,いろいろな環境で利用できるようにしています.小説本体のほか,後に示す解析結果も保存しています.ただ,同期には若干のタイムラグがありますので,編集の競合には注意する必要があります.また,小説に特化したサービスではありませんので,後に述べるようなツールで校正などの機能を補う必要があります. ATOK と 一太郎 いくらボタン一つで漢字変換ができるご時世とはいえ,何でもかんでも漢字にしては読みにくくて仕方がありません.また,何気なく使っている表現でも,実は非標準的で,読んだときに思わぬ引っかかりを生じてしまうかもしれません.また,ひとしきり書いた後は,表記揺れや誤字脱字がないかを確かめる必要があります. そこで利用しているのは,日本語入力システムの ATOK と,ワードプロセッサーソフトウエアの 一太郎 です. ATOK は,最近では Windows のみならず iOS 環境でも利用できるので,いつでもどこでも快適な文章作成が楽しめます.特に,Windows 版では,『共同通信社 記者ハンドブック辞書』第 14 版などの用字用語辞書と連携し,過度に難しい表現――とはいっても,場合によっては自分の表現を優先することもありますが――や表記揺れを避けることができるほか,『角川類語新辞典』などの類語辞書で連想変換を強化することで,文章に彩りを与えることもできます.個人的には,句読点の切り替え(通常の句読点からカンマとピリオドへ,あるいはその逆)がスムーズなのも気に入っています. また,一太郎は,直接そこで文章を作成するというよりも,Obsidian などで作成したものをコピー・アンド・ペーストして,文章校正をかけるのに使用しています.小説に特化した校正設定もあるので,ストレスなく投稿前の見直しができます.また,ブラウザー連携として JUST チェッカーというものも同梱されており,pixiv 上などで直接文章を編集する際にも,一太郎の校正エンジンを利用することができます. 一太郎2025 通常版 Amazonで見る 大規模言語モデル (LLM) 念のため述べておきますが,私はタグ等で特にそう記載しない限り,pixiv で言うところの AI 生成作品 に該当する作品は公開していません.一次創作で一度だけ試してみて,それっぽく読めるものはできた(それは現時点で掲載しています)のですが,あまりおもしろくはなかったというのが正直な感想です.自画自賛のようであれですが,トンチキな展開やら,私が好むものは,やはり自分で書くほかないようです.だからこそ,筆を執る――いや,キーボードをたたくか――気になったのですから.基本的には,以下に示すように,小説作成前の下調べや,作成後の見直しと解析を中心に用いています.また,自分の書いた作品以外を,LLM に処理させたことはありません.正直なところ,本業では LLM の台頭によって自分の得手(英語とかプログラミングとか)がつぶされているところはあるのですが,便利なものは確かなのでやむなく使っているという複雑な状況にあります. ...

8月 17, 2025