インタビューライター(として)の文章術・生成AI以前/以後【関口威人の「フリー日和 (⌒∇⌒)□」その25】
大型連休にも入ったので、久々に落ち着いて文章について書こうかと思います。
これまで2回の文書術の記事を書き、それなりに好評をいただきました。
もう書き方にこだわってる場合じゃない?
当時、オレ結構いいこと書いたなーと満足していました。でも、それから2年や3年が経ち、もうこんな細かい書き方にこだわっている場合じゃないという気もしてきました。
「伝わる」「伝わらない」以前に、ライターの存在や、人がモノを書く行為そのものが問い直されている。言うまでもなく、生成AIの登場とその発達の度合いがヤバいからです。
僕もこの半年ほど、AIを使う機会を意識的に増やし、あるていど実用的なレベルにまで来た感覚があります。
はっきりと胸を張って披露するほどの大したノウハウではありません。ただ、間違いなく僕よりは先を行っているジャーナリストの亀松太郎さんにしても、「コレ」と定まったやり方があるわけではないとおっしゃっています。さっさと自分のやり方を公開して、皆さんの意見を仰いだり、共有したりするのも大事かなと思い立ちました。
というわけで今回は、あくまで僕の「インタビューライターとしての」現時点でのAI活用法と、そこから気づいた限界と可能性などをまとめてみます。
奥の深さと後ろめたさの交じる仕事
「インタビューライターとして」とカッコ書きにしたのは、一応僕の本業中の本業であるジャーナリストとしての仕事には、AIをガッツリ使う必要性をまだ感じていないからです。その理由は最後のまとめで記します。
「インタビューライター」というのもキッチリとした定義はないと思いますが、ここではごく単純に「取材対象者の言葉で最初から最後までまとめた文章」をつくるライターとさせてください。(記者の主観や問い、いわゆる「地の文」の混じった文章を書くケースは別とします)
これは間違いなく必要とされ、奥が深い仕事です。ただ、昔は「ゴーストライター」というちょっと後ろめたい呼び名もありました。
僕もフリーになってから、半信半疑ながらそうした依頼があれば引き受け、大学教授から企業経営者、政治家までのゴーストライター、ならぬインタビューライターをした経験があります。場合によっては本の奥付に自分の名前が載ったり、写真の撮影者だけ自分であったりしました。正直、読む方も「だれかが文章をまとめているんだろう」という暗黙の了解があるものなのかなと思います。
最初はレコーダーも回していなかった
そうしたインタビューの現場で最初、僕はレコーダーを回すことさえめったにありませんでした。新聞記者時代も「一問一答」のインタビュー記事を書く仕事は普通にありましたが、20年ほど前の雰囲気として「レコーダーなんかに頼らず、きっちりメモを取れ」と、いま思えば精神論や根性論のような風潮があり、実際に録音したデータを後から聞き直す時間ももったいなく感じていたからです。
しかし、だんだんとメモを真剣に取り続ける集中力も後から思い出す記憶力も弱くなってしまい、取材先からも「録音取らないんですか?」と聞かれる機会が増えました。「なんで取らないの?」と本気で怒られたことも1回だけありました。
なので徐々にレコーダーを回すようになり、5年ほど前にApple Watchを買ってからは、そのボイスメモ機能を使うようになりました。試しに会見の録音をしてみたら、耳で聞こえる音は十分クリアに取れていたからです。
そのデータはiPhoneはもちろん、Macに自動的に転送され、機種によってはボタン一つでテキスト化(文字起こし)をしてくれます。ただ、これは笑っちゃうほど使いものになりません。
そこで昨年夏ごろから、いくつかのAIアプリを試してみました。ボイスメモのMP4データをAIアプリのチャット欄にアップロード。「この音声ファイルを文字起こしして」といった指示(プロンプト)を書き込み、そこから出てくる文章を比較するというやり方です。

Apple Watchのボイスメモ機能を使えば、録音データがMacに自動転送され、Appleシリコン入りの機種ならボタンひとつでテキスト化してくれます。ただし精度はかなり悪いです
Gemini「3.0」でようやく使える感覚に
最初はご多分に漏れずChat GPT(昨年夏の時点でGPT-4.1)を試しましたが、イマイチ精度がよくありません。能登関係のインタビューのデータを放り込むと、「珠洲」はずっと「鈴」のままでした。
続いて「Notta」という日本の有料文字起こしサービスをお試し期間中に使ってみました。ところが精度はChat GPTとほとんど変わらないか、むしろ悪いぐらいに感じたのですぐに解約してしまいました。
そしてGemini(2.0)を使ってみたところ、まあまあいけそうという感触が。「珠洲」は「珠洲」になってるし、その中の「若山」という地名も「和歌山」とかにはならない。さすがGoogle !? とちょっと感動さえ覚えました。
ところが、使い込んでみるとやはり、どこか日本語が破綻するところがあったし、何より途中で “壊れたテープ” のように、前半で出てきた会話の一部が後半にしれっと重複して紛れ込んでいることがありました。どいつもこいつもダメか……と諦めかけていたところ、秋ごろにGeminiが3.0のバージョンになり、明らかにレベルが上がったことを体感できました。
地名はほぼ間違ってないし、日本語としても破綻は少ない。“壊れたテープ” にはならない。
こちらもだんだん慣れてきたので、余計なタイムスタンプは外すように、話し手は「私(関口)」とインタビュイーの「〇〇さん」で、第三者がいた場合は単に「男性」とするように、などと細かい指示を出せるようになりました。
すると、確かに、ちゃんとできてくる。おおーいいぞいいぞと、それを元にまずは文字起こし原稿から部分的にかいつまんでくる形で3000〜4000字程度の原稿をまとめ始めました。
AIの出力に紛れ込む違和感の正体
でも、やっぱり途中でなんとなく違和感が。どうもGeminiの方が文字起こしなのに勝手に話を要約したり、言葉を丸めてしまっていることに気付いたのです。元の音声も聞いて確かめると、場合によっては「そんなこと言ってないじゃん!」という状態にまでなっていました。これはAIが人間を過度に “忖度” したり、きれいにまとめたりしがちな性質、いわゆるハルシネーションによるものだったのでしょう。

