濱岸ひよりの一人称は変化しているのか?―hiyoritalkの定量的な分析―

坂道物書きオタク Advent Calendar 2023 - Adventar
坂道物書きオタク Advent Calendar 2023 - Adventar
坂道物書きオタクによるアドベントカレンダーです。 クリスマスまで毎日投稿するよ💪

ただ(@ref3rdper)です。今回は しと(@skt4060) さん主催の#坂道オタクアドベントカレンダーに勝手に参加させていただきました。しとさんと別に面識があるわけではないですが、普段のツイートを拝見してこんなオタクに私もなりたいなと密かに憧れを抱いております。普段は、情報系の大学生をしていたり、濱岸ひよりを中心に日向坂を推していたり、日本再帰三人称保護協会という架空の教会の会長をしたりしてます。今回はこの3つの自分が一堂に介してこの記事を書きます。進捗が死んでる卒業研究を一日だけ休んで今回の作業と執筆に取り組んだので、多少の粗さがあったり、至らぬ点があったりするかもしれません。

背景

日向坂46の二期生の濱岸ひより(以下ひよたんと呼ぶ)は、自分のことを「ひよたん」と呼ぶことが非常に多いです。もちろん、シチュエーションによっては「私」を使うこともありますが、hiyoritalkではもっぱら「ひよたん」という一人称を使っている印象です。

幼少期の頃の一人称というのは、他人からどう呼ばれていたかに依存すると思うのですが、ひよたんも子供の頃から「ひよたん」と親や友達に呼ばれており、その時に使っていた一人称「ひよたん」が今まで消えずに残っているのだと思います。しかし、なぜ「ひよたん」と呼ばれ始めたのかは本人や親もわからないそうです。これに関してはいくつか仮説を立てられますが、私の考えた「ひよちゃん→ひよたん変化仮説」は、11月のリアルミートアンドグリートにて本人から否定されました。

そんな謎に包まれた一人称「ひよたん」ですが、今年6月に行われたひよたんのSHOWROOMにて、本人の口から「もうそろそろ『ひよたん』を卒業したいです」という旨の宣言がなされ、その後、9月の21歳の誕生日には「21歳の抱負は『一人称を私にすること』です」と言う始末です。これは、ひよたんの「ひよたん」呼びをこよなく愛する私にとってはなんとも耐え難い状況です。

そこで私はひよたんのひよたん呼びを保護するべく、今年の6月頃, 日本再帰三人称保護協会を(頭の中に)設立するわけですが(実はTwitterに会員が2人います)、まず「再帰三人称」とは何なのかを説明したほうがいいでしょう。

再帰三人称とは、私が作った造語で、今の段階では「ある発話/文章中で、その話者/筆者自身を指している三人称名詞」と定義しています。例えば、ひよたんが「ひよたん両利きやったっちゃん」と言った場合、「ひよたん」はひよたん自身を指しているので再帰三人称ですし、他にも、ある家族の父親が家族に向かって「よーしパパ特盛頼んじゃうぞー」と言った場合の「パパ」なんかもそうです。

英語だと”illeism”という概念に対応します。これは「自分自身を一人称ではなく三人称で指す行為」のように定義されています。「再帰三人称」は実際にilleismを引き起こしている名詞自体を指している感じです。

さて、再帰三人称の使用を止めたいと言っていたひよたんですが(おそらく今年より前から薄々やめたいなと思っていたとは思う)、本当に彼女の一人称は「ひよたん」などの再帰三人称から普通の一人称である「私」に変化していっているのでしょうか?

そんな疑問を解決するべく、この記事では、hiyoritalkから抽出したデータに対して時系列データ分析を行い、ひよたんの一人称が変化しているのかを検証します。欲を言えば予測モデルも作りたかったですが、時間の関係上、定常性の確認だけにしました(実際に作ってはみたが、うまく行かずに断念)。情報系の学生と言っても、機械学習系の授業ばかりで、統計学的な話はそこまで詳しくはないので、私が行った時系列データ分析になにか不備があったら申し訳ないです。

方法

データの準備・前処理

卒業するメンバーのメッセージを思い出として永久保存する方法【日向坂版】|炭酸
卒業するメンバーのメッセージを思い出として永久保存する方法【日向坂版】|炭酸
この記事で解説している方法は本質的には、このサイトと同じです。そのサイトではソフトウェアが無料で公開されているのでITに強い方はそちらへどうぞ。このサイトでは、ITに強くない方でも挫折しないように上のサイトよりかなり丁寧に書いたつもりです。また事前に申し込みをすればサポートも受けられます。 メッセージの閉鎖前は、購入者が殺到して質問やサポートに対応しきれなくなることが予想されます。ですので早めの準備をお願いいたします。 以下の記事では、ブログの保存方法について解説しているので、合わせてどうぞ。 はじめに 日向坂メッセージではメンバーが卒業をすると、そのメンバーが今まで自

手作業でも出来ないことはないですが、今回は時間がないので、まず上のサイトを参考にして、hiyoritalkからデータを抽出しました。取得した範囲は、私が購読し始めた2020年4月から2023年11月までです。

保存したメッセージのテキストに関しては、「ひよたん」「ひより」「ひよこ」(一人称が「ひよこ」のときもあるらしいので)などの個数を自動的にカウントし、動画や着信に関しては、一旦、Whisper[7]という文字起こしAIに内容を文字起こしさせた後で、先程の再帰三人称の候補の個数を自動的にカウントしました。ただ、Whisperは必ずしも正確に「ひよたん」と聞き取れるわけではないので、文字起こしを見て、明らかに「ひよたん」を聞き間違えているなと思える箇所に関しては、修正をした上で、目視で再帰三人称の個数をカウントしました。

一人称の「私」に関しては、元々のメッセージのテキストと文字起こしされた動画や着信のテキストの中から「私」の個数を自動的にカウントした上で、ひよたん以外の話者が使っている「私」などを目視で除外しました。

テキストのメッセージに関しては、「ひよたん、ひより、ひよこ、ヒヨコ」などの個数を自動でカウントしました。

ただ、再帰三人称に分類されないものもあるので、それを人手で除外しました。

動画と着信に関しては、Whisperで文字起こしをした後で、先ほどの再帰三人称をカウントしました。動画と着信は文字起こしを全て読み、「ひよたん」の聞き間違いだと思われる箇所をひよたんにした後で、個数をカウントしました。

同じような作業を「私」に関しても行いました。

そして、月ごとの再帰三人称の個数と普通の一人称の個数を数え、グラフを作りました。全体とテキストのみ、動画のみ、音声のみ、動画と音声のみ、で分けて作りました。

そして、時系列データの定常性を調べるためにADF検定を行いました。

データの可視化

次に以下の3つに関してグラフを作成しました: ① 再帰三人称と普通の一人称の月別の絶対個数 ② 再帰三人称と普通の一人称の月別の単位文字数あたりの相対個数 ③ 自分のことを指すときに、普通の一人称ではなく再帰三人称を使う月別の割合 ④ ③に対するトレンド成分、季節成分、残差成分などの変動成分(STL分解)

②は出現確率のようなものだと思ってもらっていいです。④は移動平均法(加法モデルを仮定)によって各成分へと分解しました[1]

また動画・着信とテキストデータの比較、動画と着信の比較もしました。文章と発話の違いや、言葉が発される状況による違いを見たいからです。

仮設検定による定常性の確認

そして最後に再帰三人称を使う割合が長期的に変動しているのか調べるために、時系列データの定常性を、ADF検定(Augmented Dickey-Fuller test)[1][3]とKPSS検定(Kwiatkowski–Phillips–Schmidt–Shin test)[2][3]によって確認しました。ADF検定についてはネットで調べて少し原理を勉強しましたが、KPSS検定に関しては何もわかってません。時間があるときにまた勉強します。

ADF検定に関しては帰無仮説として「時系列データが非定常である」を立て、対立仮説として「時系列データは定常である」を立てました。そして有意水準は0.05にしました。

KPSS検定の方は、「時系列データは定常である」が帰無仮説で、「時系列データが非定常である」が対立仮説として、有意水準は同じく0.05にしました。

ちなみに、時系列データが定常であるというのは、時系列データyty_tに対して、

E(yt)=μCov(yt,ytj)=γjE(y_t) = \mu \\ Cov(y_t, y_{t-j}) = \gamma_j

が成り立つということです[1]。これはyty_tの期待値が時間によらず一定であるということと、jj期前のデータとの共分散が常にγj\gamma_jであるということを意味します。もし再帰三人称の使用割合の時系列データが定常であるということが言えれば、その時系列は長期的には予測可能なパターンを持ち、平均値に回帰する傾向があると考えることができます。つまり、今後、しばらくはひよたんから再帰三人称が消えないと言う事ができ、私はそれが言いたいのです。

作業をする際に使ったスクリプトは以下のリンクに置いておきます(貼りきれなかった画像なんかも置いてます)。

hiyotan illeism research
hiyotan illeism research
hiyotan illeism research. GitHub Gist: instantly share code, notes, and snippets.

結果・考察

再帰三人称と一人称の絶対個数

図1: 全体データに対する、再帰三人称(illeism)と普通の一人称「私」の絶対個数の遷移
図1: 全体データに対する、再帰三人称(illeism)と普通の一人称「私」の絶対個数の遷移

図1について、再帰三人称の絶対数に関しては、2020年7月にピークを迎えたあと、2021年7月頃まで上下に変動しながら減少しているように見えます。この時期はちょうどコロナ禍のせいで何もかも自粛ムードになっていたので、まず家にいることが多くなったことによってメッセージの絶対数が増えたというのがありますね。また家にいると自分について言及することも多くなるような気がしますし。あと全国ツアーが中止になり、その代わりにオンラインライブが開催されたりしたものの、やはりコンテンツに乏しい時期だったので、ひよたんもひよたんなりにhiyoritalkを盛り上げようとした結果が現れているのかもしれません。

再帰三人称と一人称の相対個数

図2: 全体データに対する、再帰三人称(illeism)と普通の一人称「私」の1000文字あたりの個数の遷移
図2: 全体データに対する、再帰三人称(illeism)と普通の一人称「私」の1000文字あたりの個数の遷移

再帰三人称の相対数に関しては、図2を見ると2021年2月がやたらと多くなっていますが、これは生のhiyoritalkを確認してみると、メンバーと博多弁で喋っている動画で4回も「ひよたん」と言っていて、おそらくこれが原因です。

方言と再帰三人称の共起率の高さは日向坂ちゃんねるのひよたん帰省動画[5]でも示されています(過去に文字起こしもしました[6])。おそらく方言を使うと、自分のことを「ひよたん」としか呼んでいなかったであろう小さい頃の脳の状態に近くなるからかもしれません。

再帰三人称を使う割合

図3: 全体データに対する、自分を指す場合に再帰三人称を使う割合の遷移
図3: 全体データに対する、自分を指す場合に再帰三人称を使う割合の遷移

もっとも大事なのは自分を呼ぶときにどのくらいの確率で再帰三人称を使うのかです。これが結局、一人称が変化しているかどうかを見極めるためのポイントとなります。

図3を見る限り、再帰三人称を使う割合に波があることがわかります。直感的には再帰三人称を選択する確率は短い時間で変化しないような気もしますが、このように大きく周期的に変動しているということは、本人が一人称を「私」にしようと意識している期間と、そのような意識が完全になくなってしまっている期間が交互にやってきているからと考えることもできそうです。図3の後半部分では、使用割合が減るときは一気に減りますが、上がるときは徐々に上がっています。これも結局、意識すれば再帰三人称の割合は一気に減るが、それを意識するのを次第に忘れてだんだん再帰三人称を使ってしまうという背景があるとも見れます。そう考えるとめちゃくちゃ可愛いです。

そして現に、SHOWROOMで「ひよたん」の卒業を宣言した2023年6月では、再帰三人称の使用率がガクッと落ちていますし、図1,2を見ても「私」の使用回数が再帰三人称の使用回数を超えています。よって6月は明らかに意識して「私」を使おうとしていたことがわかります。すごく可愛いです。

また、21歳の誕生日に「一人称を『私』にする」と宣言した同年9月においても、8月に比べ急激に再帰三人称を使用する割合が減っています。ここもちゃんと意識して「私」を使おうとしていたんですね。

12/23追記: [9]によると、どうやら20歳の誕生日前にも7月のラジオで一人称を私にすると宣言していたらしいです。確かに図3を見ると、2022年の7月から8月にかけてかなり再帰三人称の割合が減っています。これは本人が一人称を矯正しようとした努力の現れなのでしょう。

そうなると気になるのが、なぜ決まって毎年の1月頃に顕著に再帰三人称の割合が減るのかということです。これはおそらく、その年の抱負として「一人称を『私』にするぞ」と毎年思っているのだと考えられます。12/24にひよたんとのミーグリがあるのでそのような目標を毎年決めているのか聞いてみようと思います。

つまりこれらの観察から、ひよたんは節目が来るたびに一人称を直そうとしているが、毎回失敗していることが分かります。人間らしくてめちゃくちゃ可愛いです。(追記はここまで)

再帰三人称の使用割合のSTL分解

図4: 全体データに対する、トレンド成分、季節成分、残差成分のグラフ
図4: 全体データに対する、トレンド成分、季節成分、残差成分のグラフ

また図4を見ると、トレンドとしては少し減少傾向にあるものの、表1を見ると圧倒的に定常状態であることがわかります。ただ、テキストデータに関しては差分定常かもしれないので、たしかに文章に対しては意識して減らすことができている可能性がありますね。

音声と動画での再帰三人称の割合

図5はおまけの比較で、顔が見られているか見られていないかで「ひよたん」の使用確率が変わるかなと思ったのですが、そうでもなかったですね。アイドルという仕事柄、顔を見られているのはそこまで内部状態に影響がないのかもしれないですね。

図5: 着信と動画の、自分を指す場合に再帰三人称を使う割合の比較
図5: 着信と動画の、自分を指す場合に再帰三人称を使う割合の比較

文章と発話での再帰三人称の割合

図6: 文章と発話の、自分を指す場合に再帰三人称を使う割合の比較
図6: 文章と発話の、自分を指す場合に再帰三人称を使う割合の比較

図6もおまけですが、結構意外な結果でしたね。文章として書くほうが「ひよたん」などの再帰三人称を使っているかどうかに気づきやすくて、必要なら修正も可能だから、文章のほうが再帰三人称を使う割合は少なくなると思ったんですが、動画や着信とそこまで変わらないばかりか、少し動画や着信より使用割合が高いような気がしますね。こうなってくると「ひよたん」という再帰三人称をかわいいからあえて使っている説もありそうですよね。

ADF検定とKPSS検定の結果

表1: それぞれのデータセットに対するADF検定とKPSS検定の結果
表1: それぞれのデータセットに対するADF検定とKPSS検定の結果

ADF検定のp値は、どのデータセットに対しても有意水準の0.05を下回っているので、帰無仮説が棄却され、対立仮説の「時系列データは定常である」が採択されることになります。しかし、KPSS検定の方はText Dataだけ帰無仮説が棄却されてしまいます。これだとADF検定はText Dataを定常だと判定して、KPSS検定はText Dataを非定常であると判定していることになります。これに関しては[3]によると、Text Dataは差分定常性(連続する値の差分を取った時系列データが定常)を持つということが言えるらしいです。

Text Data以外のデータセットのKPSS検定の帰無仮説は棄却されないので、このデータだけで定常であるということを否定することはできません。

結論

ADF検定とKPSS検定の結果、ひよたんが一人称として再帰三人称を使う割合は、現在、定常状態にあると結論づけられます。周期的にその割合が変動するものの、結局全体的にはそこまで使用割合の平均は減っていないので、しばらくはこのまま再帰三人称を使い続けるでしょう。

また大きく周期的に変動する理由が、ひよたんが「一人称を『私』にする」と強く意識したり、その意識が次第になくなっていったりしているからだろう、と推測できたのも収穫です。愛おしさの塊です。

そして「ひよたん」の使用確率が文章中のほうが多いということにより、ひよたんはあえて再帰三人称を使っている説も浮上して面白いです。

余談

本筋とはあまり関係ないですが、この作業をする過程で遭遇したことや考えたことを書きます。

Whisperの聞き間違いシリーズ

文字起こしAIのWhisper君が「ひよたん」をどう聞き間違えたを載せておきます。意味はないです。

  • キュウタン
  • ゆうたん
  • シオタン
  • ひなた
  • キヨたん
  • じゅーたん
  • ひゅーたん
  • ヨタン

シオタンは、実は偶然、潮紗理菜と濱岸ひよりのユニット名です。

「ひなた」はなんかエモいですね。というのも、親御さんが考えたひよたんの名前の候補に「ひなた」があったそうで、結構ギリギリまで「ひより」か「ひなた」か迷っていたというエピソードがあるので。

ヨタンはなんか可愛いです。確か加藤史帆から「よんたん」と呼ばれていたような気もします。

再帰三人称の分類

(2024年1月4日追記) 急いで考えた分類に詰めが甘いところがあったような気がするので以下の記事で整理し直しました。

再帰三人称の分類について
再帰三人称の分類について

古い分類について知りたい方はこちらをクリックしてトグルを展開させてください。

付け焼き刃で考えた旧分類

上に再帰三人称の定義を書きましたが、再帰三人称にもいくつかの種類があります。以下にいろんな例を挙げるので、これから分類をしていきます。

  1. ひよたんは今日も元気です
  2. ひよたんの帽子どっかいっちゃった
  3. ひよたんを愛してくれますか?
  4. やっほー!ひよたんでーす!
  5. はじめまして、濱岸ひよりです。
  6. メガネひよたん!ぶりっ子ひよたん!
  7. ひよたんポーズ!ひよたんビーム!
  8. なっちょさんにひよたんいい匂いする!って言われたの!
  9. 客席にいっぱいひよたんって見えて嬉しかったの
  10. 「ひよたん」の「たん」って響き可愛いよね

1番から3番の「ひよたん」は明らかに「私」に置き換えても成立するので、一人称として使っています。こういう再帰三人称を一人称型と呼ぶことにします。

4番は、ひよたんの動画の冒頭でよく発話されるもので、確かに「ひよたん」という三人称が話者自身を指しています。しかし、これはあくまで、聞き手に「今話しているのはお前がひよたんだと思ってる人と同一だぞ」ということを伝えるためのものです。この「ひよたん」は記号としての側面が強いので、ひよたんが直したいと思っている一人称としての「ひよたん」ではないような感じもします。

他にも、初対面の人に挨拶するときに5番のような文章が話されると思うんですけど、これも「濱岸ひより」という文字列を、5の文章を話している人物に結びつけるための文章です。

つまりこれらの再帰三人称は、文字列を現実世界のエンティティに結びつけるために発されています。このような再帰三人称を記号接地型と呼ぶことにします。

6番と7番は非常に難しいです。「ひよたん」を「私」に置き換えると不自然になるので、一人称型ではないです。ただ、記号接地をしているのかと言われると違います。「メガネひよたん」と聞いた人に「ああ、この人は「メガネひよたん」って名前なんだ」と思ってもらいたいという意図はないはずです。これらの再帰三人称は、「ひよたん」が持つ名詞性を利用して、複合語を形成しているので、複合名詞型としておきましょう。これは普通の代名詞の一人称などにはできない芸当なので(「メガネ私」は不自然。「メガネの私」なら自然だが)、自分を指す道具としての再帰三人称はその点では普通の一人称より柔軟だなと思います。

もしひよたん自身が「ぶりっ子ひよたんは、今日焼きそばを食べました」と言ったら、どうしましょう。まあこれは仕方ないですけど、複合名詞型かつ一人称型であるとします。

あと意外と会話のなかで出てきやすいのが8番のような文章で、他人の言ったことを引用するときに、そこに自分を指す三人称が登場している場合です。これは再帰三人称ではありますが、単なる引用で、ひよたんが直したいと思っているタイプではないです。引用型と呼びましょう。

9番や10番など、「ひよたん」という文字列そのものへの言及もあります。これは記号型と呼びましょう。

分類した結果こうなります。

  1. ひよたんは今日も元気です(一人称型)
  2. ひよたんの帽子どっかいっちゃった(一人称型)
  3. ひよたんを愛してくれますか?(一人称型)
  4. やっほー!ひよたんでーす!(記号接地型)
  5. はじめまして、濱岸ひよりです。(記号接地型)
  6. メガネひよたん!ぶりっ子ひよたん!(複合名詞型)
  7. ひよたんポーズ!ひよたんビーム!(複合名詞型)
  8. なっちょさんにひよたんいい匂いする!って言われたの!(引用型)
  9. 客席にいっぱいひよたんって見えて嬉しかったの(記号型)
  10. 「ひよたん」の「たん」って響き可愛いよね(記号型)

実を言うと、「ひよたん」の回数を数えている際に、引用型、記号型、記号接地型は除いたのですが、複合名詞型に関しては「単語+ひよたん」はカウントし「ひよたん+単語」は除外してしまったんですよね。そもそもこの型自体、出現しにくいので、そこまで割合には影響を及ぼさないとは思いますが、一応伝えておきます。

記号接地大好きひよたん

一人称の「私」は、「話し手を指す」という定義上、記号接地をわざわざする必要がありません。しかし「ひよたん」などの再帰三人称は、本人あるいは他人による記号接地があって初めて再帰性を持ち、自分のことを話しているということが相手に伝わります。それ故にひよたんは動画の冒頭で毎回「ひよたんでーす!」と記号接地をしているのです(?)。

ひよたんが記号接地にこだわっていると言える証拠がもう一つあります。ひよたんは他者のあだ名を文章中に登場させる時、「なっちょさん(潮紗理菜)」のように、後ろに本名を書く癖があります。これはあだ名を把握していない人への配慮と、そもそも潮紗理菜が指すエンティティを知らない人への配慮です。前者の人に対しては「なっちょ」と「潮紗理菜」が現実世界のあるエンティティを共参照していると言うことを伝え、後者の人に対しては、「潮紗理菜」という正式名称を伝えることで検索しやすく(つまりエンティティに辿り着きやすく)しています。

このようにひよたんは、意識的にせよ無意識的にせよ、新規の人も分かるように聞き手の記号接地を促す工夫をしているのです。素晴らしいです。

終わりに

長々と書いてすいません。ただ、卒業研究の息抜きとしてはちょうどよかったかもしれないです。卒論書き終わったら、次はひよたんの一人称の使用割合について予測モデルを作るか、ひよたんのブログの更新日時を予測する機械学習モデルを作りたいです。

参考文献

  1. 『Pythonによる時系列分析』
  2. KPSS Test: Definition and Interpretation
  3. Statistical Tests to Check Stationarity in Time Series
  4. 卒業メンバーのメッセージを思い出として永久保存する方法
  5. 【実家帰省】ライブ前日でテンション上がったので実姉と組体操してみた
  6. 日向坂ちゃんねる『【実家帰省】ライブ前日でテンション上がったので実姉と組体操してみた』文字起こし&コメント
  7. https://openai.com/research/whisper
  8. ADF-GLS検定について
  9. https://news.1242.com/article/372557

← Go home