身長と3サイズと体重を持つ女性の身体模擬データを作ってみよう!


論文と模擬データの比較図

こんばんは、蓬莱です!

今日は女性を創ります!! とでも言えば、皆さんはどう思うでしょうか。おそらく9割9分の方が、ついに頭もイかれてしまったと思われるでしょう。

ですがご安心ください。抜きすぎイきすぎでち〇ぽがイかれても、頭がイかれることはございません。蓬莱さんは至極まじめな顔をして、「女性を創ろう」と思っているのでございます。

 

僕には度重なる調査の結果見つけた、女性の身体データのヒントがあるのです。こういう材料を使えば、エジソンが電球を発明した如く、僕も女性の身体データを作成することが可能なはずです。

そんなアカデミック感満載の内容で、今回の記事をお送りします。今回は下ネタなしのまじめな記事ですよ!

 

 

若年成人女子の人体計測データからみた体格・体型特性

引用論文:別府美雪:若年成人女子の人体計測データからみた体格・体型特性,人間工学 Vol.33 No.2,1997.

「そうだ、女性を創ろう」

こんな危険な発想をし始めたのは、上記の論文と出会ったためです。

過去の記事で、論文のタイトルを見ただけで勃起したと記載したことがありますが、それも納得のエチエチで貫禄あるタイトルです。

 

この論文は、女性用衣服のサイズ改定を行うために、その時代の女性の体形を調べるというスタンスで書かれたものになります。

こちらの論文の詳細な内容については、下記の記事にまとめてありますのでぜひお読みください。というか、この記事にまだ目を通していない方は、先に読んでおくことをお勧めしますよ!

参考記事:おっぱいが大きいと太っているのか?身長とバストの関係もチェック!

 

時代による女性の体型変化は、衣料業界にとって非常に大切であるため、きちんとした分析がされていました。

例えば、基本的な統計量である平均値標準偏差をはじめ、相関行列等の一歩上のデータも提示しています。また、統計解析で大切なヒストグラムも提示しており、その形状が読者にも判断することが可能になっています。

 

さすが論文と言ったところですが、もうこれは「女性のデータ」を作ってね! とメッセージを送っているようにしか見えません。

したがって、この記事では論文データの統計量を駆使して、その傾向に即した女性データを作っていきたいと思います。

 

 

作成する女性データ

バストとヒップの相関関係

今回は以下の条件で、女性の体型データを作成していきます。

  1. 共分散行列と乱数を使って、論文データの傾向を持った女性を創る
  2. 身長、体重、3サイズ、背肩幅、足の長さを持つ女性を創る
  3. 論文のサンプルと同じく、1634人分のデータ創る

 

2番と3番についてはそのままの意味なので、特に説明はいらないでしょう。

1番の論文データの傾向というのは、上記の散布図のことです。

こちらの散布図からは、「バストが大きければヒップも大きい」という傾向が読み取れます。現実で考えても、なんとなくそんな感じがしますよね。

例として「バスト – ヒップ」の関係性を示しましたが、同時に「ヒップ – ウェスト」、「身長 – 体重」などの関係性もあります。これらの相関性をすべて考慮して、模擬データを作る必要があるというわけですね。

 

こういった相関を考慮した多次元データを作るのは、一般的には面倒で難しいです。多少統計解析の知識がいりますし、プログラムを作成する技能も必要になります。

 

しかし、こういった模擬データの生成は、蓬莱さんのお得意分野です。

自慢ではありませんが、大事な22~24歳の青年時代に女の子に現を抜かすことなく、ただひたすらに乱数を生成し、フィッティングし、お付き合いし、しばき倒すという生活を繰り返していました。

 

つまるところ、みんなが大学限定の青春セ〇クスをしている間に、僕はデータの分布をフィックスしていたわけです。

こんなんだから彼女出来ないんだよなぁ。

話がそれて申し訳ありませんでした。それでは、今回の問題に取り組んでいきましょう!

 

 

模擬データ生成の条件とその結果

一応模擬データを生成するための条件を説明しておきましょう。

難しいと思われた方は、正直読み飛ばしていいと思うので、エクセルの表の画像までスキップしてください。自分もここまでしっかり書く必要はなかったと、若干後悔しています。

 

共分散行列と乱数を使い、その傾向を模したサンプルデータを作るためには、2つの条件があります。

  1. 各データの平均値と標準偏差、また相関行列が分かっていること
  2. 各データが正規分布であること

 

統計量の多くが判明しており、かつ正規分布でなければならないという制限があるため、意外と使いどころが限定される方法だと思います。

今回の場合は、データの説明部分でお話しした通り、1番の項目はクリアしています。2番の項目に関しても、論文中でヒストグラムを提示しているため、正規分布かどうか判断することができます。

 

ただし、ヒストグラムを見る限り、3サイズの分布は正規分布というよりは対数正規分布であることが示されています。

以下の図をご覧ください。

 

3サイズのヒストグラム

論文中のバストとウェストのヒストグラム

画像は論文中のヒストグラムを真似て作ったものです。赤線は、論文で示されている平均値と標準偏差を使って、対数正規の理論曲線を描いたものです。

図から分かるように、赤線はヒストグラムに対してしっかりとフィッティングされており、ヒストグラム自体が対数正規分布であることが分かります。

 

これでは2番目の条件である、「正規分布であること」を満たすことができません。

 

 

対数正規分布をlog変換

魔法の技、log変換のイメージ

ですが心配はいりません。

対数正規分布のデータをlog変換すると、正規分布になるという魔法の技があります。この変換後の分布(以後、log空間上の分布と呼称)を使えば、条件2が満たせるというわけです。

 

ちなみに、log空間上の分布を使ってデータを作った場合は、模擬データ生成後に「再変換」を行う必要があります。

画像で説明をしてみましょう。例えばウェストであれば、4.094などのよくわからない数値が出てきます。この数値がlog空間上の数値であるため、元の空間の数値に戻す必要があるのです。

変換方法は図に示す通り、指数変換(exp変換)を行うだけです。例として4.094を指数変換すると60になります。これが最終的なウェストの値になるわけです。

 

対数正規分布に関しては以上のような処置をとることで、条件2をクリアしました。ちなみに体重の分布も対数正規分布であることが知られているので、3サイズと同じく変換を行うようにしています。

 

さて、蓬莱さんの自己満足オ〇ニー解説を聞いてくださり、ありがとうございました。記事が冗長になりますが、道筋を示すのは大事なことですよね(論文脳)。

各データの分布を定義し、正規分布に直すことができれば、後はプログラムを作ってちょちょいのちょいで模擬データが作成できます。

さっそく結果を見てみましょう!

 

 

模擬データ生成後

なかなかやるじゃない!

ご覧のとおり、個々に身長・体重・3サイズ・足の長さ・背肩幅を持ったデータを作ることに成功しました。

論文のサンプル数と同じく、1634人分のデータを生成しています。

 

以下に、列名の意味を示します。

  • height:身長
  • B, W, H:バスト、ウェスト、ヒップの大きさ
  • shoulder, leg:背肩幅、足の長さ
  • weight:体重
  • B_W, H_W:バスト/ウェスト、ヒップ/ウェストの計算値(身体のメリハリ値)

なお乱数の対象にしたデータは、太字のデータになります。右から1列目、2列目のデータは、模擬データ生成後に計算しました。

 

データを見ると、非常に満足のいくデータに仕上がっています。体重が軽い人は、ある程度3サイズや身長が小さくなっていますし、逆もまた然りです。

それぞれの相関性がしっかりと考慮されているデータになっています!

 

 

論文データと模擬データの比較

相関行列の差

相関性はしっかり担保されています!

作成した模擬データを比較検討しましょう。

論文と模擬データの相関行列の差分をとってみたところ、すべての項目で大きな差は見られませんでした。

生成した模擬データは、論文が示す相関性と同じ傾向を持っていることが確認できますね。

 

※3サイズと体重について指数変換を行うことで、相関関係が崩れるかと思いましたが、上記の相関行列の差をみる限り、その心配はいらなかったようです。ほとんど正規分布と言えるような形状の対数正規分布であったことから、exp変換による誤差が小さかったのだと思われます。

 

 

論文と模擬データの比較図

なかなかの模倣力!

次は散布図で比較検討をしましょう。

これは恐ろしいですね。論文のデータと比較すると、かなり似た傾向を示しています。

 

細かい違いを挙げるとすれば、模擬データ内に示している赤枠部分になります。

論文データではこの領域に何人かのデータがありますが、模擬データには存在していません。模擬データでは、太すぎる女性をあまり作れていないという問題が出ていそうです。

本来は何とかしないといけないですが、蓬莱さんはこの領域を「外れ値」として捉えることにしました。あくまで「標準的な女性像を追い求める」という蓬莱さんの目的の中では、目をつむってもよいと考えたからです。

そもそも20歳前後でウェスト80cm以上って、あまりいないような気がします

 

 

論文と模擬データの比較図

合致しすぎぃ!!

身体のメリハリ度を示した散布図でも比較してみましょう。

この図でも、論文データの傾向をしっかりと模擬できていることが分かります。

 

 

最後に(まとめと今後の展望)

完璧じゃありませんか(自画自賛)

どうですか、皆さん。日々くだらない記事を量産していたこのブログも、やっと実力を発揮できたというところでしょう。

見捨てずに見守ってくださった変態の皆様方、本当にありがとうございます。

 

以上までの作業で、論文とかなり近い傾向を持った女性のデータが作成できました。

これにより1994年くらいの18~22歳の女性の体形データが、僕の手に落ちたことになります。これはえぇ素材やわ…。

 

今回の記事では、データを作成するところで終わりましたが、もちろん今後の展望はあります。やはりまずは、おっぱいについて調べてみたいですね。

この1634人の模擬データを使って、何カップの女性が多いのか解析してやろうではありませんか。次回からはこのデータを有効活用していきますよ!


初回公開日:2019年11月17日
初回公開日:2019年11月17日