ニコニコ動画のマイリス数・再生数・コメント数の分布を調べてみた

(1/26)Gsearchの作者さんが書いてくださった情報によると、マイリスト数、再生数、コメント数が少ないところのデータは妥当性が低そうということです。詳細は記事の最後に追記しました。

(1/24)このデータの妥当性がいまいち謎だよということと、同じようなことをしている記事の紹介を記事の最後に追記しました。

Gsearchというニコニコ動画検索サイトでマイリスト数・再生数・コメント数で動画を検索できるのを知り、これを使って全動画の分布グラフを書いたら面白いんじゃないかな、と思って、勉強がてらにRubyスクリプトを書いて、2009-01-22の夜に取得しました(サーバに負担をかけすぎないように、取得ごとに5秒間隔を開けました)。さっそく結果を示します。縦軸ラベルにキャレットがあるのはご愛敬。

きれいな形になりました。このグラフの読み方を説明しますと、たとえばマイリス数(青)が横軸100、縦軸700,000を通っていますが、これはマイリス100以下の動画が700,000個あるという意味です。

ところでさっきニコニコ公式で確認すると動画数2,025,913となっていたのですが、今回取得したデータでは810,000くらいになっちゃってますね。違いすぎです。なぜなのかはよくわかりません。なので今回のデータの妥当性はちょっと怪しいです。何か間違ってるのかなぁ……。

さらに分かりやすく、「上位○%に入るにはマイリス数等がいくつあればいいか」のだいたいの値を表にしてみました。(1/26追記:この記事の最後に追記したことから考えると、この表にもかなりの誤差があるかと思われます。あくまでも参考程度に……)

マイリス数再生数コメント数
1%2,000 100,000 12,000
5%350 25,000 2,500
10%150 15,000 1,200
20%50 6,500 500
50%6 1,500 85
80%1 350 15
90%0 150 5

マイリス数はたった6あれば上半分に入れるんですね。ちなみに私の11個の動画のうち、マイリス6以上は1つだけです。その動画はこちらです↓(さりげなくない宣伝)

全データは下の表に示しました。この表の読み方ですが、たとえばマイリス数1以下の動画は191,707個、マイリス数2以下の動画は263,834個(さっきの1以下のも含む)……という意味です。非表示の動画(いったん公開して非表示になった動画?)のデータも含まれているようです。削除された動画は含んでいません。総動画数が3つそれぞれ違うのは、取得中にもGsearchのデータベースが更新されたためかと思われます。

動画数百分率(%)
マイリス コメント 再生 マイリス コメント 再生
1以下191,70730,7812,96523.66 3.80 0.37
2以下263,83445,1734,53232.56 5.58 0.56
5以下376,57181,0328,81546.48 10.00 1.09
10以下46,4298128,46514,77157.30 15.85 1.82
20以下548,948199,14223,31967.75 24.58 2.88
50以下646,380320,90539,30479.77 39.60 4.85
100以下704,109427,98461,63086.90 52.82 7.61
200以下746,891535,534101,56592.18 66.09 12.53
500以下781,879653,225199,52996.50 80.62 24.63
1,000以下795,626716,289311,55198.19 88.40 38.45
2,000以下803,101757,737444,73099.12 93.52 54.89
5,000以下807,929787,882609,89499.71 97.24 75.27
10,000以下809,445798,993701,73999.90 98.61 86.61
20,000以下810,010805,001756,83399.97 99.35 93.41
50,000以下810,205808,605791,45199.99 99.80 97.68
100,000以下810,235809,637802,321100.00 99.92 99.02
200,000以下810,246810,020807,473100.00 99.97 99.66
500,000以下810,252810,198809,749100.00 99.99 99.94
1,000,000以下810,252810,233810,164100.00 100.00 99.99
2,000,000以下810,252810,253810,240100.00 100.00 100.00
5,000,000以下810,253810,262810,257100.00 100.00 100.00
10,000,000以下810,254810,265810,261100.00 100.00 100.00
20,000,000以下810,254810,266810,261100.00 100.00 100.00
50,000,000以下810,256810,266810,261100.00 100.00 100.00
100,000,000以下810,257810,266810,261100.00 100.00 100.00
200,000,000以下810,257810,266810,261100.00 100.00 100.00
500,000,000以下810,257810,266810,262100.00 100.00 100.00
総動画数810,257810,266810,262100.00 100.00 100.00

(ここから1/24追記)

記事の途中にちらっと書きましたが、たくさんブクマされちゃってるので改めて追記。

昨日の夜にニコニコ公式で確認すると動画数2,025,913となっていたですが、今回取得したデータでは810,000くらいになっています。ブクマコメに「コミュニティ動画などの情報はAPIで拾えない」という情報もいただきましたが(1/26追記:これは誤りだったようです。詳細は下のほうの1/26の追記で)、それを差し引いても少なすぎるように思います。「ニコニコチャート - 総合カウント」を見るとコミュニティ機能ができた以降に大幅に動画が増えたわけでもないですし。

Gsearchと公式の動画数にどのような食い違いがあるのか私にはよくわかりません。AmevaVision・フォト蔵関係なのか、非公開・削除関係なのか、あるいは古い動画の取得は後回しにしているのもしれませんし、投稿日がなぜか「0000-00-00 00:00:00」になっているデータがたくさんあるので(取得失敗したもの?)取得漏れしている動画がたくさんあるというだけのことかもしれません。

ということで、今回のデータが正しいかどうかは私にはよくわかりませんので、あくまで目安ということでお願いします。

参考までに似たようなことをしている記事をいくつか見つけましたので紹介します。いろいろと集計されています。

1つ目の「なんとなく思い立ったのでニコニコ動画の再生数分布をみてみた。」に書いてあるやり方は公式のデータベースを使っているので、私のやり方よりも正確な集計ができそうですね。自分でも調査したいって方は是非参考にしてください。

(ここから1/26追記)

なんと、Gsearchの作者さんのブログで収集データの詳細情報を書いてくださいました(GRN blog » Gsearchが収集しているデータについて)。わざわざありがとうございますm(_ _)m

その記事によると、Gsearchで収集しているのは

  • Gsearchサイトにある補助スクリプトが使われた動画
  • ニコニコ動画ランキングに載った動画(時、日、週、月、総合)
  • 新着動画(時々)

のどれかに当てはまる動画のデータだそうで、全てのデータを取得しているわけではないということです。このページのデータの妥当性については、

なので、大雑把ですがあまやどぶろぐさんの解析データでは再生数が5000以下、コメント数が1000以下のデータについては妥当性が低いかなと思います。
(マイリストはよく分かりません・・・)

それ以上の再生数とコメント数のデータは妥当性があるのではないかと思います。

ということだそうです。そういえば、私の動画も半分しかGsearchに登録されていません。要するに、このページのデータはマイリス数・再生数・コメント数の低い動画がかなり大量に抜けているものだということですね。私が垣間見た底辺は氷山の一角に過ぎなかったわけです。

ニコニコ動画で検索したときに「再生の少ない順」に並べると、いつも見ているニコニコとは全く違う世界が待っていますよ。ぜひ一度お試しあれ。

(ここから1/27追記)

面白い記事があったので追加で紹介します。いろいろ可視化されていて面白い。