本ページには広告・プロモーションが含まれています。

2014年8月30日 追記

この記事の初版は2012年に書かれたものです。

最新のアクセス解析事情をふまえたアクセス解析の説明については以下の記事を参考にご覧下さい。

以下の文章がオリジナルの記事です。


ウェブサイトの運用に欠かす事の出来ないアクセスログの解析と分析について書く。本書で言う「解析」はいわゆる集計作業である。「分析」は解析によって得られたデータから情報を導きだすことです。 たまに解析と分析(解析データの読み方)が混在している場合もあるので注意してください。分析についてはマーケティングや心理学など社会や人間に対する理解が必要ですので、本書の内容だけを頼りに答えを導かないでください。

マーケティング データとしてのアクセスログ

この文書では マーケティング データとしてアクセスログを活用していく方法 を模索しています。

マーケティング データとしてアクセスログは 効果測定データ マイニング に役立てることができます。マーケティング データとしてアクセスログを活かすにはウェブサイトの運営目的や戦略が必要です。

多くの人や企業は「みんながやってる」とか「顧客に促されて」という社会的事情や、インターネットやウェブサイトに対する偏見に基づいて、無目的な情報発信ツールとしてウェブサイトを開設します。戦略のない/なかったウェブサイトのアクセスログでも 計測するポイント新たな情報を発見 するという2つのことを念頭に置いて眺めると利益があります。そのためにはアクセスログから入手できる基本的な情報について知る必要があります。

なお、アクセスログはマーケティング以外にも、ウェブサーバーに対する不正なリクエストの発見や、サーバーの運用状況を把握するデータとしてシステム管理者やウェブアプリケーションを開発するプログラマーにも有益なデータです。ウェブサイトに細工すればウェブ デザイナーにも有益なデータをアクセスログに蓄積することができます。

基本編

解析と分析の違い

解析は定量的(数量的)に示すこと。分析は定量的データに加えて質的要素を交えることです。アクセスログ解析だったら各要素を集計する、アクセスログ分析だったら解析結果を言葉や図で説明する。

http://lise.me.sophia.ac.jp/kktm/Essay/analysis.htm

解析は集計作業と言えども、その数学的モデルが正しいのなら明晰/明快な結果が得られます。分析は解析結果に基づく新しい知識の発見や理論の構築です。

アクセスログとは

一般的にアクセスログと呼ばれるものはウェブサーバのデータ処理の履歴。ウェブサーバが記録機能を有する。ウェブサーバは次のようなデータを記録する。

  1. クライアント (リモートホスト) の IP アドレス
  2. identd (RFC 1413)で定義されているクライアント マシンのアイデンティティ
  3. HTTP 認証のユーザ ID
  4. サーバがリクエストの処理を終えた日付と時刻
  5. クライアントからのリクエスト。(メソッド、パス、クエリ文字列、プロトコル)
  6. サーバがクライアントに送り返す HTTP のステータスコード
  7. クライアントに送信されたオブジェクトのサイズ。(クライアントに転送されたデータの量)
  8. クライアントが送信した Referer HTTP リクエストヘッダ。
  9. User-Agent HTTP リクエストヘッダ

ログファイル- Apache HTTP サーバ

上記 2. のデータを解析対象データにすることは皆無。パブリックなウェブサーバーの 3. を解析することもまれである。

ウェブサーバをカスタマイズすれば任意のデータを記録可能。主に記録される拡張データは cookie や クライアントの国/地域情報だ。

アクセスログの用途

アクセスログには2種類の使い途があります。ひとつは効果測定、もうひとつはデータ マイニングです。効果測定はウェブサイト運営者の働きかけに対するフィードバックを得ることです。データ マイニングは未知の情報を発見することです。

効果測定は「リスティング広告によって獲得した顧客数」や「Google 検索経由で使用されたキーワードの使用回数を知りたい」など、入手したい数量的なデータが単純明快な場合に適用されます。いっぽうデータ マイニングは予想もつかないデータをはじき出すことで、「Yahoo!検索で訪問してくるユーザーと参照元のないユーザーのサイト内での行動の違いを知りたい」のようにいくつかの条件が重なり合い解析/分析対象とする要素にも頭を悩ますような数量的データを得たい場合に適用します。どちらの用途であっても、結果に対して人間が解釈しなければならないのは当然です。

大雑把にまとめると効果測定は算数を用いて入手する情報、データ マイニングは数学を用いて入手する情報なのです。計算量が少なくて容易に数値化できることと、データ マイニングのような膨大な計算量を伴なう作業を混同しないことも重要です。

解析編

アクセスログからおおまかにわかることがあり、ここでは基本的なアクセスログ解析の項目をおさえておく。

  • 何人がサイトを訪問したのか?
  • 何回サイトを訪問したのか?
  • どうやってサイトに辿り着いたのか?
  • どのページ(URL)が何回閲覧されたのか?
  • 検索エンジン経由の訪問で、どのような検索キーワードが使用されたのか?
  • どのような環境(ブラウザ、プラットフォーム)でサイトが閲覧されているのか?

以上のことはアクセスログの各要素の出現回数を足し算するだけで入手可能なデータである。プロトコルやメソッドなどテクニカルな側面が強い要素は省略してある。

アクセスログ解析から何を読み取るか?

一般的なアクセスログ解析のポイント

  • 誰が
  • いつ
  • どこから/なぜ
  • 検索語はあるのか?
  • どのページへ入ってきて
  • どのページを見て
  • どのページから出て行った
  • あるいは、コンバージョンに繋がった

以上のような項目がアクセスログ解析で出せるデータである。もっと細かい事もできるけど概要としてはこれで十分。ウェブサイトをお店ととらえているので、「どのページへ入ってきて=入り口」「どのページから出て行った=出口」という項目があるのだ。私のこのサイトは商店ではないので出口ページは無視しているし、コンバージョンの定義も"お買い上げ"とは違う。サイトの性質に合う解析方法や分析方法があるということを忘れないように。

5W1H に当てはめることも可能。

  • Who - 誰が
  • When - いつ
  • Where - どこから
  • Why - 検索語、なぜ(訪問の動機)
  • What - どのページを見て
  • How - 閲覧パス(入り口ページから出口ページの経路)

実際のところアクセスログだけでは Why と Who のデータが非常に弱いので、サイトの登録会員やアンケートのデータベースと連携した解析や分析を行う。

誰が

まず、サイトを訪れた人をどのように定義するのか?アクセスログから、どのデータを使って"ひとり"と計上するのか?

ひとつは、ホスト名とユーザエージェントの組み合わせである。もうひとつは cookie など、サーバやアプリケーションがクライアントを追跡可能にするために発行する ID である。

いつ何時

日付、時間、曜日を集計する。ログデータには日時が記録されている。日曜日や祝祭日など社会的な要因も絡めて分析するためのデータになる。

どこから

参照元やリファラと呼ばれるデータ。ブックマーク、メール、外部のサイト、検索エンジン。

どのページへ入ってきて

入り口となったページ。訪問の1ページ目。

どのページを見て

訪問者が閲覧したページ。ページ単位の分析はページ数が増えると作業がしんどいこともあったり、分析のはじめから詳細なデータを見る必要もなかったりするので、ページをコンテンツのグループにして見ていくのがベターかな。

どのページから出て行った

出口となったページ。目標となるページを設定しており、そこに到達しない場合に離脱ポイントの目安になる。また、新たなプロモーション ページとして活用できることもある。 入り口と出口が同じ場合、「直帰した」と分析することも可能だし、滞在時間を見て「適切な訪問者を獲得できた」と解釈する事も可能。

コンバージョンに繋がった

買い物プロセスの最終ページへ到達したとか、資料請求の連絡があったかを確認する。

アクセスログを読む時の心得

分析項目を絞りこむ ことが重要だ。解析結果はいくらでも見るところがあるので読むべきところを絞らないと時間を浪費するだけ。

解析してくれという相手がいれば要望を聞いてレポートも作りやすいが、いきなり「データもらってきたんで、ちょっとレポートだして」なんてのがいちばんつらい。なぜならアクセスログとサイトの特性ってのは切り離せないのでサイトのことがわからないと解析屋も読み取るべきところが掴めなかったりするからだ。

一般的にはセッション、ページビュー、検索語を出しておけばいいんだろうけど、こちら(解析する人)はログに金鉱が眠っている可能性を知っているから、そこらのソフトウェアが出す結果では不十分。 つまりデータマイニングってやつがやりたい。これには時間もかかるし必ず何かの発見があるとは限らないんだけど:)

  • サイトを知る(業種とかキーワードとか。ちょっとした市場調査を含むんですわ。)
  • サイトを見る(ページのデザインがページ遷移に影響するので。)
  • サイトの目的を知る
  • サイトの(これまでの)運用方法を知る

アクセスログ解析で大変な作業

多次元の解析が重労働。レコードの軸の組み合わせは結構な数になる。

既存のソフトウェアやサービスは不満

私の経験上、既存のソフトウェアやサービスには不十分な点が多く見られる。

  • 商用ソフトや ASP サービスは機能が豊富であるけれど使い勝手が悪い。さらに、解析アルゴリズムが不明なので、解析結果を他のソフトやサービスと比較して初めて信頼に足る解析結果であるということを確かめる必要がある。
  • フリーソフトウェアは機能にも解析結果にも満足いくレベルのものが無い。オープンソース ソフトウェアを自分でカスタマイズするならスクラッチから開発するほうが効率的でもあるし、融通が利く。

解析結果からわからないこと

もっとも知りたいのだけどアクセスログだけではわからないことのは訪問者の 人物像 だ。

サイトを構築する際に想定した人物像はあるのだけれど、それはあくまで統計とマーケティング担当者の経験から導きだされた仮説に過ぎない。

  • どういったことに興味のある人物が訪れているのか?
  • 訪問の動機は?
  • 想定したプロフィールと一致するのだけどコンバージョンにつながらないのは何故だろう?

など、アクセスログは人物像を教えてくれない。訪問者のプロフィールを入手する方法は色々あるけれど、それに投資するお金がなければどうしようもない。

アクセスログを汚す者

汚すという表現はあれですが、いわゆるゴミデータを残すユーザがいるのです。

リファラを隠している訪問者

セキュリティを意識してか意地悪なのか、ブラウザをカスタマイズしてリファラ(参照元)を送信しないようにしたり偽装したりするユーザもいる。こういった人のログを抽出するのはなかなか難しい。僕は最近Java``Script を切ってブラウズしてるし Google Analytics にデータを取得されません。

ウイルスやワームをはじめとするプログラム

ウイルスやワームなんかはセキュリティホールを攻撃しようとして特有のURIをリクエストするのでわかりやすい方だ。検索エンジンのクローラもまだ行儀が良い。はてなアンテナみたいな巡回プログラムもユーザエージェントはわかりやすいし、ダウンローダも行儀が良い。

これら以外のアクセスを判定するのが難しい。インターネットでは行儀の悪いロボットのデータベースが公開されてはいるけれど。。。

「ホストはバラバラで1ページしかアクセスしない」ようなログは通常のユーザでもありうるので除外対象とすることはできない。一般家庭のユーザーはIPアドレスも変わるしホストのデータベースではアウト。ならISPのデータベースからパターンを分析すればいいのかというと微妙だなぁ。

解析結果の曖昧さは排除できない

ニールセン・ネットレイティングス、PVでなく滞在時間でサイトをランキングへ というのがニュースになってログ解析の担当者は自分のサイトも滞在時間で評価しようかと考えたかもしれない。

決断する前にもう一度サイトの特徴を考えて欲しい。 本当にあなたのサイトが滞在時間で評価するようなものなのか? 私は少なくとも自分が手がけているサイトのどれもが 滞在時間でサイトの人気 を示せるようなものではなかった。

「あなたが管理しているサイトはどれほど人気があるのか?」と問われた場合の指標はやはりビジター数になる。 ページビューは1ページ完結型の情報サイトならあまり意味はないけれど、関連のあるコンテンツに誘導しようと努力している場合は人気の指標に含めれば良い考えている。

質問者の思惑が「人気=売り上げ」であればビジター数もページビューも関係ない。売り上げはいくらかを言ってやればよい。「うちの売り上げの10%はウェブサイトからの受注だ」と。

AJAXアプリケーション?私はGmailの利用者だがメールはほとんど来ない。けれど一日中Gmailのページを開いているよ。こんなアプリケーションでも滞在時間が重要なのかい?

滞在時間や閲覧時間については こちらのページが詳しい

とにかくアクセスログの解析結果を見る側は数値だけに惑わされないようにすることが重要だ。マネージャーや経営者は得てして数字だけを聞きたがる。サイトの全体像なんて気にしていない。アクセスログ解析担当者としては彼らにいかに伝わるレポートに仕上げるかが悩みどころで腕の見せ所なのだ。

検索キーワードの評価

検索キーワードは単語の出現回数を集計することで、想定していたキーワードと検索エンジンが実質的にサイトに関連付けている語が見えてくる。 あるページに「アクセスログ解析」というキーワードで訪問者を獲得しようと考えていた場合、アクセスログの解析結果からまずは該当ページの検索キーワードを見るだろう。結果が思わしくなくてもがっかりすることはない。検索キーワードはほとんど複合語だから、それらを単語に分割して各単語の出現回数を集計しよう。すると「アクセスログ解析」がフレーズ検索で頻繁に使用されていたことが判明するかもしれない。

サイト設計編

アクセスログ解析のためのウェブサイト設計について。

コンテンツの分類

アクセスログ解析では特定のURL(コンテンツ)をグループにして分析を行うことがある。セグメンテーション分析ってやつだ。サイトのコンテンツがURLで分類されていないとセグメンテーション(分類)は大掛かりな作業になる。なぜなら、ひとつひとつのURLを分類していかなくてはならないからだ。小さな小さなサイトならURL(ファイル)の数もたいしたことなく、人力で常識的な時間でなんとかなるだろうが、 10,000 URLを分類しようとするのはさすがに苦しい。

特に「言葉(とリンク)によって分類されたグループ」で出来上がっているサイトはページに個性がなく分類するのが難しい。 例えば「Aに在るC」「Bに在るC」のCは、AやBという言葉で分類されており、Cが同一URLであるなら、セグメントはAなのかBなのか迷わなければならない。 なぜ迷うのか?それは解析データ(数値)の混乱を避けたいからだ。AとBの相関関係を見たい場合、内包されたCのデータがA、Bに影響することは当然だ。 Aの訪問とBの訪問の大半をCが占めていれば、強い相関を示すのは明らかである。 だからディレクトリ構造(URL)に一貫性のないサイトにおいてコンテンツのセグメンテーション分析は困難をともなう。データ解析における準備の手間を軽減する為にもURLによる分類は重要である。というかそれがデータ解析の前処理としよう。

内容物が同じであってもそれが異なるカテゴリーに配置されるのであればURLも分ける。対象となる顧客像が複数存在するのなら、それらターゲットに合わせて複数のページを作成した方が良い。

クリックストリーム/ページ遷移を解析するために

ビジターのクリックの分析はリンク数を減らすと分析しやすい。単に数を減らせば計算の手間が軽減されるという理由では無くて 各々のリンクに意味付けして分析ポイントを明確にする のが狙いだ。

PPC 広告ではプロモーション専用のページが設置されることも多い。クリックできるポイント(アンカー)を減らして訪問者の導線を絞り込むような設計が主流(と思われる)。ランディング ページを設けて導線を絞り込む意図はプロモーションの効果を可能な限り厳密に測定したいからだ。次回のプロモーションに活用できるデータを収集するわけだ。

あるページに同一URLのアンカーがある場合にはURLを異なるものにする。パラメータを付けるのが手っ取り早い。JavaScript を用いれば onclick イベントで専用のログを収集することもできる。


最終更新日: 2014年08月30日(土) / カテゴリー: ウェブサイトの構築と運用