ウェブサイトの運用に欠かす事の出来ないアクセスログ解析について書く。解析手法と分析(解析データの読み方)が混在しているので第三者にはちょっと読みにくいかも。 本書で言う「解析」はいわゆる集計作業である。「分析」は解析によって得られたデータから情報を導きだす事とする。

アクセスログとは

一般的にアクセスログと呼ばれるものはウェブサーバのデータ処理の履歴。ウェブサーバが記録機能を有する。ウェブサーバは次のようなデータを記録する。

  1. クライアント (リモートホスト) の IP アドレス
  2. identd により決まる RFC 1413 のクライアントの アイデンティティ
  3. HTTP 認証のユーザ ID
  4. サーバがリクエストの処理を終えた日付と時刻
  5. クライアントからのリクエスト。(メソッド、パス、クエリ文字列、プロトコル)
  6. サーバがクライアントに送り返す HTTP のステータスコード
  7. クライアントに送信されたオブジェクトのサイズ。(クライアントに転送されたデータの量)
  8. クライアントが送信した Referer HTTP リクエストヘッダ。
  9. User-Agent HTTP リクエストヘッダ

ログファイル- Apache HTTP サーバ

上記 2. のデータを解析対象データにすることは皆無。3. を解析することもまれである。

ウェブサーバをカスタマイズすれば任意のデータを記録可能。主に記録される拡張データは cookie や クライアントの国/地域情報だ。

アクセスログ解析から何を読み取るか?

一般的なアクセスログ解析のポイント:

以上のような項目がアクセスログ解析で出せるデータである。もっと細かい事もできるけど概要としてはこれで十分。ウェブサイトをお店ととらえているので、「どのページへ入ってきて=入り口」「どのページから出て行った=出口」という項目があるのだ。私のこのサイトは商店ではないので出口ページは無視しているし、コンバージョンの定義も"お買い上げ"とは違う。サイトの性質に合う解析方法や分析方法があるということを忘れないように。

5W1H に当てはめることも可能。

実際のところアクセスログだけでは Why と Who のデータが非常に弱いので、サイトの登録会員やアンケートのデータベースと連携した解析や分析を行う。

誰が

まず、サイトを訪れた人をどのように定義するのか?アクセスログから、どのデータを使って"ひとり"と計上するのか?

ひとつは、ホスト名とユーザエージェントの組み合わせである。もうひとつは cookie など、サーバやアプリケーションがクライアントを追跡可能にするために発行する ID である。

いつ何時

日付、時間、曜日を集計する。ログデータには日時が記録されている。日曜日や祝祭日など社会的な要因も絡めて分析するためのデータになる。

どこから

参照元やリファラと呼ばれるデータ。ブックマーク、メール、外部のサイト、検索エンジン。

どのページへ入ってきて

入り口となったページ。訪問の1ページ目。

どのページを見て

訪問者が閲覧したページ。ページ単位の分析はページ数が増えると作業がしんどいこともあったり、分析のはじめから詳細なデータを見る必要もなかったりするので、ページをコンテンツのグループにして見ていくのがベターかな。

どのページから出て行った

出口となったページ。目標となるページを設定しており、そこに到達しない場合に離脱ポイントの目安になる。また、新たなプロモーション ページとして活用できることもある。 入り口と出口が同じ場合、「直帰した」と分析することも可能だし、滞在時間を見て「適切な訪問者を獲得できた」と解釈する事も可能。

コンバージョンに繋がった

買い物プロセスの最終ページへ到達したとか、資料請求の連絡があったかを確認する。

アクセスログを読む時の心得

分析項目を絞りこむことが重要だ。解析結果はいくらでも見るところがあるので読むべきところを絞らないと時間を浪費するだけ。解析してくれという相手がいれば要望を聞いてレポートも作りやすいが、いきなり「データもらってきたんで、ちょっとレポートだして」なんてのがいちばんつらい。なぜならアクセスログとサイトの特性ってのは切り離せないのでサイトのことがわからないと解析屋も読み取るべきところが掴めなかったりするからだ。一般的にはセッション、ページビュー、検索語を出しておけばいいんだろうけど、こちら(解析する人)はログに金鉱が眠っている可能性を知っているから、そこらのソフトウェアが出す結果では不十分。つまりデータマイニングってやつがやりたい。これには時間もかかるし必ず何かの発見があるとは限らないんだけど:)

アクセスログ解析で大変な作業

多次元の解析が重労働。レコードの軸の組み合わせは結構な数になる。

既存のソフトウェアやサービスは不満

私の経験上、既存のソフトウェアやサービスには不十分な点が多く見られる。

解析結果からわからないこと

もっとも知りたいのだけどアクセスログだけではわからないことのは訪問者の人物像だ。サイトを構築する際に想定した人物像はあるのだけれど、それはあくまで統計とマーケティング担当者の経験から導きだされた仮説に過ぎない。

など、アクセスログは人物像を教えてくれない。訪問者のプロフィールを入手する方法は色々あるけれど、それに投資するお金がなければどうしようもない。

アクセスログを汚す者

汚すという表現はあれですが、いわゆるゴミデータを残すユーザがいるのです。

リファラを隠している訪問者

セキュリティを意識してか意地悪なのか、ブラウザをカスタマイズしてリファラ(参照元)を送信しないようにしたり偽装したりするユーザもいる。こういった人のログを抽出するのはなかなか難しい。僕は最近JavaScript を切ってブラウズしてるし Google Analytics にデータを取得されません。

ウイルスやワームをはじめとするプログラム

ウイルスやワームなんかはセキュリティホールを攻撃しようとして特有のURIをリクエストするのでわかりやすい方だ。検索エンジンのクローラもまだ行儀が良い。はてなアンテナみたいな巡回プログラムもユーザエージェントはわかりやすいし、ダウンローダも行儀が良い。

これら以外のアクセスを判定するのが難しい。インターネットでは行儀の悪いロボットのデータベースが公開されてはいるけれど。。。

「ホストはバラバラで1ページしかアクセスしない」ようなログは通常のユーザでもありうるので除外対象とすることはできない。一般家庭のユーザーはIPアドレスも変わるしホストのデータベースではアウト。ならISPのデータベースからパターンを分析すればいいのかというと微妙だなぁ。

解析結果の曖昧さは排除できない

ニールセン・ネットレイティングス、PVでなく滞在時間でサイトをランキングへというのがニュースになってログ解析の担当者は自分のサイトも滞在時間で評価しようかと考えたかもしれない。決断する前にもう一度サイトの特徴を考えて欲しい。本当にあなたのサイトが滞在時間で評価するようなものなのか?私は少なくとも自分が手がけているサイトのどれもが滞在時間でサイトの人気を示せるようなものではなかった。

「あなたが管理しているサイトはどれほど人気があるのか?」と問われた場合の指標はやはりビジター数になる。ページビューは1ページ完結型の情報サイトならあまり意味はないけれど、関連のあるコンテンツに誘導しようと努力している場合は人気の指標に含めれば良い考えている。質問者の思惑が「人気=売り上げ」であればビジター数もページビューも関係ない。売り上げはいくらかを言ってやればよい。「うちの売り上げの10%はウェブサイトからの受注だ」と。 AJAXアプリケーション?私はGmailの利用者だがメールはほとんど来ない。けれど一日中Gmailのページを開いているよ。こんなアプリケーションでも滞在時間が重要なのかい?

滞在時間や閲覧時間についてはこちらのページが詳しい。とにかくアクセスログの解析結果を見る側は数値だけに惑わされないようにすることが重要だ。マネージャーや経営者は得てして数字だけを聞きたがる。サイトの全体像なんて気にしていない。アクセスログ解析担当者としては彼らにいかに伝わるレポートに仕上げるかが悩みどころで腕の見せ所なのだ。

検索キーワードの評価

検索キーワードは単語の出現回数を集計することで、想定していたキーワードと検索エンジンが実質的にサイトに関連付けている語が見えてくる。 あるページに「アクセスログ解析」というキーワードで訪問者を獲得しようと考えていた場合、アクセスログの解析結果からまずは該当ページの検索キーワードを見るだろう。結果が思わしくなくてもがっかりすることはない。検索キーワードはほとんど複合語だから、それらを単語に分割して各単語の出現回数を集計しよう。すると「アクセスログ解析」がフレーズ検索で頻繁に使用されていたことが判明するかもしれない。

最終更新日 2008-11-19 15:28:38