ウェブサイトの運用に欠かす事の出来ないアクセスログの解析と分析について書く。本書で言う「解析」はいわゆる集計作業である。「分析」は解析によって得られたデータから情報を導きだすことです。たまに解析と分析(解析データの読み方)が混在している場合もあるので注意してください。分析についてはマーケティングや心理学など社会や人間に対する理解が必要ですので、本書の内容だけを頼りに答えを導かないでください。
Contents
マーケティング データとしてのアクセスログ
本書ではマーケティング データとしてアクセスログを活用していく方法を模索しています。マーケティング データとしてアクセスログは効果測定とデータ マイニングに役立てることができます。マーケティング データとしてアクセスログを活かすにはウェブサイトの運営目的や戦略が必要です。
多くの人や企業は「みんながやってる」とか「顧客に促されて」という社会的事情や、インターネットやウェブサイトに対する偏見に基づいて、無目的な情報発信ツールとしてウェブサイトを開設します。戦略のない/なかったウェブサイトのアクセスログでも計測するポイントと新たな情報を発見するという2つのことを念頭に置いて眺めると利益があります。そのためにはアクセスログから入手できる基本的な情報について知る必要があります。
なお、アクセスログはマーケティング以外にも、ウェブサーバーに対する不正なリクエストの発見や、サーバーの運用状況を把握するデータとしてシステム管理者やウェブアプリケーションを開発するプログラマーにも有益なデータです。ウェブサイトに細工すればウェブ デザイナーにも有益なデータをアクセスログに蓄積することができます。
基本編
解析と分析の違い
解析は定量的(数量的)に示すこと。分析は定量的データに加えて質的要素を交えることです。アクセスログ解析だったら各要素を集計する、アクセスログ分析だったら解析結果を言葉や図で説明する。
http://lise.me.sophia.ac.jp/kktm/Essay/analysis.htm
解析は集計作業と言えども、その数学的モデルが正しいのなら明晰/明快な結果が得られます。分析は解析結果に基づく新しい知識の発見や理論の構築です。
アクセスログとは
一般的にアクセスログと呼ばれるものはウェブサーバのデータ処理の履歴。ウェブサーバが記録機能を有する。ウェブサーバは次のようなデータを記録する。
- クライアント (リモートホスト) の IP アドレス
- identd (RFC 1413)で定義されているクライアント マシンのアイデンティティ
- HTTP 認証のユーザ ID
- サーバがリクエストの処理を終えた日付と時刻
- クライアントからのリクエスト。(メソッド、パス、クエリ文字列、プロトコル)
- サーバがクライアントに送り返す HTTP のステータスコード
- クライアントに送信されたオブジェクトのサイズ。(クライアントに転送されたデータの量)
- クライアントが送信した Referer HTTP リクエストヘッダ。
- User-Agent HTTP リクエストヘッダ
上記 2. のデータを解析対象データにすることは皆無。パブリックなウェブサーバーの 3. を解析することもまれである。
ウェブサーバをカスタマイズすれば任意のデータを記録可能。主に記録される拡張データは cookie や クライアントの国/地域情報だ。
アクセスログの用途
アクセスログには2種類の使い途があります。ひとつは効果測定、もうひとつはデータ マイニングです。効果測定はウェブサイト運営者の働きかけに対するフィードバックを得ることです。データ マイニングは未知の情報を発見することです。
効果測定は「リスティング広告によって獲得した顧客数」や「Google 検索経由で使用されたキーワードの使用回数を知りたい」など、入手したい数量的なデータが単純明快な場合に適用されます。いっぽうデータ マイニングは予想もつかないデータをはじき出すことで、「Yahoo!検索で訪問してくるユーザーと参照元のないユーザーのサイト内での行動の違いを知りたい」のようにいくつかの条件が重なり合い解析/分析対象とする要素にも頭を悩ますような数量的データを得たい場合に適用します。どちらの用途であっても、結果に対して人間が解釈しなければならないのは当然です。
大雑把にまとめると効果測定は算数を用いて入手する情報、データ マイニングは数学を用いて入手する情報なのです。計算量が少なくて容易に数値化できることと、データ マイニングのような膨大な計算量を伴なう作業を混同しないことも重要です。
解析編
アクセスログからおおまかにわかること。
アクセスログ解析でわかること
ここでは基本的なアクセスログ解析の項目をおさえておく。
- 何人がサイトを訪問したのか?
- 何回サイトを訪問したのか?
- どうやってサイトに辿り着いたのか?
- どのページ(URL)が何回閲覧されたのか?
- 検索エンジン経由の訪問で、どのような検索キーワードが使用されたのか?
- どのような環境(ブラウザ、プラットフォーム)でサイトが閲覧されているのか?
以上のことはアクセスログの各要素の出現回数を足し算するだけで入手可能なデータである。プロトコルやメソッドなどテクニカルな側面が強い要素は省略してある。
アクセスログ解析から何を読み取るか?
一般的なアクセスログ解析のポイント:
- 誰が
- いつ
- どこから/なぜ
- 検索語はあるのか?
- どのページへ入ってきて
- どのページを見て
- どのページから出て行った
- あるいは、コンバージョンに繋がった
以上のような項目がアクセスログ解析で出せるデータである。もっと細かい事もできるけど概要としてはこれで十分。ウェブサイトをお店ととらえているので、「どのページへ入ってきて=入り口」「どのページから出て行った=出口」という項目があるのだ。私のこのサイトは商店ではないので出口ページは無視しているし、コンバージョンの定義も"お買い上げ"とは違う。サイトの性質に合う解析方法や分析方法があるということを忘れないように。
5W1H に当てはめることも可能。
- Who - 誰が
- When - いつ
- Where - どこから
- Why - 検索語、なぜ(訪問の動機)
- What - どのページを見て
- How - 閲覧パス(入り口ページから出口ページの経路)
実際のところアクセスログだけでは Why と Who のデータが非常に弱いので、サイトの登録会員やアンケートのデータベースと連携した解析や分析を行う。
誰が
まず、サイトを訪れた人をどのように定義するのか?アクセスログから、どのデータを使って"ひとり"と計上するのか?
ひとつは、ホスト名とユーザエージェントの組み合わせである。もうひとつは cookie など、サーバやアプリケーションがクライアントを追跡可能にするために発行する ID である。
いつ何時
日付、時間、曜日を集計する。ログデータには日時が記録されている。日曜日や祝祭日など社会的な要因も絡めて分析するためのデータになる。
どこから
参照元やリファラと呼ばれるデータ。ブックマーク、メール、外部のサイト、検索エンジン。
どのページへ入ってきて
入り口となったページ。訪問の1ページ目。
どのページを見て
訪問者が閲覧したページ。ページ単位の分析はページ数が増えると作業がしんどいこともあったり、分析のはじめから詳細なデータを見る必要もなかったりするので、ページをコンテンツのグループにして見ていくのがベターかな。
どのページから出て行った
出口となったページ。目標となるページを設定しており、そこに到達しない場合に離脱ポイントの目安になる。また、新たなプロモーション ページとして活用できることもある。 入り口と出口が同じ場合、「直帰した」と分析することも可能だし、滞在時間を見て「適切な訪問者を獲得できた」と解釈する事も可能。
コンバージョンに繋がった
買い物プロセスの最終ページへ到達したとか、資料請求の連絡があったかを確認する。
アクセスログを読む時の心得
分析項目を絞りこむことが重要だ。解析結果はいくらでも見るところがあるので読むべきところを絞らないと時間を浪費するだけ。解析してくれという相手がいれば要望を聞いてレポートも作りやすいが、いきなり「データもらってきたんで、ちょっとレポートだして」なんてのがいちばんつらい。なぜならアクセスログとサイトの特性ってのは切り離せないのでサイトのことがわからないと解析屋も読み取るべきところが掴めなかったりするからだ。一般的にはセッション、ページビュー、検索語を出しておけばいいんだろうけど、こちら(解析する人)はログに金鉱が眠っている可能性を知っているから、そこらのソフトウェアが出す結果では不十分。つまりデータマイニングってやつがやりたい。これには時間もかかるし必ず何かの発見があるとは限らないんだけど:)
- サイトを知る(業種とかキーワードとか。ちょっとした市場調査を含むんですわ。)
- サイトを見る(ページのデザインがページ遷移に影響するので。)
- サイトの目的を知る
- サイトの(これまでの)運用方法を知る
アクセスログ解析で大変な作業
多次元の解析が重労働。レコードの軸の組み合わせは結構な数になる。
既存のソフトウェアやサービスは不満
私の経験上、既存のソフトウェアやサービスには不十分な点が多く見られる。
- 商用ソフトや ASP サービスは機能が豊富であるけれど使い勝手が悪い。さらに、解析アルゴリズムが不明なので、解析結果を他のソフトやサービスと比較して初めて信頼に足る解析結果であるということを確かめる必要がある。
- フリーソフトウェアは機能にも解析結果にも満足いくレベルのものが無い。オープンソース ソフトウェアを自分でカスタマイズするならスクラッチから開発するほうが効率的でもあるし、融通が利く。
解析結果からわからないこと
もっとも知りたいのだけどアクセスログだけではわからないことのは訪問者の人物像だ。サイトを構築する際に想定した人物像はあるのだけれど、それはあくまで統計とマーケティング担当者の経験から導きだされた仮説に過ぎない。
- どういったことに興味のある人物が訪れているのか?
- 訪問の動機は?
- 想定したプロフィールと一致するのだけどコンバージョンにつながらないのは何故だろう?
など、アクセスログは人物像を教えてくれない。訪問者のプロフィールを入手する方法は色々あるけれど、それに投資するお金がなければどうしようもない。
アクセスログを汚す者
汚すという表現はあれですが、いわゆるゴミデータを残すユーザがいるのです。
リファラを隠している訪問者
セキュリティを意識してか意地悪なのか、ブラウザをカスタマイズしてリファラ(参照元)を送信しないようにしたり偽装したりするユーザもいる。こういった人のログを抽出するのはなかなか難しい。僕は最近JavaScript を切ってブラウズしてるし Google Analytics にデータを取得されません。
ウイルスやワームをはじめとするプログラム
ウイルスやワームなんかはセキュリティホールを攻撃しようとして特有のURIをリクエストするのでわかりやすい方だ。検索エンジンのクローラもまだ行儀が良い。はてなアンテナみたいな巡回プログラムもユーザエージェントはわかりやすいし、ダウンローダも行儀が良い。
これら以外のアクセスを判定するのが難しい。インターネットでは行儀の悪いロボットのデータベースが公開されてはいるけれど。。。
「ホストはバラバラで1ページしかアクセスしない」ようなログは通常のユーザでもありうるので除外対象とすることはできない。一般家庭のユーザーはIPアドレスも変わるしホストのデータベースではアウト。ならISPのデータベースからパターンを分析すればいいのかというと微妙だなぁ。
解析結果の曖昧さは排除できない
ニールセン・ネットレイティングス、PVでなく滞在時間でサイトをランキングへというのがニュースになってログ解析の担当者は自分のサイトも滞在時間で評価しようかと考えたかもしれない。決断する前にもう一度サイトの特徴を考えて欲しい。本当にあなたのサイトが滞在時間で評価するようなものなのか?私は少なくとも自分が手がけているサイトのどれもが滞在時間でサイトの人気を示せるようなものではなかった。
「あなたが管理しているサイトはどれほど人気があるのか?」と問われた場合の指標はやはりビジター数になる。ページビューは1ページ完結型の情報サイトならあまり意味はないけれど、関連のあるコンテンツに誘導しようと努力している場合は人気の指標に含めれば良い考えている。質問者の思惑が「人気=売り上げ」であればビジター数もページビューも関係ない。売り上げはいくらかを言ってやればよい。「うちの売り上げの10%はウェブサイトからの受注だ」と。 AJAXアプリケーション?私はGmailの利用者だがメールはほとんど来ない。けれど一日中Gmailのページを開いているよ。こんなアプリケーションでも滞在時間が重要なのかい?
滞在時間や閲覧時間についてはこちらのページが詳しい。とにかくアクセスログの解析結果を見る側は数値だけに惑わされないようにすることが重要だ。マネージャーや経営者は得てして数字だけを聞きたがる。サイトの全体像なんて気にしていない。アクセスログ解析担当者としては彼らにいかに伝わるレポートに仕上げるかが悩みどころで腕の見せ所なのだ。
検索キーワードの評価
検索キーワードは単語の出現回数を集計することで、想定していたキーワードと検索エンジンが実質的にサイトに関連付けている語が見えてくる。 あるページに「アクセスログ解析」というキーワードで訪問者を獲得しようと考えていた場合、アクセスログの解析結果からまずは該当ページの検索キーワードを見るだろう。結果が思わしくなくてもがっかりすることはない。検索キーワードはほとんど複合語だから、それらを単語に分割して各単語の出現回数を集計しよう。すると「アクセスログ解析」がフレーズ検索で頻繁に使用されていたことが判明するかもしれない。