RaN144(6) HTMLコードの落とし穴/禁断のスパム行為
Good Home Page HTML Making (6)/黒月樹人(Kinohito KULOTSUKI

黒月樹人のランダムノート2010 ブランチページ(Branch Page)へもどる

 概要
 スパム行為の発生要因について考え、このような、禁断のスパム行為の、具体的なパターンの流れについて考察する。


 スパム行為の発生要因

 ホームページの検索ランキングが低迷しているとき、HTMLコードを自由に使えるようになると、だれしもがふと、これをうまく使えばホームページの検索ランキングを上げられるようになるのではないかと考えるようだ。

 私が「黒月樹人のホームページ」を立ち上げたとき、このタイトルづけが、実は、最悪のパターンだということを知らなかった。当時の私のホームページの「売り」は「スポーツ解析」であった。もっと限定して述べると、陸上競技の技術を力学的に解析し、その技術のノウハウを売ろうというもの。ところが、これをアピールするための「黒月樹人のホームページ」が、「スポーツ」と「解析」の検索ランキングでも、固有名詞がからんでくる「黒月」の検索ランキングでも、いっこうに取り上げられなかった。あてこんでいた広告機能が果たせなくなり、全国に知られれば、なんとか商売になると思っていた見込みが崩れ、私は「じり貧」状態へと落ち込んでいった。

 このとき、インターネットに詳しい人のところに相談にいった。「黒月樹人のホームページ」の検索ランキングを上げるためには、ホームページのHTMLコードの中に、もっとキーワードを書き込まなければならないと教わった。しかし、HTMLコードのことなぞ何も知らなかったので、実際には、その人に全てやってもらった。このときの行為は、ここでいうスパム行為ではなかった。META文として設定されている「説明文」を記述するコードと、「キーワード」を記述するコードを書き込むというものだ。さらに、何らかの工夫をして、「ホームページの表に出ないところ」へと、キーワードを書き込む技術があることを、知識として教わったが、それを実際にはやらなかったし、やるように強く勧められた記憶もない。的確な判断だったと思える。

 代わりに私は、「ホームページの表」に、「黒月樹人の○△◇」といったふうに、「黒月樹人の」という枕詞を、あちらこちらに配置させるようにしたようだ。これは正当な技法であったはずだが、これで、どれだけの効果があったのかはよく分からない。このような処理の後、急激に検索ランキングが上がったとは感じなかった。

 当初は150位くらいだった「黒月樹人のホームページ」の「黒月」での検索ランキングも、少しずつ上がっていって、何らかの機会に、突然9位になったことがあったが、やがて、20位以下の「深み」へと戻っていた。キメラミームやクールペッパーページ(CPP)のブランチページに、数々の内容をもつリーフページを増やし続け、1年ほどして、ようやく「黒月樹人のホームページ」の「黒月」での検索ランキングが一桁台に上がってきた。なんとか6位くらいだったかと思う。ところが、この上にある1位〜5位のページはと覗いてみると、ほとんどが、かんたんな内容のブログなのだった。私のホームページに含まれているリーフページ群の質と量に比べ、なんという貧弱な内容であったことか。色々調べて、この現象は、一般のホームページに比べ、ブログのほうが、リンク数で勝るようなメカニズムになっていることによる現象だということが分かった。納得はゆかなかったが、理由が分かり、打つ手がないと考え(実は、打つ手は幾つもあったらしいが、今ではスパムと認定されてしまうものであったので、このように考えたのは正しかったようだ)、ランキングのことは忘れることにして、私は、私が発見したことを次々とリーフページへと構成し続けた。

 2010年の初夏のころだったと思うが、「黒月樹人のホームページ」は「黒月」の検索ランキングで、突然1位になった。このころ私は、「ランダムノート2010」というブランチページで、これまでのものとは違う、より実用的なページを生み出し続けていた。それが原因の一つなのかもしれない。もう一つの可能性がある。つまり、それは、グーグルの検索評価の基準体系が変化したためではないか。色々と資料を調べてゆくと、グーグルだけでなくヤフーでも、このような評価基準のアルゴリズムを、ここ最近、激しく変化させてきているということが分かってきた。

 ホームページへ広告を載せてゆくことにより何らかの収入が得られるかどうかということを、私は2010年の夏ごろから試みることにしたが、結果はさんざんなもので、私はまったく広告収入を得ることができていない。ただ、このような試みによって、「ホームページ広告」「SEO」「スパム行為」という言葉の意味と内容が、よく分かるようになった。グーグルやヤフーといった検索業者と、SEO対策業者との、「お金」を媒体とした「イタチごっこ(あるいは戦争のようなもの)」が、現在の激しい変化を生み出してきたということも分かってきた。

 「富」や「利権」や「お金」をかけた、人間の、知恵の出し合いというドラマは、終わることがない。まったくもって私たちは哀れな存在だ。互いに泥沼から抜け出したいと思っているくせに、互いに足を引っ張り合っている。

 私は幸いなことに、「スパム行為」とは無縁のままでやってこられた。まったく単純に、内容が充実したリーフページを生み出そうと考えて、自分の「技(わざ)」を磨いてきた。そのかわり、何らかの「収入」につながるような成果は何も獲得していない。ひょっとすると、これから起こることなのかもしれないと思っておこう。

 このあと、やってはいけない「禁断のスパム行為」にはどのようなものがあるのかということを、いくつか説明してゆくことにしよう。


 スパム行為の流れ

 @隠しテキスト 背景色と同じか、それに近い文字色などを使って、キーワードを数多く書き込むこと。

グーグルの検索ロボットは画像の中の文字は読めず、テキストだけを調べてゆくという。そこで、数多くキーワードを読んでもらいたいが、不自然なほど多くの数だと怪しまれるので、人には見えないようにするという考えらしい。もっとも初期に発生したスパム行為のようだ。検索ロボットは読むのだが、その背後にいるグーグル側の人間には読めないようにしたいということなのだろうが、これはかんたんに見抜かれる。なぜかというと、画面では人の目に見えなくても、HTMLコードで表示させれば「すべてお見通し」なのだから、人の目でも容易に判定することができる。こんなかんたんなトリックでは、物語にもならない。

 このほかに、人に見えないくらい小さなフォントにして埋め込むという「(スパム行為としての)技法」もあるらしい。これも、上記のトリックと同じである。HTMLコードで表示させれば、証拠はきちんと浮かびあがってくる。

 A隠し画像 ×のサイズのような小さな画像を埋めこむというもの。

おや、グーグルの検索ロボットは画像を無視するのではなかったか。これには裏の理由がある。画像をそれだけで入れておくのではなく、この画像がうまく表示さなかったとき、代わりにテキストを表示させるという命令がある。数多くの小さな画像のひとつひとつに、この命令を入れておくと、検索ロボットは評価するが、人には「見えない」という考え方。これもHTMLコードにはっきりと示されるので、このようなスパム行為を自動判定するアルゴリズムを入れることは、かんたんにできるだろう。

 B隠しリンク 画像を使ってリンクを張ることができるので、これを利用して、「見えない」「極小の」「背景色と同じか近い色」の画像を数多く配置し、それぞれに、代用テキストとしてのキーワードを書き込んでおくというもの。

このトリックも、かんたんに見抜くことができる。

 これまでの@隠しテキストB隠しリンクのようなスパム行為は、みんな同じ構造をもっている。「検索ロボットには分かるが、ユーザーには分からないだろう」というもの。しかし、検索ロボットの背後で目を光らせているグーグルの検査官までだますことができないことは明らかである。なぜなら、そのページを構成しているHTMLコードには、どのような操作が行われているかが、すべて記されているから。そうそう、グーグルの検査官だけでなく、一般のユーザーでも、そのページのHTMLコードを、ブラウザの機能を使えば見ることができるのだから、誰にでも発見されてしまうものである。

これ以外にも、他の機能を応用したスパム行為があるようだが、それらを詳しく学んでも、使う場所がないし、使ってしまって、そのホームページの評価を下げたり、追放されたりするのは馬鹿げたことである。

 C<META>タグでのルール無視 実際のディスプレイ上への表示に何も影響しない <META>タグ において、「記述に関するガイドライン」を無視して、検索ロボットにキーワードなどを読みこませるもの。

「検索にガンガンヒットするホームページの作り方」[1] によると、次の(a)(c)3パターンがあるそうだ。

 (a) 説明(description」や「キーワード(keywords」の <META> 記述行を、それぞれ複数行入れると、スパム行為とみなされる。これの「逃げ方」として、keyword の単数形と複数形で使い分けて2行入れるのもスパム行為となる。

こんなセコイことを、なぜ考える必要があるのだろうか。

 (b) 本文を記述する <BODY>タグ内のコンテンツと、まったく無関係のキーワードを書き込むとスパム行為となることがある。

スパムと判定されないためには、本文の中にある、重要な言葉や内容を表わす言葉を用いる必要があるという。これは基準化しにくいルールでもある。

 (c) 説明文(description」に大量の文章を、「キーワード(keywords」に大量のキーワードを並べると、無視さたり、スパム行為とみなされることがある。

説明文(description」として用いることができる分量をグーグルの検索ページにおける説明文の程度と見なすと、日本語の全角文字として見積もって、およそ80文字〜120文字くらいであろう。1行を40文字として、23行ほどである。キーワードは56単語ほどと推定されている。これくらいが、自然な分量であると考えられる。

ただし、現時点でのシステムでは、これらの「説明文(description」や「キーワード(keywords」の記述は、ほとんど考慮されないようだ。幾つかテストしてみたが、トップペーシにおける「説明文(description」が用いられたことがあるだけで、他のページでは、独自に探し出してきた検索キーワード前後の文が、前後のつながりを無視して抽出されることになる。

このような <META>タグ を利用して組み込む手間をかけるより、本文に「概要」や「目次」と名打って、先頭行の近くに表示しておけば、スパムと判定される恐れもないし、本文を理解しやすくするための記述なのであるから、グーグルのロボット検索システムにおいて、しかるべき評価を受けるはずである。

下手な技巧で相手の「すき」を突こうとするより、正々堂々と本文として記述することによって「正面突破」したほうが、より高い評価が得られる。

 Dリンク・ファーム 互いにリンクをはりあうグループ化したサイト群のこと。

 数学的な観点から述べると、二つのサイトが行う相互リンクの多次元化となる現象。

このリンク・ファームは米国で訴訟問題となった。グーグルは、これらのリンク・ファームをスパム行為と判断しページランクの永久はく奪を実行した。これについてグーグルとリンク・ファームの実行者たちとで争われたが、20055月にグーグルの勝訴で決着がついた(SEO(検索エンジン最適化)を越えたホームページ集客術」[2])。

 二つのサイトでお互いにリンクしあう「相互リンク」という手法や、一つのサイトへと多くのサイトがリンクして集まり、それらのサイトでの「ランキング・プログラム」という手法もあるようだが、これらについては問題視されていないらしい。

これらと「リンク・ファーム」とでは、リンクの「密度」のようなものが極端に違う。また、「相互リンク」や「ランキング・プログラム」まで問題視してしまうと、ヤフーやグーグルが行っている検索サイトの活動そのものも、数学的には同次元のものとして見なすことになり、ウェブの世界が固着してしまうことになる。

 もともとは、他のサイトからのリンクが数多く張られているサイトに、より高い評価を与えてきたという、検索サイトの行動が招いた現象である。このような評価基準の「網の目」をついた手法が編み出されるということは、その評価基準が本質的なものではないということだと考えられる。ヤフーやグーグルといった検索サイトは、さらに本質的な評価が行えるようにアルゴリズムを改善すべきである。どうやら、それは現在も進行中のことであるらしい(SEO SEM Technique 2010[3])。


 まとめ

 上記の「スパム行為の流れ」は、まったく基本的なものである。他にも、難解な技法を使った、巧妙で、それゆえに悪質だと判断されるものが数多くある。

 商業的な目的のサイトが検索リストの上位に位置するという現象に「お金」というものが結びつくという世界を、いつのまにか検索サイトが生み出したわけである。そのとき、インターネットの世界における「法」や「モラル」のようなものの「目」をくぐってでも、この現象を利用して、より多くの「お金」を得ようとするものが出現する。この「悲しみの惑星」ならではの、「悲しい性(さが)」のようなものだ。

 しかし、この現象は、やがて、検索サイトの評価基準アルゴリズムが進化することにより、あるところへと収束してゆくことだろう。そのとき、検索サイトの上位に位置するのは、ほんとうの存在意義をもった内容を表現しているサイトとなるはず。私は、そのような「収束現象」が、現在急スピードで進行していると思っている。だから、私は「ほんとうの存在意義」という基準で、どのようなホームページを生み出せばよいのかということをテーマとして追求している。

 私たちのようなホームページの制作者と、検索サイトとは、互いにスキをついて「だまし合う」のではなく、互いに、ほどよく刺激し「高め合う」ようにして、インターネットをベースとしたウェブの世界を、より豊かで意義深いものにしてゆくべきなのだ。

皮肉にも、ここまでに変化してきた、大きな要因は、「利権」や「お金」というものをめぐっての、あたかも「過去に何度となく繰り返されてきた戦争」のような、悲しい現実だった。

 もうそろそろ私たちは、このような「愚かな夢」から目覚めるべきだろう。


(2010.10.29 Written by Kinohito KULOTSUKI [@] KULOTSUKI ANALYSIS INSTITUTION)


参照資料

[1] 「検索にガンガンヒットするホームページの作り方」SEO(検索エンジン最適化)テクニックで効果的にPRする, (株)イー・プロモート CSO渡辺 隆広 著, 翔泳社2003

[2] SEO(検索エンジン最適化)を越えたホームページ集客術」プロが教えるSEM(検索エンジンマーケティング)の実践テクニック96, 鈴木 康裕(NTTデータキュビット代表取締役社長)著, 株式会社アスキー2005

[3] SEO SEM Technique 2010,  鈴木将司他14名著, 翔泳社2010

黒月樹人のランダムノート2010 ブランチページ(Branch Page)へもどる