S M T W T F S
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
カテゴリ
ブログパーツ
以前の記事
最新のトラックバック
「第12回ジオメディアサ..
from チミンモラスイ!
「第12回ジオメディアサ..
from チミンモラスイ!
「第12回ジオメディアサ..
from チミンモラスイ!
「第12回ジオメディアサ..
from チミンモラスイ!
「第12回ジオメディアサ..
from チミンモラスイ!
what about?
[WEB2.0]
[net community]
only personal note
anymore?


masaqui[at]gmail.com

グルメ情報

[チミンモラスイ!]
[iddy profile]
[about me]
store of amazon
100SHIKI PR Board

Webスカウター情報 [Web Scouter]
スカウター : チミンモラスイ?

ページランク



ASPアクセス解析

google proxy
mobile view

lou_trans


LINKZ
--

あわせて読みたい

MoKuJi
タグ
検索
ライフログ
その他のジャンル
ファン
記事ランキング
ブログジャンル
画像一覧

ブロ電™切符

「livedoorブログ検索」 empowered by ”スパムちゃんぷるー”
f0002759_1362951.gif「livedoorブログ検索」にスパムブロックの技術が実装という記事がありました。


増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除」2008.10.10 @ITmedia
ライブドアは10月10日、「livedoorブログ検索」に、検索結果にスパムブログを表示しない技術を実装した。スパムブログを自動判定する技術を新開発。従来、検索結果の半分ほどスパムだったが、新技術でスパムの約9割が表示されなくなったという。

→「株式会社ライブドア - プレスルーム
→「livedoor ブログ検索

検索エンジン側でのスパム対策というのは、サービスの品質の維持・向上という意味でも重要な役割をもっているかと思います。

【関連記事】
ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに」2008.10.10 @CNET
:



なにげに、このブログ検索というのは、ポータルサイトとして、ライブドアでは先駆的に取り組んでおりました。

→「国内の全ブログをカバーする検索エンジン「未来検索 livedoor」」2004.5.26 @INTERNET Watch

ポータルとしてのサービスの中軸に「ブログ」というのを置いた展開をしてきたライブドアならではの取り組みとして評価できるのではないでしょうか。


ITmediaの記事には、この技術について以下のように書かれております。

 livedoorブログ検索では従来、目視と簡単なプログラムを使ってスパムブログを削除していた。新たに、スパムブログを自動判定する新技術を、社内の共通スパムフィルター「スパムちゃんぷるー」に搭載し、ブログ検索に実装した。

 新技術は、10種類ほどのフィルタリングシステムを組み合わせている。詳細は非公開だが、まずはクローラーで収集したブログ記事の中にブラックリストに登録されたブログの記事がないかをチェックし、その後フィルタにかける。スパムブログが見つかれば、検索対象から除外する。


フィルタリングのための技術として「スパムちゃんぷるー」という自社開発の各サービス間でも横断的に利用できる共通スパムフィルタを実装しているとのことです、こちらについては、5月の「YAPC::Asia 2008」で発表された資料が公開されております。

→「YAPC::Asia 2008 で発表してきました」2008.5.26 @livedoor Developers Blog


検索サービスとして、ユーザーによるクエリーに対するレレバンシーを上げる意味でも、スパムは、非常に悩ましい問題だとは、思いますが、"スパムブログの定義"というところが、そもそも難しい課題でもありそうです。


記事には、その苦労について以下のようにありますが、

 山下さんによると「人が見てもスパムかどうか判定しづらいスパムブログが増えている」という。ニュースをコピーし、語尾を関西弁風に変えているというスパム記事もある。コピー元との類似性を下げることで、スパムフィルターに引っかかりにくくしているというわけだ。「日々新しいパターンのスパムブログが出てくるが、そのパターンはシステムでは判別できず、人間の力に頼るしかない」(山下さん)

著作権を侵害したような、コピーアンドペーストによる記事などは、ざっくり排除(検索結果から)するとしても、内容として不快に感じるようなブログ、たとえばアフィリエイトだけを目的としたようなブログなど自己の営利を追求するためのSEOで検索結果に登場するようなものというのは、どこで線引きするかというのは、なかなか基準が決め難いところもありそうです。

ただ、このあたりも記事の総体的な評価でのスコアリングが可能であれば、有益なエントリが増えることで、自然と目に触れなくなるのではないかとも思います。

多くの検索エンジンで採用しているブラックリスト方式のフィルタリングに加えて、ホワイトリスト方式によるフィルタリングのプロジェクトも進んでいるようですので、今後のますますの進化に期待したいところです。



ブログ検索というところでは、Googleのこんな話題も気になるところです。

→「ブログニュースアグリゲーター分野にもGoogleが参入」2008.10.3 @メディア・パブ
[PR]

by p-article | 2008-10-13 13:53 | 検索エンジン
<< パーソナライズホームページ&q... SNS関連調査レポート2題 >>