Hatena::Grouphatena

はてなブックマーク日記 このページをアンテナに追加 RSSフィード

2010-02-17

はてなブックマークの正規化にルールを追加しました

13:01

以前よりはてなブックマークでは、同一 URLブックマークをまとめるため、ref=rss 等のクエリパラメータを取り除く等、サーバサイドでの URL の正規化を行っていました。 本日、このはてなブックマークサーバサイドでの URL の正規化に、以下のルール二つを追加しました。

feedburner 等経由で付与される utm クエリパラメータの削除

feedburner を通した RSS 等経由のリンクで付与される utm_source 等のクエリパラメータを正規化時に削除するルールを追加しました。RSSリーダー等経由でブックマークされる場合、意図しないクエリパラメータが追加されてしまうことがあるため、以下のクエリパラメータの削除を行います。

  • utm_source
  • utm_medium
  • utm_campaign
  • utm_content

例として挙げると、

URLブックマークしようとした場合、utm_source の部分が削除され以下の URLブックマークされるようになります。

もし、特定サイトで上記クエリパラメータが付いてないと正常にコンテンツが閲覧できない場合がありましたらご連絡ください。

URLエンコード(パーセントエンコーディング)された文字列は、すべて大文字として扱う

以前まではてなブックマークでは、パーセントエンコーディングされた文字列は小文字・大文字を区別して異なる URL としてブックマークできました。今回の変更で、すべて大文字としてブックマークされるようになります。RFC3986 ではパーセントエンコーディングの大文字小文字は等価として扱い、また正規化では大文字を使用すべきとのことから、サーバサイドの正規化に追加しました。

これの変更により、たとえばはてなダイアリーキーワードのマルチバイト文字を含むキーワードブックマークエントリーページが複数作成されてしまうような事例は今後は発生しません。

また今回の変更以前にブックマークされたエントリーに対しては、正規化前のエントリーの URL と正規化後のエントリーの URL が存在する場合があります。その場合、正規化前のエントリーページを表示すると以下のスクリーンショットのように、正規化後のエントリーページの URL も提示するようなナビゲーションの追加を行っています。どうぞご利用ください。


f:id:secondlife:20100217120752p:image:w400

watchlynxwatchlynx2010/02/17 14:06http://b.hatena.ne.jp/entry/image/http://..... のプロトコル定義部分削除対応はまだ行わないんでしょうか?

secondlifesecondlife2010/02/17 14:16> watchlynx さん
こんにちは、はてなスタッフです。
現在の所、画像APIでの 'http://' の削除などの URL 変更の対応予定は特にありません。

画像APIの提示されてるような現在のURLへのアクセスは、
ブラウザで表示するだけでアクセスされるため
エントリーページと比べると数多くあり、また
プロトコルの URL の部分の変更のためだけにリダイレクトしても
多段リダイレクトになり、転送量や負荷が上がるため、
ユーザー・サーバー共にメリットが無いという技術的な背景もあります。
ご了承ください。

otsuneotsune2010/02/20 23:13たとえば
http://b.hatena.ne.jp/entrylist?sort=hot&url=http%3A%2F%2Ftumblr.g.hatena.ne.jp%2Fkeyword%2F
のうち
http://b.hatena.ne.jp/entry/tumblr.g.hatena.ne.jp/keyword/yorutoko04%2dotsune
の16 usersを見ようとしても
http://b.hatena.ne.jp/entry/tumblr.g.hatena.ne.jp/keyword/yorutoko04-otsune
の23 usersが表示されてそれしか見ることが出来ないんですが、これはバグだと思います。

fmht7fmht72010/02/20 23:55http://i.hatena.ne.jp/t/%E5%88%86%E6%95%A3%E9%98%B2%E6%AD%A2?did=9
http://i.hatena.ne.jp/t/%E5%88%86%E6%95%A3%E9%98%B2%E6%AD%A2?did=29
にて改善されたアイデアの実装処理をお願いします。
最近滞っていますよ。> id:hatenasupport

トラックバック - http://hatena.g.hatena.ne.jp/hatenabookmark/20100217