検索システム ― 実務者のための開発改善ガイドブック(電子書籍のみ)
通常価格
¥3,300(税込¥3,630)
特別価格
- PDFのみの提供です
- 紙書籍も必要な場合は、こちらからお得なセットをお求めください
- 紙書籍のみを差額等でお求め頂くことはできません
「情報検索」×「データサイエンス」×「全文検索エンジン」
- 打田智子・古澤智裕・大谷 純・加藤 遼・鈴木翔吾・河野晋策 共著
- 360ページ
- A5判
- ISBN:978-4-908686-13-9
- 2022年5月2日 第1版第1刷
- 2022年10月31日 第1版第2刷 発行
- 正誤表
- 書籍内のサンプルコード
大量のデータから必要な情報をすばやく見つけ出したい。その要求をコンピューターで叶えるための「検索システム」を実現するためには、「情報を見つけたい」という漠然とした要求をどうやって定式化すればいいか、それに合致する情報を膨大なデータから効率的に取り出すためのデータ構造とアルゴリズム、そうして見つかった複数の情報を提示する方法や順序などなど、考慮しなければならない課題がたくさんあります。
検索システムの実現に伴うさまざまな課題に取り組む鍵は情報検索です。情報検索は、コンピューターを利用するものに限っても、すでに数十年に及ぶ理論の蓄積がある研究分野です。さらに近年では、「ユーザーが検索したいものを定式化できていない状態での検索」(探索的検索)や、検索結果を提示する際の順序決定(ランキング)において、機械学習をはじめとするいわゆるデータサイエンスの知見が強力な手段として活用されています。
本書は、情報検索とデータサイエンスを見据えつつ、主に全文検索エンジンを利用した検索システムの構築を考えている人、もしくはすでに運用している検索システムの改善を考えている人のためのガイドとなるべく書かれました。利用者はもちろんシステムを提供する側にとっても「よい検索」を実現するために必要になるさまざまな知識や考え方を整理してお伝えするものです。
著者紹介
打田智子
筑波大学大学院システム情報工学研究科修了後、複数の企業でバックエンドエンジニア、検索エンジニアとして勤務。現在は、株式会社LegalForceにて検索チームリーダーを務める。仕事の傍らオープンソース活動にも興味を持つ。OSS検索エンジンライブラリApache Luceneコミッター。本書の企画取りまとめ役。
主たる執筆担当箇所:第2章および第4章
古澤智裕
筑波大学大学院図書館情報メディア研究科博士前期課程修了。卒後、情報検索や情報推薦のプロダクト開発に従事。2019 年より株式会社メルカリに入社し、検索評価に取り組んだ後、現在は推薦システムなどの開発を推進中。
主たる執筆担当箇所:第1章、第7章および第8章
大谷 純
フリーランスエンジニア/コンサルタント。検索に関するシステム(Elasticsearchなど)の設計・実装などについて企業をサポート。また、検索技術勉強会の立ち上げ、運営に参画している。
主たる執筆担当箇所:第3章および第5章
加藤 遼
バックエンドエンジニア、検索エンジニアとして勤務。日本経済新聞社で検索APIの開発に取り組んだのち、株式会社ビザスクにて新規検索システムの開発や検索効率化に取り組む。検索技術勉強会の運営に参画。
主たる執筆担当箇所:第6章および第7章
鈴木翔吾
東京工業大学大学院情報理工学研究科計算工学専攻修了後、ヤフー株式会社に入社。以来、機械学習エンジニアおよび検索エンジニアとして、機械学習を用いた検索結果のランキング改善に従事。
主たる執筆担当箇所:第9章および第12章
河野晋策
機械学習エンジニア・検索エンジニア。筑波大学情報学群知識情報・図書館学類修了後、株式会社リクルートに入社。検索改善などの業務に従事。
主たる執筆担当箇所:第9章、第10章および第11章
目次
本書について
本書の構成
謝辞
第1章 イントロダクション
1.1 ゼロからはじめる検索システム開発
1.2 検索システムと情報検索の歴史
1.3 検索システムの全体像と構成要素
第I部 検索エンジンの基礎
第2章 検索エンジンのしくみ
2.1 転置インデックスの概要
2.2 実用的な転置インデックスの構造
2.3 転置インデックスを使った検索の流れ
2.4 テキストデータ以外のインデックス
2.5 無償で利用可能な検索エンジンの紹介
第3章 テキスト解析
3.1 トークン化
3.2 英語のテキスト解析
3.3 日本語のテキスト解析
3.4 そのほかの言語のテキスト解析
3.5 テキスト解析で行うそのほかの処理
第4章 ポスティングリストの走査とランキングのアルゴリズム
4.1 ランキングを考慮しないポスティングリスト走査
4.2 検索クエリとドキュメントの類似度計算
4.3 ランキングを考慮したポスティングリスト走査
4.4 検索エンジンのパフォーマンスとスケーラビリティ
4.5 まとめ
第5章 検索エンジンへのデータ登録
5.1 データを入手する前に
5.2 データを入手して検索できるようにするまで
5.3 データ入手の実際
5.4 コンテンツの抽出
5.5 データの変換や加工について
5.6 検索エンジンにコンテンツを登録する手段
第6章 検索インターフェースと検索クエリの処理
6.1 検索インターフェース設計の前提知識
6.2 検索インターフェースの構成要素
6.3 検索結果の表示
6.4 検索をナビゲートする機能
6.5 検索クエリの入力を補助する機能
6.6 モバイル端末における検索インターフェース
6.7 検索クエリの処理
6.8 検索に必要な機能とは?
第II部 より高度な検索システムにむけて
第7章 よい検索とは
7.1 ユーザーについて
7.2 検索のエコシステム
7.3 高度な検索機能に向けて
第8章 検索システムプロジェクトの始め方
8.1 検索システムのプロジェクト
8.2 プロジェクトの立上げから計画まで
8.3 実行および監視とコントロール
8.4 終結
8.5 検索システムの運用
第9章 検索システムの評価と課題の発見
9.1 検索システムの精度評価
9.2 オフライン評価
9.3 オンライン評価
9.4 検索システムの課題の発見
第10章 クエリ提案とドメイン理解の支援
10.1 「情報要求を検索クエリとして表現するプロセス」を支援する機能
10.2 クエリ提案の実装
10.3 ドメイン理解を支援する機能
10.4 検索結果のクラスタリング
第11章 検索を成功させるための支援
11.1 検索クエリはどのようなカテゴリに分類できるか
11.2 検索クエリのパフォーマンス測定
11.3 検索エンジンへのクエリを書き換える
11.4 検索者からのフィードバックを活用する
11.5 探索的検索の観点で検索システムを評価する
11.6 まとめ
第12章 検索結果のランキング
12.1 ランキングの基本的な手法
12.2 機械学習によるランキング
12.3 機械学習を利用したランキングの実行例
12.4 ランキング学習における特徴量について
12.5 関連度について
12.6 機械学習を利用したランキングの実応用上における注意点
12.7 機械学習によるランキングを採用したサービス事例
さらに先に進むために
情報検索に関する書籍
国際会議
国際論文誌
日本での情報源
参考文献
索引