close

Вход

Забыли?

вход по аккаунту

?

Информационный поиск. Лекция 2

код для вставкиСкачать
Современные методы и средства
построения систем информационного
поиска
Лекция
Особенности веб поиска Спайдер
Москва
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Обо мне
Кисель Ян
ВятГУ, ФАВТ 2006
2006 - Rambler,
2008 - Mail.Ru (подразделение поиска)
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
О чем эта лекция
● Какой он этот ваш интернет
○ немного инстории
○ многообразие запросов
○ реклама
● Спайдер
○ правила обкачки
○ DNS
○ Особенности работы
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Действия от Вас
Немного интерактивности
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Действия от Вас
Немного интерактивности
… и check-in на портале!
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Популярность пользования поиска
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Веб без поисковых систем
• Без поиска сложно найти нужный контент
• Без поиска нет стимула создавать новый контент
– Зачем что то публиковать если никто не сможет
прочитать
– Зачем что то публиковать если нельзя заработать на
рекламе
• Кто то должен платить за веб
– Сервера инфрастуктура веб создание контента
– Большая часть оплачивается поисковой рекламой
– Поиск платит за веб
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Немного истории
• Первые
поисковые системы
–
•
затем в
→
– Место в выдаче зависит от того сколько вы
заплатили
– Аукцион ключевиков слово
было
дорогим
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Типовые запросы
•
систем
Билл Мюррей фильмы
Испания пожар
июль
Наши дни
Фильмы с участием Билла Мюррея
Пожар сегодня пожар
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Немного истории
•
Ссылочное ранжирование предложенное
– Убивает все поисковики кроме
– Положительный
в поиске как бизнес модель
– В тоже время ежегодный доход
был около
млрд
• Результат
добавил платное размещение
рекламы в стороне от поисковой выдачи
– Ход от
•
поглощение
для поиска
для платных размещений и
увеличивает поисковую долю доминируя
в Европе и очень сильно в Северной Америке
–
и
предлагают платное комбинированное
размещение в поисковой выдаче
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Пример платного размещения
Paid
Search Ads
Algorithmic results.
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Основы веб поиска
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Потребности пользователей
•
– Информационные хотят о чем то узнать
Низкий гемоглобин
– Навигационные хотят попасть на страницу
Аэрофлот
– Транзакционные хотят что то сделать
• Доступ к сервису
• Скачать
• Магазин
– Серая зона
Погода в Париже
Фото поверхности Марса
Canon S410
• Найти услугу
Аренда авто в Европе
• Исследовательский поиск посмотреть что там
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Как далеко заходят
пользователи
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Эмпирическая оценка пользователем
результатов
• Качество страниц широко варьируется
– Релевантности недостаточно
– Другие желаемые хар ки не
• Контент Надежный разнообразный
недублированный поддерживаемый
•
читаемость отображается быстро и
правильно
• Без раздражителей
ыитд
• Точноть
полнота
– В вебе полнота редко имеет значение
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Эмпирическая оценка пользователем
результатов
Что же имеет значение
● Точность на первой странице или в первых строчках
● Полнота по запросам должна уметь справляться с неясными
запросами
● Полнота имеет значение когда результатов очень мало
Пользовательское восприятие может быть ненаучным но оно
существенно на большом агрегировании результатов
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Полнота по запросам редкий запрос
gentoo "disable-libunwind-exceptions" "Filesize does
not match recorded size"
● 1 результат в Google
● Yandex/GoMail - начинают
выбрасывать слова
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Полнота листание не всегда честно
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Полнота по АиП
http://www.analyzethis.ru/?analyzer=rare
●
●
●
●
гугломаньяк
собакокрадство
ужинальный
...
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Эмпирическая оценка пользователем
ПС
•
•
•
•
•
Релевантность и действительность результатов
простой упорядоченный устойчивый к ошибкам
Доверие объективность результатов
Покрытие тем по многозначным запросам
Предоставление
инструментов обработки
– Уменьшение ошибок пользователей спелчекер помощь в поиске …
– Явные поиск в результатах больше похоже на … очистка ввода
– Предположение ищут также
• Учитывание различных особенностей
– Специфичный веб словарь
• Влияние на стемминг спелчекер и т д
– Ввод веб адресов в поле запроса
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Коллекция
документов
• Нет общего дизайна координации
• Распределенное создание контента линковка
открытость публикации
• Контент содержит правду лож устаревшую и
противоречивую информацию …
• Неструктурированные текст
…
полуструктурированные
подписанные
фото структурированные БД …
•
…
• Рост замедлился после изначально удвоение
объема каждые несколько месяцев но все
равно продолжается
• Контент может быть динамическим
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Какого размера веб
• Сложности
– Веб на самом деле бесконечный
• Динамический контент напр календари
•
валидная страница
– Статический веб содержит синтаксическое дублирование в
основном зеркала
– Некоторое сервера редко или плохо доступны
• Кого это заботит
– Медиа и соответственно пользователей
– Архитектуру поисковой системы
– Алгоритмы обкачки влияние на полноту
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
К слову о
$
$
$
$
curl
curl
curl
curl
-s
-s
-s
-s
-D
-D
-D
-D
-
http://aros-exec.org/modules/newds/
http://lingold.ru/fanetika/
http://besedka.npenza.ru/anypage/
https://news.mail.ru/abc/
браузер: https://www.chroniclogic.com/recursice
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Новое определение
• Статический индексируемый веб это есть
индекс поисковых систем
• Различные ПС имеют различные хар ки
•
• Различные ПС индексируют различные части с
одного и того же
•
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Первое поколение поисковой рекламы
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Первое поколение поисковой рекламы
•
готов заплатить
больше всех
за этот
поисковый запрос
• Он платит
в
каждый
раз когда кто то кликает по
ссылке
• Страницы ранжируются
согласно сумме для оплаты
– Максимальная прибыль для
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Первое поколение поисковой рекламы
Нет разделения на рекламные
и обычные документы
Один общий
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Второе поколение релкамы
Четкое разделение результатов поиска и
рекламных результатов
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Два списка результатов
появляется в
результатах поиска
появляется
в рекламных объявлениях
Ранжируют ли ПС сайты
выше если они платят за
рекламу
Все основные ПС это
отрицают
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Наши дни
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Как ранжируется реклама
• Владельцы сайтов платят за ключевые слова
принцип аукциона
• Система открыта каждый может платить за любые
ключевые слова
• Деньги списываются только в случае если кто то
кликает по данной рекламной ссылке
• Как аукцион определяет ранк и цену объявления
•
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Как ранжируется реклама
• Например по размеру цены размещение объявления а
ля
– Плохая идея просто обмануть
– Мы не хотим показывать нерелевантную рекламу
• Вместо этого ранжирование на основе цены и
релевантности
• Ключевая метрика релевантности рекламы
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Как ранжируется реклама
• В результате нерелевантная реклама будет
ранжироваться ниже
– Даже если это временно снизит прибыль для ПС
– Исходим из того что общее восприятие системы и общая
прибыль максимизируется если пользователь получает
нужную информацию
• Другие факторы ранжирования
– Гео расположение время суток качество и время загрузки
страниц
• Основной фактор это запрос
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
▪
максимальная цена за клик от рекламодателя
▪
когда объявление показывается какое
отношение того что пользователь по нему кликал
это
мера релевантности
▪
определяет как много денег рекламодатель
готов заплатить к тому насколько релевантно его объявление
▪
ран в аукциона
▪
цена которую платит рекламодатель
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Рекламодатель платит минимум необходимый для
поддержки своих позиций в аукционе
цент
это приводит к
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
плюсы для всех
• Компании ПС получают прибыль каждый раз когда кто то
кликает по ссылкам объявлений
• Пользователь кликает только по тем объявлениям
которые ему интересны
– ПС банят нерелевантные рекламные объявления
– В результате пользователь удовлетворяет свою
потребность после клика по рекламе
• Рекламодатель находит новых клиентов эффективным с
точки зрения затрат способом
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
есть и минусы
• Покупаем рекламу по ключевому слову в
• Затем перенаправляем весь траффик на сайт третей
стороны которая платит больше чем вы платите в
– Напр страница с большим количество баннеров и
рекламы
• Обычно такой редирект не имеет смысла для
пользователя
• Рекламные спамеры постоянно придумавают новые
подобные трюки
• Для ПС требуется время чтобы уметь их обнаруживать
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Основые задачи спайдера
• Изначально имеет набор известных урлов
• Скачать и распарсить страницы с них
– Извлечь ссылки со страницы
– Добавить ссылки в очередь на выкачку
• Скачать все урлы из очереди и повторить
цикл
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Источники
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Спайдер вид сверху
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Все ли так просто
• Обычные страницы тоже доставляют…
неприятности
– Скорость доступа Ширина канала до удаленных
серверов различаются
– Все сайты отличаются по своей структуре
• Насколько глубоко робот должен обходить сайт
– Сайты зеркала и дубликаты страниц
• Вежливость не делать запросы слишком часто
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Первоначальный анализ сайта
• Проходимся по нескольким страницам сайта прямо
в браузере
Пытаемся определить
Есть ли редиректы в т ч
Что возникает при человеческом поведении
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Что любой спайдер
должен делать
• Быть вежливым Соблюдать явные и неявные
соглашения
– Обходить только разрешенные страницы
– Соблюдать
• Быть умным Устойчивость к ловушкам
и некорректному и злловредному
поведению веб серверов
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Что любой спайдер должен бы
делать
• Поддерживать выполнение распределенных
операций иметь возможность запускаться на
нескольких машинах
• Быть масштабируемым добавление серверов
ведет к увеличению производительности
• Производительность эффективность
использовать все ресурсы железа и сети
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Что любой спайдер должен бы
делать
• Скачивать в первую очередь
качественные страницы
• Постоянное обновление Скачивать
свежие копии ранее скаченных страниц
• Расширяемость Поддерживать новые
форматы и протоколы
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Спайдер вид сверху вер
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Очередь урлов
• Может содержать множество страниц с
одного хоста
• Не должна пытаться скачать их все в
одно и то же время
• Должна по возможности загружать все
потоки на выкачку
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Правила вежливости
• Явные правила вебмастер сам
определяет какие части сайта надо
обойти
–
•
• Неявные правила даже без указаний от
вебмастера избегать выполнения частых
запросов
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
• Протокол для работы спайдеров роботы
ограничивающий доступ к сайту разработан в
–
• Сайт определяет что нельзя качать
– /robots.txt
– Или
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Пример
1.
2.
3.
4.
5.
6.
7.
http://lenta.ru/robots.txt (STD)
https://afisha.mail.ru/robots.txt (L)
https://www.forumhouse.ru/robots.txt (XL)
https://music.yandex.ru/robots.txt (PAR)
http://www.tamqui.com/robots.txt (dislike-mail)
http://directmobile.ru/robots.txt (dislike-all)
http://tnt-online.ru/robots.txt (delay)
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Выполнение шагов при
выкачки
• Выбрать
из очереди
Какой
• Скачать документ с этого
• Распарсить документ
– Извлечь ссылки на другие документы
• Проверить что такой документ уже есть в базе
– Если нет то добавить в индекс
• Для каждой извлеченной ссылки
– Убедиться что она проходит различные фильтры
– Проверить что ее еще нет в очереди избегать
дублирования ссылок
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Основная архитектура спайдера
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
• Сервис получения данных о хосте в Интернете
– Для данного
получить адрес
– Сервис предоставляется распределенным набором
серверов время запроса
может быть
большим секунды
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Схема работы
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Схема работы
$ host -v -t A go.mail.ru
…
;; ANSWER SECTION:
go.mail.ru. 15 IN A 94.100.180.252
go.mail.ru. 15 IN A 94.100.180.250
go.mail.ru. 15 IN A 94.100.180.251
…
ADDR TTL “IN A” IP
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Схема работы
Пример: найдем go.mail.ru вручную
$
$
$
$
dig -t NS .
dig -t NS @e.root-servers.net. ru
…
dig -t A @final.ns go.mail.ru
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Схема работы
Пример: найдем go.mail.ru вручную
$
$
$
$
dig -t NS .
dig -t NS @e.root-servers.net. ru
…
dig -t A @final.ns go.mail.ru
$ dig +trace go.mail.ru
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Схема работы
Зачем несколько адресов?
• Балансировка нагрузки
• Failover
• GeoDNS
• IPv6 подходит лучше
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Схема работы
PTR-записи:
• Позволяют сделать резолвинг наоборот
• Используются фаерволами, netstat, и … админами
Наши спайдеры:
$ host 217.69.135.248
http://help.mail.ru/webmaster/indexing/robots/go_robot
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Схема работы
Дополнительно про DNS:
• CNAME - алиасы
• MX - почта
• TXT - все что угодно, но чаще почта
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
• Стандартные реализации в ОС являются
блокируемымы вызовами только один
одновременный запрос
• Решение
– Кеширование
– Пакетный
резолвер собирает запросы и
отправляет их вместе
– Асинхронный резолвер
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Используемые
•
стандартный
обращений
везде есть
работает на конфигах
быстрый кэширующий
используется для фетчеров
ы
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
и адресация
• Если
дает
• а
происходит по
И никто не запрещает нескольким
записям
указывать на
… как хост узнает что запрос необходимо
направить именно ему
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
и адресация
• Если
дает
• а
происходит по
И никто не запрещает нескольким
записям
указывать на
… как хост узнает что запрос необходимо
направить именно ему
… тысячи на
Парсинг
нормализация
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
• При парсинге документа часть извлеченных ссылок
являются относительными урлами
• Напр
имеет
относительную ссылку на
которая является тем же самым урлом что и
абсолютный
• Во время парсинга такие урлы должны
нормализоваться
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Определение кодировки и пр
Правильней всего следовать
популярным браузерам
Не пытаемся быть умнее браузера
Кодировка
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Определение кодировки
●
●
●
●
http://ievpdgh.22web.org/2/685.html?ckattempt=1 (2m)
http://logsoft.kz/contacts.php (h:u8,m:w)
http://www.emalirovka-vann.ru/ (h:w, m:u, b)
echo привет | iconv -f CP1251 -t UTF-8
○ google it
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Такой контент уже есть
• Дубликаты очень широко распространены
в
• Если только что скаченная страница уже
есть в индексе такой же контент то
пропускаем ее
• Это можно определить используя
отпечатки документы
или
шинглы
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Фильтры и
• Фильтры регэкспы
на урлы которые надо
или не надо качать
• После скачки файла
с
сайта не надо его выкачивать
заново слишком часто
– Снижение нагрузки на канал
сервера
• Кеширование файлов
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Исключение дубликатов
ов
• Для одноразовой выкачки надо
проверять что извлеченный
уже
есть или был в очереди
• Для постоянной выкачки см детали
реализации
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Распределенный спайдер
• Запускаем множество потоков процессов
спайдера потенциально на различных
серверах
– Географически распределенные сервера
• Распределять обкачиваемые хосты по
серверам
– Хеширование хоста
• Вопрос как эти сервера взаимодействуют
между собой и шарят
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Взаимодействие серверов
• Вывод
фильтра на каждом сервере отправляется на
соответствующего сервера
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
два основных соглашения
• Вежливость
не
отправлятьзапросы слишком часто
• Свежесть
обкачивать
некоторые страницы чаще чем другие
– Напр страницы с новостных сайтов чей
контент меняется очень часто
Эти две цели могут противоречить друг
другу
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
проблемы
• Даже если мы ограничим обкачку хоста
одним потоком то все равно можем
постоянно делать к нему запросы
• Обычная эвристика вставить временной
промежуток между последующими
запросами
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Чтобы не забанили
• Правильно оформляем User-Agent
Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +//go.mail.
ru/help/robots)
• PTR-запись
• Выкачиваем активней ночью
• Используем несколько IP для запросов
• bind(2)
• bonding
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
• Веб постоянно обновляется страницы
добавляются удаляются обновляются
• Спайдер должен постоянно посещать ранее
скаченные страницы для того чтобы
определять что они изменились и тем самым
поддерживать свежесть поискового индекса
– Устаревший индекс не отражает того что есть на
самом деле
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
• Протокол
поддерживает тип запроса
который позволяет определить
изменилась ли страница без ее полной
выкачки
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
• Невозможно постоянно проверять все страницы
– Надо проверять в первую очередь важные
страницы а а также те которые часто меняются
•
это часть страниц в индексе которая
является свежей
• Оптимизация этой метрики может вести к плохим
решениям в частности не обкачивать популярные
сайты
• Лучше использовать метрику
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
● Если меняется и сайт популярный - уменьшаем T
● Если меняется и не популярен - больше ограничиваем T
○ Обновляется: T /= 2
○ Не обновляется: T *= 2
Также:
● Особый пенальти за 40x/50x
● Но все-равно перевыкачиваем
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
• Сайты которые труднодоступны для спайдера
образуются
– Намного больше чем доступный веб
• Основные категории
–
• Нет входящих ссылок или требуется авторизация
–
• Страницы которые достижимы только после заполнения
форм
–
• Страницы которые используют
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Про
●
○
заменяется на
○ В том числе для главной страницы
● Также примеры
○
○
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Про
●
○
заменяется на
○ В том числе для главной страницы
● Также примеры
○
○
Популярные сайты уходят от Ajax...
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
•
содержат списки урлов и информацию
про эти урлы
– Напр время модификации и частоту обновления
• Генерятся на стороне веб сервера
• Дают спайдерам подсказку как часто
обкачивать ту или иную страницу
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
формат
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
примеры
● http://school-essay.ru/sitemap.xml (usual)
● https://news.mail.ru/sitemap.xml (modules)
● https://market.yandex.ru/sitemap.xml (incl)
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Что кроме
● http://www.apple.com/ru/sitemap/ (sorry, каламбур)
● http://rss.rbc.ru/
○ http://static.feed.rbc.ru/rbc/internal/rss.rbc.ru/sport.
rbc.ru/newsline.rss
○ …
● SEO:
○ ссылки на top-овых
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Хранение документов
• Требования для системы хранения документов
–
• Доступ к документу на основе его урла
• Обычно используется
от урла
– Большие файлы
• Не надо хранить и открывать кучу файлов
• Уменьшается
– Сжатие
• Снижает требования по месту на дисках и увеличивает эффективность
доступа
• Текст сильно избыточен сжатие до
• Соседние документы часто похожи
– Обновление
• Иметь возможность добавлять и обновлять новый контент
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Хранение документов
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Хранение документов
Наш выбор:
Используется для сканирований и
bulk-load:
● 4Pb, 150MM ключей, 50MM тел
● daily: 1MM, 15Тб
Используется как KV для
вспомогательных нужд
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Интернет такой интернет
●
●
●
●
Спайдер качает не только HTML
Должен определять тип документа
Использовал для анализа первые 1Kb символов
Обычно этого достаточно
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Интернет такой интернет
●
●
●
●
●
Спайдер качает не только HTML
Должен определять тип документа
Использовал для анализа первые 1Kb символов
Обычно этого достаточно
...обычно :-)
http://kiev-ehudi.org.ua/
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Вопросы?
Лекция ОСОБЕННОСТИ ВЕБ ПОИСКА
СПАЙДЕР
Спасибо!
Не забывайте
оставить отзыв на портале
Автор
tekhnostrim
Документ
Категория
Без категории
Просмотров
47
Размер файла
5 797 Кб
Теги
лекция
1/--страниц
Пожаловаться на содержимое документа