Главная » Файлы » Компьютерные секреты

ПОИСКОВЫЕ СИСТЕМЫ
23.10.2010, 18:54
ПОИСКОВЫЕ СИСТЕМЫ

 



Программист сидит за компьютером, целиком поглощенный работой. Тут ему жена говорит:
— Что-то я своей сумочки не нахожу, ты не знаешь, где она?
Муж, не отрываясь от экрана монитора:
— Не знаю... поищи на Яндексе.


Поисковые системы иногда эти системы называют "поисковыми роботами” или даже "пауками”. Ползая по хитрым переплетениям Сети, "пауки” ежедневно и даже ежечасно заползают практически на все доступные страницы и заносят их в специальный индекс, громадную базу данных, по которой впоследствии и ведется поиск. Эта база данных обновляется примерно раз в месяц. Конечно, даже при такой частоте обновления в базах поисковиков со временем образуются залежи "мертвых” ссылок, но их не так уж много. А уж об объеме информации и вовсе не приходится говорить — поисковым роботам доступен каждый уголок Сети, каждая страничка.

Задача "паука” проста: "сфотографировать” содержимое каждой странички на сайте и занести его в общий индекс. Создатели сайтов уважают поисковые роботы и даже заискивают перед ними, поднося мохнатому чудищу готовый список кодовых слов, определяющих тематику сайта. Например, страничка книжного издательства может содержать кодовые слова: "книги”, "литература”, "издания”, "детективы”, "фантастика”, "книга — почтой”...

Однако поисковые роботы редко полагаются только на внутренний "индекс” странички. Нередки случаи, когда авторы сайтов намеренно заполняли "индекс” словечками типа "секс”, "порно” и им подобными. Разумеется, в результате наблюдался необъяснимо высокий интерес к этим, в общем-то невинным и чаще всего неинтересным страничкам. Поэтому большинство серьезных поисковых систем не ограничивается просмотром индекса, а добросовестно сканируют всю страничку — на всякий случай.

Что происходит потом? Пользователь, зайдя на страничку "поисковика”, вводит слово, по которому должен будет осуществляться поиск. А затем лицезреет долгожданный результат — гору полезных и бесполезных ссылок.

Увы, осуществлять поиск по отдельным словам — работа весьма неблагодарная. Особенно трудно совладать с разбушевавшимся конем-"поисковиком” тем, кому нужно задать поиск по очень специфической теме, оперируя при этом самыми простыми словами. Например, автор является давним поклонником группы "Software”, работающей в жанре "электронной симфонии”. Понятно, что слово software для поисковика может ассоциироваться со многим — но только в последнюю очередь с музыкальной группой. Если же добавить к запросу еще и electronic music — возникнет объясненная выше информационная каша.

Именно для решения этой проблемы на большинстве серверов введен так называемый "сложный поиск”. Часто для его реализации применяются "расширенные” формы запроса — на них можно выйти, выбрав меню Сложный поиск или Расширенный поиск на любом поисковом сервере.

Впрочем, ветераны интернет-поиска относятся к готовым "формам” весьма критически — и поражают воображение новичков, самостоятельным составлением сложных запросов-формул с использованием специальных команд-операторов. Этим нехитрым искусством можете овладеть и вы, если, конечно, прочтете этот раздел — "Поисковые системы” — до конца.

Большинство же пользователей предпочитает ограничиваться простыми запросами. "Поисковикам” приходится лишь признавать этот прискорбный факт и самим делать шаг навстречу незадачливым искателям. Сегодня большинство поисковых машин оснащены сложным механизмом сортировки, который позволяет частично отфильтровать заведомый мусор и оттеснить его в конец списка результатов. А на первые места в нем будут претендовать странички, обладающие большей степенью релевантности, то есть, большим соответствием запросу пользователя.

Мы помним, что, индексируя страницу, "поисковик” работает сразу с несколькими элементами ее содержания. Это:

• заголовок страницы;
• перечень "ключевых слов”, составленный ее автором;
• краткое описание странички, также содержащееся в ее теле. Для пользователей эта информация, как и список ключевых слов, остается невидимой;
• собственно содержимое странички.

Получается, что если заданные вами ключевые слова будут найдены в заголовке, описании, да еще вдобавок и в самом тексте странички, то степень ее релевантности будет достаточно высокой. А вот если ключевые слова будут найдены только в описании, но не на самой страничке, то "робот” наверняка занесет ее в список подозрительных: уж не пустышку ли вы нам подсовываете, господин вебмастер?

Но даже если хозяева "паука” и облегчили ему задачу, исключив из перечня обыскиваемых элементов странички ее описание (мало ли что там вебмастера понапишут!), он всегда найдет, на что обратить внимание при определении степени релевантности. Например, где именно расположена фраза, содержащая ключевое слово, насколько часто это слово повторяется в тексте…


 



Иногда механизм поискового робота забывает про свое теоретическое "совершенство” и на первые места в списке результатов попадает все та же "пустая порода”. Окажется интересной одна ссылка из десятка — великолепно, редкая удача.


К сожалению, поисковые роботы не слишком интеллектуальны — к тому же на их машинную логику порой накладывается глупость самих пользователей. Я не знаю, на что рассчитывают несчастные, задающие поисковым системам в качестве кодового слово "секс”. Естественно, поисковики добросовестно доставляют им сотни тысяч адресов страничек, содержащих это слово — порносайтов и служб знакомств, медицинских трактатов и социологических исследований… В итоге — все тот же хаос, только чуть меньший по размерам.

Было бы удивительно, если бы поисковые возможности не были востребованы создателями программ для путешествия по Сети — браузеров. Вы еще не забыли, что на панели вашего Internet Explorer есть поисковая строка? С ее помощью вы сможете обратиться сразу к нескольким крупнейшим поисковым серверам, в том числе — и к русскоязычным. Ведь если поначалу российским пользователям Интернета приходилось довольствоваться исключительно англоязычными "поисковиками”, не слишком уверенно справляющимися с русским текстом, то теперь все изменилось — в Сети исправно функционирует добрый десяток русских поисковых машин
Категория: Компьютерные секреты | Добавил: руся
Просмотров: 1359 | Загрузок: 0 | Рейтинг: 0.0/0
Всего комментариев: 0
Имя *:
Email *:
Код *: