Каким образом поисковый сервер осуществляет поиск информации во всемирной паутине

Обновлено: 02.07.2024

Свободный доступ к информации, невзирая на границы и расстояния, стал возможен благодаря World Wide Web (WWW, Web) — всемирному хранилищу информации, существующему на технической базе сети Интернет.


- представляет собой множество информационных ресурсов, организованных в единое целое;
- объединяет многочисленные ресурсы, размещённые на компьютерах по всему миру;
- организована так, что в ней информационные ресурсы представлены не в линейной последовательности, а снабжены ссылками (гиперссылками), явно указывающими возможные переходы, связи между ресурсами.


Всемирная паутина — это мощнейшее информационное хранилище; содержащийся в ней объём информации не поддаётся точному измерению. WWW содержит информацию самого разного характера; там можно найти:

Сайты есть у государственных структур, общественных организаций, предприятий, фирм и компаний, музеев и библиотек, газет, образовательных учреждений, в том числе у многих школ.

Каждый сайт и каждая страница имеют свой адрес , по которому к ним можно обратиться. Web-сайты сильно отличаются друг от друга по оформлению, но чаще всего они имеют похожую структуру.

Каждый web-сайт имеет главную страницу , которая аналогична странице с оглавлением в книге. В текстах, размещённых на страницах сайтов, могут быть выделены некоторые слова — гиперссылки , от которых идут гиперсвязи .

Щёлкнув мышью по такому слову, мы переходим к просмотру другого документа, причём этот документ может находиться на другом компьютере, в другой стране, на другом континенте.

В качестве гиперссылок может использоваться не только текст, но и любое графическое изображение. Такую организацию информации называют гипертекстом .

DownHouse.info_1234889530_all_browsers.jpg

Все системы поиска информации во Всемирной паутине располагаются на специально выделенных компьютерах с мощными каналами связи. Ежеминутно они обслуживают огромное количество клиентов.


Действие поисковых систем основано на постоянном, последовательном изучении всех страниц всех сайтов Всемирной паутины. Для каждого документа составляется его поисковый образ — набор ключевых слов, отражающих содержание этого документа. В связи с постоянным обновлением информации поисковые системы периодически возвращаются к ранее изученным страницам, чтобы обнаружить и зарегистрировать изменения. Информация о ключевых словах исследованных таким образом страниц сохраняется в поисковой системе.


При поступлении запроса от пользователя поисковая система на основании имеющейся в ней информации формирует список страниц, соответствующих критериям поиска. Найденные документы, как правило, упорядочиваются в зависимости от местоположения ключевых слов (в заголовке, в начале текста), частоты их появления в тексте и других характеристик.

Существует множество поисковых систем. Несмотря на общий принцип работы, поисковые системы различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам упорядочивания информации и другим характеристикам. На данный момент самой популярной в мире поисковой системой является Google . Крупнейшие отечественные поисковые системы — Яндекс, Rambler .

Самая быстрая и самая большая поисковая система. Содержит информацию более чем о полутора миллиардах страниц. Имеется возможность выбора языка. Оценивает популярность ресурса по количеству ссылок, ведущих к нему с других страниц.

Мощная отечественная поисковая система. Обеспечивает поиск в основном среди русскоязычных ресурсов, при этом по возможностям не уступает зарубежным системам. Проводит качественный анализ информации с учётом словоформ русского языка.

Одна из первых русских поисковых систем. Кроме стандартных возможностей поиска на сайте имеется рейтинг-каталог ресурсов.


1) поиск по любому из слов — результатом поиска является огромный список всех страниц, содержащих хотя бы одно из ключевых слов; может быть использован, когда пользователь не уверен в ключевых словах;


2) поиск по всем словам — в этом режиме поиска формируется список всех страниц, содержащих все ключевые слова в любом порядке;


3) поиск точно по фразе — в результате поиска составляется список всех страниц, содержащих фразу, точно совпадающую с ключевой (знаки препинания игнорируются).


Смысл логических связок становится более понятным, если проиллюстрировать их с помощью графической схемы — кругов Эйлера .

Тогда множества документов, соответствующих нашим запросам, будут представлены закрашенными областями.


ejler.jpg

  • проверить правильность написания ключевых слов;
  • проверить правильность использования логических связок;
  • подобрать более удачные синонимы;
  • изменить логику запроса.

Босова, Л. Л. Информатика: учебник для 7 класса / Л. Л. Босова, А. Ю. Босова. — М.: БИНОМ. Лаборатория знаний, 2013.

Свидетельство и скидка на обучение каждому участнику

Урок № 5

Тип урока: комбинированный урок

Обучающие : изучить понятиями www, web- страница, web- сайт, web- сервер, рассмотреть гиперструктуру www, усовершенствовать назыки поиска информации в интернете ;

Развивающие: способствовать развитию памяти, внимания; развитие умения связывать изучение нового материала с уже известными фактами;

Воспитательные: воспитывать информационную компетентность, интерес к изучаемому предмету, воспитание самостоятельности и умения работать в паре и самостоятельно.

Проверка домашнего задания

Актуализация опорных знаний

Объяснение нового материала

Выполнение пратической работы

Подведение итогов урока

Организационный момент.

Приветствие. Проверка присутствующих.

Проверка домашнего задание.

Проверка наличия, обсуждение.

Актуализация опорных знаний.

Объяснение нового материала.

Три способа поиска в Интернете

Как уже было сказано, существуют три основных способа поиска информации в Интернете.

1. Указание адреса страницы. Это самый быстрый способ поиска, но его можно использовать только в том случае, если точно известен адрес документа.
2. Передвижение по гиперссылкам. Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу текущему документу. Если текущий документ посвящен, например, музыке , то, используя гиперссылки этого документа, вряд ли можно будет попасть на сайт, посвященный спорту.
3. Обращение к поисковому серверу (поисковой системе). Использование поисковых серверов — наиболее удобный способ поиска информации . В настоящее время в русскоязычной части Интернета популярны следующие поисковые серверы:

Поисковые серверы

Наиболее доступным и удобным способом поиска информации во Всемирной паутине является использование поисковых систем. При этом поиск информации можно осуществлять по каталогам, а также по набору ключевых слов, характеризующих отыскиваемый текстовый документ.

Рассмотрим использование поисковых серверов более подробно. Поисковый сервер содержит большое количество ссылок на самые различные документы, и все эти ссылки систематизированы в тематические каталоги. Например: спорт, кино, автомобили, игры, наука и др. Причем эти ссылки устанавливаются сервером самостоятельно, в автоматическом режиме путем регулярного просмотра всех появляющихся во Всемирной паутине Web-страниц. Кроме того, поисковые серверы предоставляют пользователю возможность поиска информации по ключевым словам. После ввода ключевых слов поисковый сервер начинает просматривать документы на других Web-серверах и выводить на экран ссылки на те документы, в которых встретились указанные слова. Обычно результаты поиска сортируются по убыванию специального рейтинга документов, который показывает, насколько полно заданный документ отвечает условиям поиска или насколько часто он запрашивается в сети .

Язык запросов поисковой системы

Что означает оператор

Логическое И (в пределах предложения)

Логическое И (в пределах документа)

рецепты && (плавленый сыр)

фото | фотография | снимок | фотоизображение

Обязательное наличие слова в найденном документе

+быть или +не быть

(технология | изготовление) (сыра | творога)

Бинарный оператор И НЕ (в пределах предложения)

Бинарный оператор И НЕ (в пределах документа)

путеводитель по Парижу ~~ (агентство | тур)

Расстояние в словах (минус (-) — назад, плюс (+) — вперед)

поставщики /2 кофе
музыкальное /(-2 4) образование
вакансии - /+1 студентов

“ красная шапочка”
Эквивалентно: красная
/+1 шапочка

Расстояние в предложениях
(минус (-) — назад,
плюс (+) — вперед)

Чтобы получить лучшие результаты поиска, необходимо запомнить несколько простых правил:

1. Не искать информацию только по одному ключевому слову.
2. Лучше не вводить ключевые слова с прописной буквы, так как это может привести к тому, что не будут найдены те же слова, написанные со строчной буквы.
3. Если в итоге поиска вы не получили никаких результатов, проверьте, нет ли в ключевых словах орфографических ошибок.

Современные поисковые системы предоставляют возможность подключения к сформированному запросу семантического анализатора. С его помощью можно, введя какое-либо слово, выбрать документы, в которых встречаются производные от этого слова в различных падежах, временах и пр.

5. Выполнение прктической работы.

6. Домашнее задание. § 5 (выучить определения) № 3 стр. 30

7. Подведение итогов урока.

1. В чем состоят три основных способа поиска информации во Всемирной паутине?
2. Каким образом ссылки на конкретные документы попадают в поисковые системы?
Рефлексия.

Проблема поиска во Всемирной паутине не в том, что информации мало, а в том, что ее много. Поиск информации в Интернете — краеугольный камень эффективной работы в Сети. Владение навыками поиска делает Интернет для пользователя полезным как во время работы, так и во время отдыха.
Для организации поиска в Интернете существуют специализированные службы, называемые поисковыми системами.

Поисковые системы.

Принципы работы поисковых систем

Поисковые системы работают, храня информацию о многих web -страницах, которые они получают из HTML страниц. Основные составляющие поисковой системы: поисковый робот, индексатор, поисковик. Обычно системы работают поэтапно. Сначала поисковый робот получает контент, затем он просматривает содержимое web -сайтов. Только после этого индексатор генерирует доступный для поиска индекс. Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы.
В основе работы большинства современных поисковиков лежит индекс цитирования, который вычисляется индексатором в результате анализа ссылок на текущую страницу с других страниц Интернета. Чем их больше, тем выше индекс цитирования анализируемой страницы, тем выше эта страница будет отображена в результатах поиска и тем выше страница будет представлена в списке найденных ресурсов.

Правила построения поисковых запросов

Зарубежные поисковые серверы: Google ( www . google . com ); Altavista ( www . altavista . com ) и Yahoo ! ( www . yahoo . com ).
Для поиска на русском языке лучше подходят российские серверы, на иностранном — зарубежные, хотя, Google неплохо справляется с поиском на многих языках. Несмотря на заявления многих владельцев поисковых систем, что запросы могут быть написаны практически на языке, который люди используют для общения между собой, это далеко не так. Благодаря внедрению новых языковых технологий поисковые системы стали гораздо лучше понимать пользователя. Поисковики теперь ищут не только запрашиваемое слово, но и его словоформы, что позволяет делать результаты поиска более точными. Например, если в поисковом запросе присутствует слово умный, то его результаты будут содержать не только это слово, но и его производные: умного, умная, а также ум и даже разум. Естественно, страницы со словоформами будут не в числе первых результатов поиска, но элементы искусственного интеллекта налицо. Этот факт полезно учитывать при построении поисковых запросов.
Следует помнить о том, что поисковые системы при обработке запроса не учитывают регистр символов, а применять знаки препинания в поисковых запросах вовсе не обязательно, так как они также игнорируются поисковыми серверами. Однако при построении сложных расширенных запросов, результаты поиска по которым обычно гораздо ближе к ожидаемым, используют традиционные знаки препинания. Большинство поисковых систем может бороться с опечатками. Если поисковому серверу покажется, что в слове допущена ошибка или опечатка, то он предупредит об этом той же фразой: Быть может, вы искали….

Cлова для запроса поисковому серверу

Расширенный поиск

2

Рассмотрим дополнительные возможности, которые можно использовать на странице расширенного поиска: указать собственное местоположение (Москва), указать в каком виде должна быть представлена информация (Тип файла), период времени в котором ищем информацию (за сутки, за 2 недели, за месяц, От..До), на каком языке должна быть представлена информация (Русский, Английский Еще), а также можно указать URL -адрес сайта и т.д
Выбор (Точно как в запросе) указывается поисковику для того, чтобы морфологию слов запроса не изменять, а искать только ту форму слова, которая задана.

Язык запросов

Поиск документов, в которых обязательно присутствует выделенное слово.

Допустимо использовать несколько операторов + в одном запросе.

Поиск по цитате.

Поиск документов, содержащих слова запроса в заданной последовательности и форме.

Будут найдены документы, содержащие данную цитату.

Поиск по цитате с пропущенным словом (словами).

Один оператор * соответствует одному пропущенному слову.

Внимание! Используется только в составе оператора ".

Оператор отделяется пробелами.

Будут найдены документы, содержащие данную цитату, включая пропущенное слово.

Будут найдены документы, содержащие данную цитату, включая пропущенные слова.


На этом уроке учащиеся рассмотрят различные поисковые службы интернета. Узнают, чем отличаются друг от друга поисковые каталоги и поисковые указатели. Рассмотрят механизмы работы поисковых служб и увидят пример работы с поисковым каталогом.


В данный момент вы не можете посмотреть или раздать видеоурок ученикам

Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобрев в каталоге.

Получите невероятные возможности




Конспект урока "Средства поиска информацииWWW"

На прошлых уроках мы узнали что интернет – это не только система компьютерных сетей, а так же и глобальная информационная система, которая предоставляет пользователям возможности доступа к информации, а так же общения между собой.


Возможности, которые предоставляет интернет, представлены его службами, которые можно разделить на информационные и коммуникационные. Информационные службы – предоставляют пользователям доступ к различной информации, а коммуникационные – дают возможность общения между собой.


Самой массовой службой интернета, является всемирная паутина. Она предоставляет пользователям доступ к информации в виде сайтов.


Вспомним, что любой компьютер, подключённый к интернету получает уникальный тридцатидвухбитный идентификатор, или IP-адрес.


Который для удобства восприятия пользователями делится на четыре октета, а затем значение каждого из них переводится в десятичную систему счисления. Полученные числа записываются по порядку и разделяются точками. Благодаря доменной системе имён или DNS некоторые узловые компьютеры так же получают уникальные символьные имена, которые называются доменными. Доменные имена имеют иерархическую структуру, доменное имя содержит название самого домена, а также всех доменов, в которые он входит. Они записываются от последнего уровня к первому, разделяясь точками.


Всемирная паутина так же является структурой данных. Она состоит из документов, которые связаны между собой гиперссылками. Текст, который содержит гиперссылки, называется гипертекстом.



Мы уже знаем, что для того, чтобы просмотреть веб-страницу, достаточно ввести её универсальный указатель ресурса в адресную строку браузера. Предположим нам нужно найти во всемирной паутине информацию об аквариумных рыбках, но мы не знаем ни одного сайта, который бы содержал нужную нам информацию. Здесь нам могут помочь средства поиска информации во всемирной паутине.


Сегодня мы поговорим о поисковых службах сети интернет, рассмотрим работу поисковых каталогов и указателей, узнаем об их сходствах и отличиях.


Всемирная паутина – это система документов, которые связаны между собой гиперссылками. Но связи на основе гиперссылок не постоянны. Например, указатель гиперссылки может быть изменён или же веб-страница, на которую он указывает, может быть удалена. Таким образом, единственный способ найти нужный нам документ – его универсальный указатель ресурса, но он никак не связан с содержанием документа.


Если же нам необходимо найти веб-страницу с содержимым по конкретной теме, необходимо воспользоваться одной из поисковых служб интернета. Услуги этой службы предоставляют специальные поисковые серверы, которые по принципу работы можно разделить на поисковые каталоги и поисковые указатели. Рассмотрим обе разновидности.



Рассмотрим общий принцип работы поисковых каталогов. Кто посещал библиотеки, тот знает, что книги в них распределены по специальным разделам, или каталогам на пример в алфавитном порядке. Так же они могут быть разделены на каталоги соответственно тематике. Такие каталоги могут образовывать иерархическую систему. Так в начале все книги могут быть разделены на учебную литературу, художественную и общественно-политическую. Далее, на пример художественную литературу можно разделить на стихи и прозу. Далее, каждый раздел можно разбить по жанрам, а их, в свою очередь, по авторам.


Так же и в поисковых каталогах веб-страницы, делятся на разделы, соответственно теме, которые образуют иерархическую структуру. Данные каталоги заполняются людьми вручную, то есть люди сами распределяют веб-сайты по темам.




Очевидно, что с ростом количества сайтов во всемирной паутине, сейчас их более одного миллиарда, возникла необходимость в других инструментах поиска, которые обеспечивали бы просмотр содержимого большого количества веб-страниц за короткое время. Таким инструментом стали поисковые указатели.


Поисковые указатели можно сравнить с предметными указателями в учебной или научной литературе. Они содержат список основных терминов, использованных в книге и номера страниц с их определениями.


Программное обеспечение поискового указателя можно разбить на четыре части. Это поисковый робот, их так же могут называть пауками или краулерами, программа индексатор, база данных, которая содержит информацию о веб-страницах, а также веб-интерфейс, с которым работает пользователь.


Рассмотрим, как работают поисковые указатели и как взаимодействует их программное обеспечение. Начнём с поисковых роботов. Это специальные программы, которые перемещаются по ссылкам, с одной веб-страницы, на другую и анализируют их, собирая данные. Например, определяют, какие слова на странице встречаются чаще всего, какие слова встречаются в её заголовках, как давно она существует и по скольким ссылкам к ней можно перейти.


Первые поисковые роботы, анализировали только содержание заголовков веб-страницы, так как на анализ всего содержимого уходило слишком много времени. Администратор поисковой системы может корректировать модель поведения поисковых роботов, запрещая им переход по некоторым гиперссылкам.


Поисковые роботы, передают собранную информацию о страницах индексатору, который её анализирует и присваивает веб-странице определённый числовой рейтинг, или индекс, соответственно различным словам, которые могут содержаться в запросе пользователя.



В соответствии с индексами, определёнными индексатором, URL-указатели веб-страниц сохраняются в базе данных. Веб-интерфейс отвечает за то, чтобы принять запрос, который ввёл пользователь, взять из базы данных адреса и описания веб-страниц, связанных с запросом, а затем вывести их в окне браузера в соответствии с индексами.



Сегодня мы рассмотрели средства поиска во всемирной паутине. Мы узнали, что для поиска информации по конкретной тематике во всемирной паутине можно использовать поисковые службы. Которые в зависимости от принципа работы можно разделить на поисковые каталоги и поисковые указатели. Поисковые каталоги имеют иерархическую структуру, пополняются людьми, содержат информацию о небольшом количестве веб-страниц, практически не содержат случайных ссылок. Поисковые указатели пополняются программами поисковыми роботами, веб-страницы в них получает рейтинг в соответствии с алгоритмами индексирования, список веб-страниц пользователь получает в соответствии с их рейтингом.

Читайте также: