Глава 1 Теория – что такое интернет и принципы поиска
1.1 ИНТЕРНЕ́Т (англ. Internet, от лат. inter — между и англ. net — сеть)
всемирная компьютерная сеть, соединяющая вместе тысячи сетей, включая сети вооруженных сил и правительственных организаций, образовательных учреждений, благотворительных организаций, индустриальных предприятий и корпораций всех видов, а также коммерческих предприятий (сервис-провайдеров), которые предоставляют частным лицам доступ к сети. Среди типов доступа в Интернет различают онлайн (online) доступ, который позволяет использовать сеть в режиме реального времени, и офлайн (offline) доступ, когда задание для сети готовится заранее, а при соединении происходит лишь передача или прием подготовленных данных. Такой доступ менее требователен к качеству и скорости каналов связи, но дает возможность пользоваться только e-mail — электронной почтой.
Информация, хранящаяся во множестве компьютерных сетей, связанных между собой Интернетом, образует гигантскую электронную библиотеку. Огромное количество данных, распределенных между компьютерными сетями, затрудняет поиск и получение желаемой информации. Для облегчения поиска в Интернете развивались все более совершенные средства. Среди них нужно отметить такие, как Archie, Gopher и WAIS, коммерческие поисковые машины (search engines, indexes), которые представляют собой программы, использующие алгоритм поиска среди большого объема документов по ключевым словам.
Результаты поиска пользователь получает в виде списка заголовков и описаний документов, содержащих ключевые слова, отсортированные по степени релевантности. Такая программа как Telnet позволяет пользователям соединяться с одного компьютера с другим удаленным компьютером другой сети. FTP(протокол передачи файлов) используется для пересылки информации между компьютерами различных сетей.
Интернет — наиболее динамично развивающаяся среда информационного обмена в истории человечества. Современные возможности доступа к Интернету с мобильных телефонов и устройств(мобильный Интернет), с телеприемника, а также обмен информацией через сеть других устройств, расширяют круг пользователей.
1.2 Два основных способа поиска информации
Существуют два основных способа поиска информации в Интернете – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин.
Директории обеспечивают контекстный поиск, тогда как поисковые машины не обеспечивают контекста, однако позволяют находить конкретные слова или фразы. Их можно сравнить с оглавлением книги, а поисковые машины – с предметным указателем.
Крупные современные поисковые системы обычно объединяют в себе как поисковую машину, так и директории. Это хорошо видно на примере первой страницы Яндекса, где ниже поисковой строки размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения вглубь каждой из них.
Чтобы завершить разговор о каталогах, приведем пример «цепочки», по которой осуществляется поиск в каталоге Яндекса: Бизнес – Реклама – Реклама в Интернете.
Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом, мы не будем подробно останавливаться на технике работы с ними, а уделим дополнительное внимание работе с поисковыми машинами.
Все современные поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают только на уровне технической реализации этих принципов в работе.
Чтобы понять принцип работы поисковой машины, давайте попробуем разделить вопрос на две части: на чем основан поиск и как он реализуется.
На чем основан поиск
Все поисковые машины базируются лишь на трех основных операторах, лежащих в основе булевой алгебры (еще ее называют булевой логикой, или Boolean). Это логические операторы «И», «ИЛИ» и НЕ». Работают они следующим образом.
- Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результатах запроса будут только те документы, в которых содержатся оба слова. Так, например, по запросу собака И кошка будет найден документ, в котором есть предложение «Собака гналась за кошкой», но не будет документа, состоящего из текста «кошка отдыхала» или «корм для собак».
- Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то вы получите документы, в которых содержится хотя бы одно из этих слов. Если нет специальных ограничительных оговорок, то документы, где оба эти слова присутствуют, также будут найдены.
Например, по запросу собака ИЛИ кошка будут найдены документы, исключенные в прошлом запросе и содержащие тексты «кошка отдыхала» или «корм для собак», а также документ, в котором есть предложение «Собака гналась за кошкой». - Логическое «НЕ». Если два предыдущих оператора описывали те слова, которые вы хотите включить в запрос, то оператор «НЕ», наоборот, слова из запроса исключает. Те, кто впервые сталкивается с операторами запросов, нередко высказывают удивление и говорят: «Так не проще ли не включать ненужное слово в запрос? Зачем вводить дополнительный оператор?» Увы, не проще.
На самом деле, чтобы понять значение логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам надо, из имеющегося огромного, но все же конечного массива. При этом мы должны отсечь информационный мусор. Вот и отсекаем его с помощью оператора «НЕ». К сожалению, не мы решаем, будет мусор в выдаче или нет. Так, например, по запросу информации о коньке крыши неизбежно будет появляться информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут не обойтись никак.
Давайте рассмотрим примеры работы логического оператора «НЕ».
По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы, содержащие текст «кошка отдыхала» или «собака гналась за кошкой» и даже «корма для собак и кошек», из выдачи будут исключены.
Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все операторы, показанные выше. В этом случае лучше пользоваться еще одним элементом поискового запроса – круглыми скобками, которые позволяют отделять однотипные слова запроса от остальных. Кроме того, они дают возможность самому составителю визуально лучше различать разные фрагменты запроса. Покажем на конкретных примерах, как и для чего скобки используются.
Например, запрос пушистые И (собаки ИЛИ кошки) позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что глубоких знаний этой дисциплины вам не потребуется).
А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки) выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не содержится документов, в которых кошки и собаки будут упоминаться вместе.
Еще раз уточним – все поисковые машины сегодня работают на основе этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут быть различны.
Как реализуется поиск
Каждая полноценная поисковая машина располагает собственным штатом роботов, так называемых, пауков – их еще называют краулерами, спайдерами (spiders, crawlers). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая в их содержание. После этого они сбрасывают их на серверы своих хозяев и идут к следующим страницам. Паук определяет, куда ему пойти, по гиперссылке. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет.
Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней, заполнив специальную форму на сайте поисковой машины.
На сервере поисковой машины текст разбивается на отдельные слова. Каждому из них присваиваются координаты, вычисляется его расположение относительно других слов на странице, и оно заносится в таблицу сервера вместе со ссылкой на тот адрес Интернета, где текст размещался в момент посещения пауком.
Сам по себе сервер поисковой машины представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Они разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.
Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.
При этом важно понять, как именно паук решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, он возвращается на нее, ну, например, через две недели. Если изменений там не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. Если и тогда он не увидит изменений, то следующее посещение произойдет еще позже.
Вот почему нередко бывает ситуация, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по ссылке, полученной в ответ на запрос, безрезультатна – ее может уже просто не быть на прежнем месте, но паук на нее давно не заходил, поэтому поисковая система об удалении страницы не знает. Весь комплекс процессов, описанных выше, называется индексацией.
Глава 2 Практическая задача
- Перед началом поиска в интернете той или иной информации вам необходимо описать в голове свой запрос по тегам которые могут оказаться популярнее остальных;
- Пробуем вводить все тэги одновременно в поисковую строк;
- Если все подходит поздравляю вы молодцы, однако есть запросы которые априори не популярные и это довольно узкая информация, которая хранится в недрах интернета, тут вам помогут ранее очень популярные сайты под названием форумы, на них вы можете обнаружить скопления людей которые помогали в поиске контента или просто каких то вещей с узким направлением;
- В том случае если у вас не получилось найти ту информацию что вы искали вы можете прибегнуть к поиску по тегам в Яндексе, в Яндексе есть много полезных сервисов, которые помогают как продвинутым пользователям так и чайникам вроде тех кто сейчас читает эту статью;
- Для поиска каких то мировых запросов лучше использовать Google.com, а если у вас запрос например гдз по алгебре и вы находитесь в России то лучше будет если вы выберите Яндекс, так как он актуален в России. Для местных запросов лучше использовать местные поисковики, местные для вас.
Информация от Костерина В.В.
Данная статья находится в открытом доступе и там очень подробно рассказывается про поиск в интернете с помощью Яндекс сервисов.