Учебная работа. Контрольная работа: Поиск инфориации в сети интернет
Вологодский муниципальный технический институт
Кафедра ИТ и С
Контрольная работа
по информатике
«Поиск инфы в сети Веб»
Выполнил студент: И. Д. Блажин
Группа: ЗСЭ-31
Шифр: 0707300202
Вологда
2009
СОДЕРЖАНИЕ
Введение…………………………………………………………..……………2
1. Информационные ресурсы сети веб……………………………….3
2. Типология способов поиска инфы…………………………………….5
3. Разработка поиска с внедрением поисковых систем………………8
Заключение…………………………………………………………………….12
Перечень литературы……………………………………………………………13
Введение
Рано либо поздно, любой юзер Глобальной сети сталкивается с неувязкой поиска инфы. Будь то реферат, курсовая работа или документация к новейшей стиральной машине, поиск данной нам инфы может занять у вас от 5 минут до нескольких часов – все зависит от умения находить и отыскивать нужные данные в Вебе. В этом случае нам на помощь приходят различные поисковые машинки, сборники и базы познаний. Овладение действенными способами и средствами поиска, обработки и использования инфы дает огромные способности.
1. Информационные ресурсы сети Веб
Благодаря повсеместному развитию и применению компьютерных технологий в истинное время в той либо другой электрической форме находится информация всех областей людской деятельности: наука, Создание, коммерция, литература, утехи и т.д. сеть Веб имеет сопоставимость с разными электрическими сетями и базами данных и дозволяет получить удачный доступ фактически к хоть какому виду инфы. Для миллионов людей различных профессий, а в особенности для учащихся, веб стал нужным инвентарем в работе и всепригодным средством утехи в часы досуга. В связи с сиим возникает Потребность в программных средствах, отлично решающих препядствия поиска нужной юзеру сети веб инфы.
Информационные ресурсы, доступные через веб, громадны. Это 10-ки миллионов документов, представленных разными методами, число которых повсевременно возрастает. Зависимо от метода представления, вида и нрава инфы разнятся и способы доступа к ней, потому, до этого чем разглядывать способы поиска, разглядим систематизацию информационных ресурсов.
По принципу организации и использования средства поиска можно поделить на сборники (справочники, директории) и поисковые машинки.
Сборники
Сборники являются справочниками, содержащими списки адресов веб, сгруппированные по определенным признакам. Как правило, они соединяются воединыжды по теме (наука, Искусство, анонсы и т.д.), где любая тема разветвляется на несколько подуровней.
Изюминка этих средств поиска инфы заключается в том, что создание структуры, базы данных и их неизменное обновление осуществляется «вручную», коллективом редакторов и программистов, и сам процесс поиска просит конкретного роли юзера, без помощи других переходящего от ссылки к ссылке.
Поисковые машинки
действие поисковых систем заключается в неизменном поочередном исследовании всех узлов веб, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с неизменным обновлением инфы машинка поиска часто ворачивается через определенный срок (порядка месяца) к уже изученным узлам, чтоб найти и зарегистрировать конфигурации. Вся прочитанная информация индексируется, другими словами создается спец база данных, в какой закодированы все исследованные системой странички веб.
При поступлении запроса от юзера машинка поиска разглядывает всю индексированную информацию и выдает перечень документов, соответственных задачке поиска. Отысканные документы ранжируются зависимо от местоположения главных слов (в заголовке, сначала текста, в первых параграфах) и частоты их возникновения в тексте.
Невзирая на похожий принцип работы, машинки поиска различаются по языкам запроса, зонам поиска, глубине поиска снутри документа, способам ранжирования и ценностей, потому применение различных поисковых систем дает разные результаты.
2. Типология способов поиска
Наиболее либо наименее суровый подход к хоть какой задачке начинается с анализа вероятных способов ее решения. Поиск инфы в Вебе быть может произведен по нескольким способам, существенно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой инфы. В ряде всевозможных случаев приходится употреблять очень трудозатратные способы — итог того стоит.
Можно выделить последующие главные способы поиска инфы в Вебе, которые, зависимо от целей и задач ищущего, употребляются по отдельности либо в композиции друг с другом:
Конкретный поиск с внедрением гипертекстовых ссылок
Так как все веб-сайты в пространстве WWW практически оказываются связанными меж собой, поиск инфы быть может произведен методом поочередного просмотра связанных страничек при помощи браузера.
Хотя этот вполне ручной способ поиска смотрится полным анахронизмом в Сети, содержащей наиболее 60 млн. узлов, «ручной» просмотр Web-страниц нередко оказывается единственно вероятным на заключительных шагах информационного поиска, когда механическое «рытье» уступает пространство наиболее глубочайшему анализу. Внедрение каталогов, классифицированных и направленных на определенную тематику списков и различных маленьких справочников также относится к этому виду поиска.
Внедрение поисковых систем
сейчас этот способ является одним из главных и практически единственным при проведении подготовительного поиска. Результатом крайнего может являться перечень ресурсов Cети, подлежащих детальному рассмотрению.
Как правило, применение поисковых систем основано на использовании главных слов, которые передаются поисковикам в качестве аргументов поиска: что находить. Если созодать все верно, то формирование перечня главных слов просит подготовительной работы по составлению тезауруса.
Поиск с применением особых средств
Этот вполне автоматический способ может оказаться очень действенным для проведения первичного поиска.
одна из технологий этого способа базирована на применении специализированных программ — спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на их разыскиваемую информацию. Практически это автоматический вариант просмотра при помощи гипертекстовых ссылок, описанный чуть повыше (поисковые машинки для построения собственных индексных таблиц употребляют похожие способы). Нет нужды гласить, что результаты автоматического поиска непременно требуют следующей обработки.
Применение данного способа целенаправлено, если внедрение поисковых систем не может отдать нужных результатов (к примеру, в силу нестандартности запроса, который не быть может правильно задан существующими средствами поисковых систем). В ряде всевозможных случаев этот способ быть может весьма эффективен.
Выбор меж внедрением спайдера либо поисковиков являет собой вариант традиционного выбора меж применением всепригодных либо специализированных средств.
анализ новейших ресурсов
Поиск по новообразованным ресурсам может оказаться нужным при проведении повторных циклов поиска, поиска более свежайшей инфы либо для анализа тенденций развития объекта исследования в динамике.
иной вероятной предпосылкой может явиться то, что большая часть поисковых систем обновляет свои индексы со значимой задержкой, вызванной циклопическими размерами обрабатываемых данных, и эта задержка обычно тем больше, чем наименее популярна интересующая тема. Это суждение может оказаться очень значимым при проведении поиска в узкоспециальной предметной области.
3. Разработка поиска с внедрением поисковых систем
Определение географических регионов поиска
Так как проведение информационного поиска преследует практические цели — практическая Ценность информационного ресурса может зависеть от географического расположения соответственного источника.
Составление тезауруса
Для действенного использования поисковиков нужен перечень главных слов, организованный с учетом семантических отношений меж ними, т.е. тезаурус. При составлении тезауруса нужно предугадать обработку синонимов, омонимов и морфологических вариантов главных слов.
Внедрение законов Зипфа
Число, показывающее сколько раз встречается слово в тексте, именуется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты именуется ранг частоты. Возможность обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф отыскал, что если помножить возможность обнаружения слова в тексте на ранг частоты, то получившаяся величина примерно постоянна для всех текстов на одном языке:
С = (частота вхождения слов X ранг частоты) / число слов
Это означает, что график зависимости ранга от частоты — равносторонняя гипербола.
Зипф также установил, что зависимость количества слов с данной частотой от частоты — также гипербола и неизменная для всех текстов в границах 1-го языка.
Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для разных текстов проявили, что более важные слова текста лежат в средней части диаграммы, потому что слова с наибольшей частотой обычно являются предлогами, частичками, местоимениями, в британском языке — артиклями (так именуемые «стоп-слова«), а изредка встречающиеся слова почти всегда не имеют решающего значения. Основываясь на данной нам закономерности, можно предложить последующую методику.
Составление перечня главных слов
Для составления рационального набора главных слов употребляют функцию, основанную на применении законов Зипфа, которая заключается в последующем: берут хоть какой текст-источник, близкий к разыскиваемой теме, т.е. «эталон», и анализируют его, выделяя важные слова. В качестве текста-источника может служить книжка, статья, Web-страница, хоть какой иной документ. Анализ текста делается таковым образом:
· Удаление из текста стоп-слов.
· Вычисление частоты вхождения всякого слова и составление перечня, в каком слова размещены в порядке убывания их частоты.
· Выбор спектра частот, лежащего посреди перечня, и отбор из этого спектра слов, более много соответственных смыслу текста.
Составление запроса к поисковой системе в форме перечисления отобранных таковым образом главных слов, связанных логическим оператором ИЛИ (OR). запрос в таком виде дозволяет найти тексты, в каких встречается хотя бы одно из перечисленных слов.
Число документов, приобретенных в итоге поиска по этому запросу, быть может громадно. Но, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения слов запроса в документ), используемому в большинстве поисковых систем, на первых страничках перечня фактически все документы окажутся релевантными, при этом документ-источник может находиться далековато от начала.
Наиболее адекватной представляется структура тезауруса в виде так именуемых семантических срезов, где для всякого основного термина раздельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), — некие поисковые машинки (AltaVista) разрешают это употреблять. Таковым образом, заместо единой иерархической структуры определений мы получаем пакет таблиц, которые могут расширяться и модифицироваться раздельно.
Отбор поисковых систем
Устанавливается последовательность использования поисковых систем в согласовании с убыванием ожидаемой эффективности поиска с применением каждой машинки.
Всего понятно около 180 поисковиков, различающихся по регионам охвата, принципам проведения поиска (а как следует, по входному языку и инфы, возможности находить «неординарную» информацию и тому схожее. Главными аспектами выбора поисковиков являются размер индексной базы сервера и степень развитости самой поисковой машинки, другими словами уровень трудности воспринимаемых ею запросов.
Составление и выполнение запросов к поисковым машинкам
Это более непростой и трудозатратный шаг, связанный с обработкой огромного количества инфы (в главном шумовой). На базе тезауруса формируются запросы к избранным поисковикам, опосля что может быть уточнение запроса с целью отсечения разумеется нерелевантной инфы. Потом делается отбор ресурсов, начиная с более увлекательных, исходя из убеждений целей поиска. Данные с ресурсов, общепризнанных релевантными, собираются для следующего анализа.
Формирование запросов
Как формат, так и семантика запросов варьируются зависимо от используемой поисковой машинки и определенной предметной области. Запросы составляются так, чтоб область поиска была очень конкретизирована и сужена.
Предпочтение отдается использованию нескольких узеньких запросов по сопоставлению с одним расширенным. В общем случае для всякого основного понятия из тезауруса готовится отдельный пакет запросов. Так же делается пробная реализация запросов — как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой инфы.
Итог запроса (перечень ссылок) обрабатывается в два шага. На первом шаге делается отсечение разумеется нерелевантных источников, попавших в подборку в силу несовершенства поисковой машинки либо недостаточной «интеллектуальности» запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации следующих запросов. Предстоящая обработка делается методом поочередного воззвания на любой из отысканных ресурсов и анализа находящейся там инфы.
анализ ресурсов и сбор инфы
Первичный анализ ресурсов основывается на аннотациях — в случае их наличия, и в нужных вариантах — на ознакомлении с информационным заполнением ресурса. информация с отобранных источников извлекается с внедрением соответственных определенному источнику способов, что может востребовать значимых коммуникационных, вычислительных и дисковых ресурсов.
В русской части Веба в истинное время доступен ряд ресурсов, предоставляющих вторичную информацию, обычно, в табулированной форме. Предоставление инфы для публикации в схожих источниках является наиболее дешевеньким вариантом для компаний, не имеющих собственного консульства в Вебе.
Заключение
Можно придти к выводу, что в сети веб хранится весьма большенный размер инфы по различной теме в виде статей в электрических газетах, отчетов, справочников, графических изображений, аудио- и видео-файлов и многого другого. Путешествуя по веб, можно отыскать всякую информацию, по другому говоря, если какие-либо данные вводились когда-либо в комп, то скорее всего их можно отыскать кое-где на неоглядных просторах веб. Доступ к неким данным вероятен лишь для ограниченного числа юзеров опосля регистрации и получения личного пароля.
С возникновением World Wide Web (WWW) — гипертекстовой информационной системы, опутавшей весь мир, связавшей сотки и сотки компов, тыщи и тыщи страничек гипертекстовых документов — без высокоэффективных средств поиска просто не обойтись. средства либо «машинки» поиска — это особые программно-технические комплексы, отслеживающие конфигурации инфы в веб.
Существует огромное количество средств поиска в веб, как автономных, использующих лишь собственные ресурсы, так и глобальных, так именуемых мета-средств.
Есть различные способы поиска инфы в сети веб: поиск с внедрением гипертекстовых ссылок, внедрение поисковых систем, поиск с применением особых средств, анализ новейших ресурсов.
Перечень литературы
1. Семенов М.И., Трубилин И.Т., Лойко В.И., Барановская Т.П. Автоматические информационные технологии в экономике. – М.: Деньги и статистика, 2002
2. Грабауров В.А. Информационные технологии для менеджеров. – М.: Деньги и статистика, 2002
3. Информационные технологии управления. / Под редакцией Ю.М. Черкасова. – М.: Инфра-М, 2001
4. Ильина О.П. Информационные технологии бухгалтерского учета. – СПб.: Питер, 2001
5. Информатика для юристов и экономистов. / Под редакцией С.В. Симоновича. – СПб.: Питер, 2003
6. Карпова Т. Базы данных. – СПб.: Питер, 2001
7. Романов В.П. Умственные информационные системы в экономике. – М.: Экзамен, 2003
]]>