Sistem de căutare

Motor de căutare ( Eng.  Motor de căutare ) - Algoritmi și un set de programe de calculator care le implementează (în sensul larg al termenului, inclusiv sisteme analogice pentru procesarea automată a informațiilor din prima generație ), oferind utilizatorului posibilitatea de a accesa rapid Informațiile de care are nevoie prin căutarea într -o vastă colecție de date disponibile [1] . на FTP-серверах, товары в интернет-магазинах, информацию в группах новостей Usenet.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос[2]. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами[3]. При этом поисковая система генерирует страницу результатов поиска. Такая поисковая выдача может содержать различные типы результатов, например: веб-страницы, изображения, аудиофайлы. Некоторые поисковые системы также извлекают информацию из подходящих баз данных и каталогов ресурсов в Интернете. Для поиска нужных сведений удобнее всего воспользоваться современными поисковыми машинами, которые позволяют быстро обнаружить необходимые сведения и обеспечивают точность и полноту поиска. При работе с этими машинами достаточно задать ключевые слова, наиболее точно отражающие искомую информацию, или составить более сложный запрос из ключевых слов для уточнения области поиска. После ввода запроса на поиск вы получите список ссылок на документы в Интернете, обычно называемые web-страницами или просто страницами, в которых содержатся указанные ключевые слова. Обычно ссылки дополняются фрагментами текста из обнаруженного документа, которые часто помогают сразу определить тематику найденной страницы. Щёлкнув мышью на ссылке, можно перейти к выбранному документу.

Поисковая система тем лучше, чем больше документов, релевантных запросу пользователя, она будет возвращать. Результаты поиска могут становиться менее релевантными из-за особенностей алгоритмов или вследствие человеческого фактора. По состоянию на 2020 год самой популярной поисковой системой в мире и, в частности, России является Google.

По методам поиска и обслуживания разделяют четыре типа поисковых систем: системы, использующие поисковых роботов, системы, управляемые человеком, гибридные системы и мета-системы. В архитектуру поисковой системы обычно входят:

Istorie

Cronologie
An Sistem Eveniment
1993 W3catalog lansa
Aliweb lansa
JumpStation lansa
1994 WebCrawler lansa
Infoseek lansa
Lycos lansa
1995 Altavista lansa
Daum Baza
Open Text Web Index lansa
Magellan lansa
Excita lansa
Sapo lansa
Yahoo! lansa
1996 Dogpile lansa
Inktomi Baza
Hoinar Baza
HotBot Baza
Întrebați -l pe Jeeves Baza
1997 Northern Light lansa
Yandex lansa
1998 Google lansa
1999 Alltheweb lansa
GenieKnows Baza
Naver lansa
Teoma Baza
Vivisimo Baza
2000 Baidu Baza
Exaled Baza
2003 info.com lansa
2004 Yahoo! Căutare Lansare finală
A9.com lansa
Sogou lansa
2005 Căutare MSN Lansare finală
Ask.com lansa
Нигма lansa
GoodSearch lansa
SearchMe Baza
2006 wikiseek Baza
Quaero Baza
Cautare in timp real lansa
ChaCha Запуск ( бета )
Guruji.com Запуск ( бета )
2007 wikiseek lansa
Sproose lansa
Căutare Wikia lansa
Blackle.com lansa
2008 DuckDuckGo lansa
Tooby lansa
Picolator lansa
Viewzi lansa
Cuil lansa
Boogami lansa
LeapFish Запуск ( бета )
Forestle lansa
VADLO lansa
Powerset lansa
2009 Bing lansa
KAZ.KZ lansa
Yebol Запуск ( бета )
Mugurdy închidere
Scout lansa
2010 Cuil închidere
Blekko Запуск ( бета )
Viewzi închidere
2012 WAZZUB lansa
2014 Satelit Запуск ( бета )

На раннем этапе развития сети Интернет Тим ​​Бернерс-Ли поддерживал список веб-сервития сети Интернет Тим ​​Бернерс-Ли поддерживал список веб-сервития сети На раннерс- Ли поддерживал список веб - сервития сети Сайтов становилось всё больше, и поддерживать вручную такой список становилось всё сее всё ную. На сайте NCSA был специальный раздел «Что нового!» ( англ.  Ce este nou! ) [5] , где публиковали ссылки на новые сайты.

Первой компьютерной программой для поиска в Интернете была программа Арчи ( анграммой для поиска в Интернете была программа  Арчи [en] ( анграммой для поиска  ). Она была создана в 1990 году Аланом Эмтэджем (Alan Emtage), Биллом Хиланом (Bill Heelan) și Дж. Питером Дойчем (J. Peter Deutsch), студентами, изучающими информатику в университете Макгилла в Монреа . Программа скачивала списки всех файлов со всех доступных анонимных FTP -серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержимое этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.

Развитие и распространение сетевого протокола Gopher , придуманного в 1991 году Марком Маккэхилом (Mark McCahill) в университете Миннесоты , привело к созданию двух новых поисковых программ, Veronica и Jughead . Как и Арчи, они искали имена файлов и заголовки, сохранённые в индексных системах Gopher. Veronica ( англ.  Very Easy Rodent-Oriented Net-wide Index to Computerized Archives ) Программа Jughead ( англ.  Jonzy's Universal Gopher Hierarchy Excavation And Display ) извлекала информацию о меню от определённых Gopher-свервер. Хотя название поисковика Арчи не имело отношения к циклу комиксов «Арчи» , тем не не не мехель мене не проча мень мене прожения.

К лету 1993 года ещё не было ни одной системы для поиска в вебе, хотя вручную поддерживались многочисленные специализированные каталоги. Оскар Нирштрасс (Oscar Nierstrasz) в Женевском университете написал ряд сценариев на Perl , которые периодически копировали эти страницы и переписывали их в стандартный формат. Это стало основой для W3Catalog , первой примитивной поисковой системы сети, запущенной 2 сентитивной поисковой системы сети, запущенной 2 сентитивной [ 1993 ]

Acest robot a creat indexul de căutareWandex ”.

JumpStation , [7] созданный в декабре 1993 года Джонатаном Флетчером, искал веб-страницы и строил их индексы с помощью поискового робота, и использовал веб-форму в качестве интерфейса для формулирования поисковых запросов. Это был первый инструмент поиска в Интернете, который сочетал три важнейших функции поисковой системы (проверка, индексация и собственно поиск). Из-за ограниченности ресурсов компьютеров того времени индексация и, следовательно, поиск были ограничены только названиями и заголовками веб-страниц, найденных поисковым роботом.

Первой полнотекстовой индексирующей ресурсы при помощи робота («bazat pe craweler » ) поисковой система 9, сустемоле 9 сустемай пробота В отличие от своих предшественниц, она позволяла пользователям искать по любым словам, расположенным на любой веб-странице — с тех пор это стало стандартом для большинства поисковых систем. Кроме того, это был первый поисковик, получивший широкое распространение. В 1994 году была запущена система « Lycos », разработанная в Университете Карнеги — Мелтлон и мельна и призмерш и призмерша

".

В 1996 году компания Netscape хотела заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию на веб- браузере Netscape . Это вызвало настолько большой интерес, что Netscape заключила контракт сразу с пятьшой интерес, что Netscape заключила контракт сразу с пятьшой интерес. За 5 млн долларов США в год они предлагались по очереди на поисковой странице Netscape [8] [9] .

Поисковые системы участвовали в « Пузыре доткомов » конца 1990-х [10] . Несколько компаний эффектно вышли на рынок, получив рекордную прибыль во время их время их перлино перлово Некоторые отказались от рынка общедоступных поисковых движков и стали работались работались работать тормедоступных поисковых движков и стали работались работать торим торсм торим толь только

Motoarele de căutare au început să vândă companiile individuale primele locuri în rezultatele căutării .

Поисковая система Google занимает видное положение с начала 2000-х [12] . Компания добилась высокого положения благодаря хорошим результатам поиска с помотамь горank . Алгоритм был представлен общественности в статье «Anatomia motorului de căutare», написанной Сергеем Брином и Google Лелом и Ла13ми и Ла13 . Этот итеративный алгоритм ранжирует веб-страницы, основываясь на оценке количества гиперссылок на веб-страницу в предположении, что на «хорошие» и «важные» страницы ссылаются больше, чем на другие. Интерфейс Google выдержан в спартанском стиле, где нет ничего лишнего, в отличие от многих своих конкурентов, которые встраивали поисковую систему в веб-портал . Поисковая система Google стала настолько популярной, что появились подражающие ей системы, настолько популярной, что появились подражающие ей системы, настолько .

Yahoo!

Фирма Microsoft впервые запустила поисковую систему Microsoft Network Search (MSN Search) осенью 1998 года, используя резтульпотастуль потастуль. Совсем скоро в начале 1999 года сайт начал отображать выдачу Looksmart , смешанную с ретображать выдачу. Недолго (în 1999 году) Căutare MSN использовал результаты поиска от AltaVista. В 2004 году фирма Microsoft начала переход к собственной поисковой технологии с использование переход к собственной поисковой технологии с использованием пользованием переход собственной После проведения ребрендинга компанией Microsoft 1 июня 2009 года была запущена поисковая система Bing . 29 июля 2009 Yahoo! și Microsoft подписали соглашение, согласно которому Yahoo! Căutați работал на основе технологии Microsoft Bing. На момент 2015 года союз Bing și Yahoo! дал первые настоящие плоды. Теперь Bing занимает 20,1 % рынка, а Yahoo! 12,7 %, что в общем занимает 32,60 % от общего рынка поисковых систем в США по данимает заннх визнным .

Caută informații în rusă

В 1996 году был реализован поиск с учётом русской морфологии на поисковой машине Altavista и запущены оригинальные российские поисковые машины Рамблер и Апорт . 23 сентября 1997 года была открыта поисковая машина Яндекс . 22 мая 2014 года компанией Ростелеком была открыта национальная поисковая машина Спутник , которая на момент 2015 года находится в стадии бета-тестировании. 22 апреля 2015 года был открыт новый сервис Спутник. Дети специально для детей с повышенной безопасностью.

Большую популярность получили методы кластерного анализа и поиска по метаданным . Из международных машин такого плана наибольшую известность получила «Clusty» комsimo [en компани . В 2005 году в России при поддержке МГУ запущен поисковик « Нигма », поддерживающерживающий авающий авто . В 2006 году открылась российская метамашина Quintura , предлагающая визуальную кластерийская метамашина Quintura , предлагающая визуальную кластерийская метамашина виѱизацо виѱ . «Нигма» тоже экспериментировала [14] с визуальной кластеризацией.

Cum funcționează un motor de căutare

Основные составляющие поисковой системы: поисковый робот , индексатор , поисковик [15] .

Как правило, системы работают поэтапно. Сначала поисковый робот получает контент, затем индексатор генерирует доступный для поиска индекс, и наконец, поисковик обеспечивает функциональность для поиска индексируемых данных. Чтобы обновить поисковую систему, этот цикл индексации выполняется повторно [15] .

Поисковые системы работают, храня информацию о многих веб-страницах, которые отни цию HTML . Поисковый робот или «краулер» ( англ.  Crawler ) — программа, которая автоматически проходит проходит по содит по серамма Краулер, основываясь на ссылках или исходя из заранее заданного списка адресов, осуществляет поиск новых документов, ещё не известных поисковой системе. Владелец сайта может исключить определённые страницы при помощи robots.txt , используя который можно запретить индексацию файлов, страниц или каталогов сайта.

Поисковая система анализирует содержание каждой страницы для дальнейшего индексирования. Слова могут быть извлечены из заголовков, текста страницы или специальных полены — моват . Индексатор — это модуль, который анализирует страницу, предварительно разбив её на части, применяя собственные лексические и морфологические алгоритмы. Все элементы веб-страницы вычленяются и анализируются отдельно. Данные о веб-страницах хранятся в индексной базе данных для использования в последируюсххицах в индексной базе данных для использования в последуюххицах хранятся. Индекс позволяет быстро находить информацию по запросу пользователя [16] .

Ряд поисковых систем, подобных Google, хранят исходную страницу целиком или её часть, так называемый кэш , а также различную информацию о веб-странице. Другие системы, подобные системе AltaVista, хранят каждое слово каждой найденной страницы. Использование кэша помогает ускорить извлечение информации с уже посещённых стра16 ] . Кэшированные страницы всегда содержат тот текст, который пользователь задал в поисесковопромсе. Это может быть полезно в том случае, когда веб-страница обновилась, то есть уже не содержит текст запроса пользователя, а страница в кэше ещё старая [16] . Эта ситуация связана с потерей ссылок ( англ.  linkrot ) и дружественным по отношению к полдию к полдию к польд. Это предполагает выдачу из кэша коротких фрагментов текста, содержащих текст запроса. Действует принцип наименьшего удивления , пользователь обычно ожидает увидеть истует увидеть истует и . Кроме того, что использование кэшированных страниц ускоряет поиск, страницы в кэше могут содержать такую ​​информацию, которая уже нигде более не доступна.

Поисковик работает с выходными файлами, полученными от индексатора. Поисковик принимает пользовательские запросы, обрабатывает их при помощи индекса и индекса и индекса и воЉзтура воз15 .

Когда пользователь вводит запрос в поисковую систему (обычно при помощи ключевых слов ), система проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц (отсортированный по какому-либо критерию), обычно с краткой аннотацией, содержащей заголовок документа и иногда части текста [16 ] . Поисковый индекс строится по специальной методике на основе информации, извлечённой из Поисковый информации, извлечённой и- з . С 2007 года поисковик Google позволяет искать с учётом времени создания искомых документов (вызов меню «Инструменты поиска» и указание временного диапазона).

Большинство поисковых систем поддерживает использование в запросах булевых операторов И, ИЛИ, НЕ, что позволяет уточнить или расширить список искомых ключевых слов. При этом система будет искать слова или фразы точно так, как было ведено. В некоторых поисковых системах есть возможность приближённого поиска , в этом случае пользователи расширяют область поиска, указывая расстояние до ключевых слов [16] . Есть также концептуальный поиск , при котором используется статистический анализ употребления искомых слов и фраз в текстах веб-страниц. Эти системы позволяют составлять запросы на естественном языке.

Полезность поисковой системы зависит от релевантности найденных ею страниц. Хоть миллионы веб-страниц и могут включать некое слово или фразу, но одни из них могут быть более релевантны, популярны или авторитетны, чем другие. Большинство поисковых систем использует методы ранжирования , чтобы вывести в насльзует методы ранжирования , чтобы вывести в насльзует методы. Поисковые системы решают, какие страницы более релевантны, и в каком порядке должны страницы более релевантны, и в каком порядке должны Страницы более релевантны Методы поиска, как и сам Интернет со временем меняются. Так появились два основных типа поисковых систем: системы предопределённых и иерархически упорядоченных ключевых слов и системы, в которых генерируется инвертированный индекс на основе анализа текста.

Большинство поисковых систем являются коммерческими предприятиями, которые получают прибыль за счёт рекламы , в некоторых поисковиках можно купить за отдельную плату первые места в выдаче для заданных ключевых слов. Те поисковые системы, которые не берут денег за порядок выдачи результатов, зарабатывают на контекстной рекламе , при этом рекламные сообщения соответствуют запросу пользователя. Такая реклама выводится на странице со списком результатов поиска, и поисковики зарабатывают при каждом клике пользователя на рекламные сообщения.

Tipuri de motoare de căutare

Существует четыре типа поисковых систем: с поисковыми роботами, управляемые человляемые человляемые человляемые человляемые человляемые человляемые человляемые человляемые человетам, гисми 7

Google  — самая популярная поисковая система в мире с долей на рынке 92,16 %. Bing занимает вторую позицию, его доля 2,88 % [18] .

Самые популярные поисковые системы в мире [19] :

Sistem de căutare Доля рынка в июле 2014 Доля рынка в октябре 2014 Cota de piata in septembrie 2017 Доля рынка в сентябре 2020 [20] Доля рынка в декабре 2021 [21]
Google 68,69 % 58,01 % 69,24 % 92,16 % 91,94 %
Bing 17,17 % 29,06 % 12,26% 2,88% 2,86%
Baidu 6,22 % 8,01 % 6,48 % 1,14% 1,37%
Yahoo! 6,74% 4,01% 5,19% 1,52% 1,5%
AOL 0,13% 0,21% 1,11 %
Excita 0,22% 0,00% 0,00%
Cere 0,13% 0,10% 0,24%

Asia

В восточноазиатских странах и в России Google  — не самая популярная поисковая система. В Китае, например, более популярна поисковая система Soso .

В Южной Корее поисковым порталом собственной разработки Naver пользуется около 70 % жите]лей [22] Yahoo! Japonia și Yahoo! Taiwan — самые популярные системы для поиска в Японии и Тайване соответственно [23] .

Поисковой системой Google пользуются 50,3 % пользователей в России, Яндексом  — 47,9 % [24] .

Согласно данным LiveInternet в декабре 2017 года об охвате русскоязычных поисковых запросов [25] :

Некоторые из поисковых систем используют внешние алгоритмы поиска.

Число пользователей Интернета и поисковых систем и требований пользователей к эттем систем систем Для увеличений скорости поиска нужной информации крупные поисковые системы содержат боолььшорево. Сервера обычно группируют в серверные центры (дата-центры). У популярных поисковых систем серверные центры разбросаны по всему миру.

В октябре 2012 года Google запустила проект «Где живёт Интернет», где пользователям предоставляется возможность познакомиться с центрами обработки данных этой компании [26] .

О работе дата-центров поисковой системе Google известно следующее [27] :

Размер всемирной паутины, проиндексированной Google на декабрь 2014 года, составляет примерно 4,36трад 4,36трад .

Глобальное распространение Интернета и увеличение популярности электронных устройств в арабском и мусульманском мире, в частности, в странах Ближнего Востока и Индийского субконтинента , способствовало развитию локальных поисковых систем, учитывающих исламские традиции. Такие поисковые системы содержат специальные фильтры, которые помогают пользователям не попадать на запрещённые сайты, например, сайты с порнографией, и позволяют им пользоваться только теми сайтами, содержимое которых не противоречит исламской вере.

Незадолго до мусульманского месяца Рамадан , в июле 2013 года, миру был представлен Halalgoogling  — система, выдающая пользователям только халяльные «правильные» ссылки [29] , фильтруя результаты поиска, полученные от других поисковых систем, таких как Google и Bing . Двумя годами ранее, в сентябре 2011 года, был запущен поисковый движок I'mHalal, предназначенный для обслуживания пользователей Ближнего Востока. Однако этот поисковый сервис пришлось вскоре закрыть, по сообщению владельца, истна закрыть, по сообщению владельца, истони зато закрыть .

Отсутствие инвестиций и медленный темп распространения технологий в мусульманском мире препятствовали прогрессу и мешали успеху серьёзного исламского поисковика. Очевиден провал огромных инвестиций в веб-проекты мусульманского образа жизни, одзниций веб-проекты мусульманского образа жизни, одзниций веб - . Он получил миллионы долларов от инвесторов, таких как Rite Internet Ventures, и теперь — в соответствии с последним сообщением от I'mHalal перед его закрытием — выступает с сомнительной идеей о том, что «следующий Facebook или Google могут появиться только в странах Ближнего Востока , если вы поддержите нашу блестящую молодёжь» .

Тем не менее исламские эксперты в области Интернета в течение многих лет занимаются определением того, что соответствует или не соответствует шариату , и классифицируют веб-сайты как « халяль » или « харам ». Все бывшие и настоящие исламские поисковые системы представляют собой просто специальным образом проиндексированный набор данных либо это главные поисковые системы, такие как Google, Yahoo и Bing, с определённой системой фильтрации, использующейся для того, чтобы пользователи не могли получить доступ к харам-сайтам, таким как сайты о наготе, ЛГБТ , азартных играх и каким-либо другим, тематика которых стчия талестика которых стчия талестик .

Среди других религиозно-ориентированных поисковых систем распространёнными являются Jewogle — еврейская версия Google и SeekFind.org — христианский сайт, включающий в себя фильтры, оберегающие пользователей от контента, который может подорвать или ослабить их веру [31] .

Многие поисковые системы, такие как Google и Bing, используют алгоритмы выборочного угадывания того, какую информацию пользователь хотел бы увидеть, основываясь на его прошлых действиях в системе. В результате, веб-сайты показывают только ту информацию, которая согласуется с проьнльтате согласуется с проьнльтате Этот эффект получил название «пузырь фильтров» [32] .

Всё это ведёт к тому, что пользователи получают намного меньше противоречащей своей точке зрения информации и становятся интеллектуально изолированными в своём собственном «информационном пузыре». Таким образом, «эффект пузыря» может иметь негативные последствия для формирования грамирования грасения гражет иметь негативные .

Несмотря на то, что поисковые системы запрограммированы, чтобы оценивать веб-сайты на основе некоторой комбинации их популярности и релевантности, в реальности экспериментальные исследования указывают на то, что различные политические, экономические и социальные факторы оказывают влияние на поисковую выдачу [34] [35] .

Такая предвзятость может быть прямым результатом экономических и коммерческих процессов: компании, которые рекламируются в поисковой системе, могут стать более популярными в результатах обычного поиска в ней. Удаление результатов поиска, не соответствующих местным законам, является примером влимером влимером влиелспих местным законам Например, Google не будет отображать некоторые неонацистские веб-сайты во Франции и Геранции и Геранции и Геранции и Гетранции и Гетранции и Гетранции и Гетранции .

Предвзятость может также быть следствием социальных процессов, поскольку алгоритмы поисковых систем часто разрабатываются, чтобы исключить неформатные точки зрения в пользу более «популярных» результатов [37] . Алгоритмы индексации главных поисковых систем отдают приоритет американским сайтам [35] .

Поисковая бомба  — один из примеров попытки управления результатами поиска по политичеров попытки управления результатами поиска по политическа политичесеров попытки политически политичесе политича

Vezi și

Note

  1.  ed. Yu. S. Osipov . - M .  : Marea Enciclopedie Rusă, 2004-2017.
  2. 129.
  3. 29.
  4. World-Wide Web Servers.
  5. What's New.
  6. Oscar Nierstrasz.
  7. Archive of NCSA.
  8. Yahoo! And Netscape.
  9. Netscape, 1996.
  10. The dynamics of competition, 2001.
  11. Intro to Computer Science.
  12. 1 2 Google`s history.
  13. 3.
  14. Nigma.
  15. 290.
  16. 1 2 3 4 5 6 Knowledge Management, 2011.
  17. 29.
  18. NMS.
  19. Статистика.
  20. Search Engine Market Share Worldwide (англ.). StatCounter Global Stats. Дата обращения: 21 декабря 2020. Архивировано 10 декабря 2020 года.
  21. Search Engine Market Share Worldwide (англ.). StatCounter Global Stats. Дата обращения: 9 января 2022. Архивировано 10 декабря 2020 года.
  22. Naver.
  23. OII Web Team. Age of Internet Empires (англ.). Information Geographies. Дата обращения: 2 марта 2022. Архивировано 2 марта 2022 года.
  24. LiveInternet.
  25. Liveinternet. Дата обращения: 2 января 2018. Архивировано 19 февраля 2019 года.
  26. Where the Internet lives.
  27. Antula.
  28. World wide web size.
  29. Islam.
  30. I’mHalal. Дата обращения: 28 мая 2018. Архивировано 29 мая 2018 года.
  31. ChristianNews.
  32. Pariser, 2011.
  33. 13.
  34. Segev, 2010.
  35. 1 2 Search engine coverage bias, 2004.
  36. Replacement of Google.
  37. Shaping the Web, 2000.

Literatură

Link -uri