Задачей поисковых систем — является выдача наилучшего ответа на поисковый запрос сделанный пользователем. Для этого, поисковой системе прежде всего, нужно проиндексировать множество документов, созданных и опубликованных на множественных веб ресурсах . После чего, при запросе нужной информации выдать в поисковой выдаче релевантные, то есть соответствующие данному запросу страницы.
Каждый день к поисковым системам обращаются миллионы пользователей с различными запросами. Трудно дать объективную оценку тому,что сотрудники работающие и разрабатывающие алгоритмы для поисковиковых систем, всегда смогут создать алгоритм должным образом отвечающим за то,что по каждому поисковому запросу, будут выдаваться лучшие страницы определенных веб проектов. Как же на самом деле происходит поиск наиболее подходящих релевантных страниц.
Поисковая система — представляет из себя, процессор состоящий из множества алгоритмов.
Решение задачи заключается в так называемом машинном изучении для поисковой системы и превращает ее в своеобразный искусственный потенциал.
Представьте, что нам предстоит научить машину разбираться в сигаретах. Для этого мы берем сигареты и начинаем их курить. Теперь очередь за машиной . Конечно, робот не может попробовать сигареты на вкус, но он может оценить наличие смол,содержание никатина и СО. После такого обучения поисковый робот может самостоятельно отобрать лучшие сигареты. Однако в такой процесс может вмешаться ошибка, по которой машина может посчитать сигареты с наименьшим показателем вредных веществ,как лучшие сигареты ,но на самом деле,курящему человеку они будут не по вкусу.Исходя из этого следует сделать вывод, Чем больше параметров будет внесено в алгоритмы поисковика,тем выше будет точность в выдаче по поисковому запросу.
По точно такому же принципу обучается и работает Гугл,Яндекс и много других поисковых систем, находя самые качественные и популярные страницы по любому поисковому запросу. Обслуживание поисковых систем осуществляется специально обученными сотрудниками (асессорами) которые тестируют поисковые системы, на предмет выявления ошибок. Асессоры создают поисковой системе ряд определенных запросов, по которым оценивают, качество выдачи в поисковике. Поисковые роботы определяют закономерность между свойствами запросов и релевантностью страниц.
Получая сведения и анализируя данные, поисковые машины развиваются и учатся давать правильные ответы пользователям на интересующие их вопросы.
Получается,что поисковую систему нужно просто обучить, чтобы она смогла стать лучше и совершеннее. Но не все так прекрасно,как это может показаться! Но как и везде у машинного обучения существует один недостаток и называется он переобучением системы. Суть в том, что алгоритмы отлично работают на примерах,которые участвуют в обучении, но плохо работают в реальной ситуации. В результате чего поисковик сможет выдавать нерелевантные результаты в поисковой выдаче. Для того чтобы поисковая система выдавала не голые математические результаты ,ее нужно как то проверять.
В апреле 2009 года системой Яндекс был запущен новый алгоритм обучения машинного обеспечения под названием — Матрикснет. Способность этого алгоритма заключается в устойчивости к переобучению и гибкому учету, множества факторов используемых в ранжировании. Кроме всего, данный алгоритм Матрикснет способен применять особые действия ранжирования по узкопрофильным запросам.