Neste artigo você encontrará uma visão geral dos mecanismos de pesquisa russos - desenvolvimentos domésticos e mecanismos de pesquisa globais adaptados para RuNet. Vamos fazer uma pequena avaliação da lista de mecanismos de busca na Rússia.

História dos motores de busca no mundo e na Rússia

Tudo começou, claro, com sites e diretórios de sites que sistematizavam informações sobre eles. Mas havia cada vez mais sites e não estava claro como exibir rapidamente os resultados da pesquisa em vários sites e compará-los para obter resultados da mais alta qualidade em resposta à pergunta. Esse problema vem crescendo aos poucos desde o advento da Internet.

Mas o pré-requisito para o surgimento de sistemas globais de busca de informações na Internet já existe há muito tempo - à medida que o número de sites cresce geometricamente e os sites aparecem em idiomas regionais diferentes do inglês. Além disso, não só o número total de sites cresceu, mas também o número de páginas de cada um deles. Portanto, era necessário um sistema automatizado de indexação e classificação.

Pois bem, com o aumento do número de utilizadores da Internet em todo o mundo para mais de 3 mil milhões, a procura e a popularidade dos motores de busca aumentaram. Você tem que navegar de alguma forma neste mar de informações na World Wide Web.

Foi assim que surgiu o primeiro motor de busca Altavista, depois Yahoo, Google e outros.

Lista de motores de busca na Internet mundial

Atualmente, existem diversos motores de busca na Internet internacional, sendo o líder o americano Google.

Lista de motores de busca mundiais em ordem alfabética:

  1. Baidu;
  2. Google;
  3. PatoDuckGo;
  4. Gigablast;
  5. Pesquisa do Google;
  6. Soso. com;
  7. Página inicial (Ixquick);
  8. YaCy;
  9. Yahoo! Procurar;
  10. Pesquisa Yandex.

Tendo como pano de fundo o domínio abrangente do motor de busca Google, adaptado a muitos idiomas locais e integrado por defeito em todos os smartphones Android, outros intervenientes no mercado estão a tentar introduzir novas funcionalidades para os utilizadores ou aproveitar outras oportunidades para a sua promoção.

Por exemplo, DuckDuckGo se preocupa com a privacidade e segurança dos dados de seus usuários (não os monitora nem vende essas informações a terceiros), e o Bing da Microsoft é promovido como um mecanismo de busca integrado no navegador EDGE do Windows. 10 sistema operacional.

Desde o surgimento dos primeiros motores de busca, muitos deles já deixaram de existir. Outros foram consumidos. O Yahoo tornou-se geralmente uma empresa diversificada, cuja receita significativa não veio de pesquisas, mas de investimentos em serviços de Internet e startups.

Agora é provavelmente impossível entrar neste mercado sem investimentos significativos em marketing, ciência e tecnologia. Afinal, por trás da linha de entrada minimalista da consulta de pesquisa esconde-se um mecanismo intensivo em recursos e capital, milhares de funcionários ativos e centenas de milhares de horas de trabalho já investidas em motores de busca no passado recente.

E mesmo assim, os usuários são muito inertes e já formaram preferências de pesquisa que são difíceis de alterar. Um exemplo disso são as tentativas frustradas da Microsoft de ocupar uma parcela significativa das pesquisas em PCs. De muitas maneiras, esta situação se desenvolveu devido à impopularidade dos navegadores MS entre os usuários.

Assim, o utilizador comum só pode escolher o melhor serviço de pesquisa para si, e também aguardar uma consolidação e monopolização ainda maior dos motores de pesquisa existentes, ou o surgimento de novas startups nesta área.

Principais mecanismos de pesquisa em RuNet

O mercado russo tem sido dominado pela Yandex há mais de uma década, perdendo gradualmente a sua quota sob a forte pressão do duro Google. Na verdade, esses dois players são os principais mecanismos de busca dominantes no RuNet. Não será possível construir um rating, pois neste momento a divisão de mercado é quase 50/50.

Observação! A promoção no Yandex é diferente da promoção no Google. Como promover um site no Yandex - .

O Google chegou à Rússia em 2004 e desde então, percentual por percentual, vem tirando a liderança do buscador russo Yandex, mas ainda não a tirou. Esta situação não é única no mercado global; há pelo menos mais dois países onde o motor de busca do Google encontrou séria resistência: a República Checa e a China (RPC).

Para ter uma ideia rápida do mercado de busca em RuNet, siga o link https://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Depois que o PS fechou as frases-chave dos contadores de outras pessoas, as estatísticas da Liveinternet mantiveram seu valor, mesmo porque contam as transições das pesquisas do Yandex e do Google. E é isso que vemos:

E ao longo de um período de 2 anos, uma redução da diferença é realmente visível - o Google está se recuperando e contra-atacando o mecanismo de busca russo.

Mas como isso é possível? Muito simples. Você provavelmente se lembra que os desenvolvedores front-end modernos aderem ao princípio “mobile first”? E não é sem razão: a Internet faz uma transição muito suave do desktop para o celular.

O que temos em nossos smartphones e tablets? Isso mesmo, Android. Qual pesquisa é instalada por padrão no Android? Isso mesmo, Pesquisa Google.

É isso. Se a startup do Android tivesse sido comprada pela Samsung e não pelo Google, tudo poderia ter sido diferente.

Voltando ao RuNet e aos motores de busca, não se pode deixar de notar o declínio gradual na participação das pesquisas do Mail.ru, flutuando em torno de 5-6%. É usado pelos visitantes dos sites do Grupo Mail.ru.

Existem também os chamados motores de busca de segundo nível: Rambler, Nigma. Embora fosse mais correto não levá-los em consideração. A Rambler (como empresa) teve muitos problemas de gestão e a pesquisa da Rambler “morreu” com o tempo, incapaz de lidar com a concorrência de marketing e a corrida tecnológica. O Nygma, por sua vez, nunca decolou – provavelmente porque os internautas russos já haviam formado hábitos e preferências de usuário.

Assim, ao longo dos 10-15 anos de formação do Runet de “busca”, Yandex perdeu o título de líder incondicional e incondicional e agora está competindo em igualdade de condições com o gigante americano: perdendo em algum lugar, ganhando em algum lugar.

Além disso, a tendência é claramente de perda. Mas vamos ver, em 2016 ninguém sabe o que o Yandex está pronto para fazer para manter sua participação nas pesquisas. Talvez seja uma competição de alta tecnologia, ou talvez um recurso administrativo igualmente implacável - a Yandex já está testando as águas, tendo recentemente entrado com uma ação contra o Google na FAS e vencido o caso. Quem sabe, talvez Roskomnadzor bloqueie o Google no território da Federação Russa 😀 Claro, nada engraçado, mas não tenho mais certeza de nada.

Mercados de mecanismos de pesquisa na Internet global

Passando do mercado russo para o mercado mundial, observo apenas que não há nada de interessante aí. O domínio quase ilimitado do Google. Claro, existem situações interessantes nos mercados locais, e vou falar sobre elas.

Turquia. Yandex entrou no mercado turco há 5 anos e em 2016 fixou-se em cerca de 5-7%%.

China. O Baidu domina, o governo chinês protege fortemente o mercado local. E mesmo um ocidental não consegue descobrir hieróglifos sem uma garrafa - essa característica do mercado local ainda afeta a qualidade da pesquisa.

CEI. O Yandex também está quase em pé de igualdade com o Google, perdendo um pouco em alguns lugares e ganhando um pouco em outros. A tendência descendente é mais óbvia do que no mercado russo.

EUA. O mercado americano continua sendo tradicionalmente o lugar onde outras grandes empresas transnacionais - Microsoft, AOL, Yahoo - estão prontas para “dar um soco na cara do Google”, usando todos os recursos possíveis. Esta não é uma coisinha não competitiva que não consegue resistir. Não é surpreendente que a participação do Google não seja um monopólio, mas mal exceda 60-62% em 2016.

O Bing da Microsoft está crescendo de forma constante, e a própria empresa entende a importância do ecossistema e está tentando acompanhar o Android. Eles compraram a Nokia e estão produzindo smartphones com Windows integrado, lançando um novo sistema operacional para desktops e tablets e promovendo o conveniente navegador Edge. As pessoas estão trabalhando. O Yahoo também não desiste.

Provavelmente isso é tudo o que pode ser dito sobre os motores de busca na Rússia e na CEI, na Internet mundial. Os mais populares deles são bem conhecidos e mantêm seu lugar no ranking global de serviços de pesquisa convenientes para usuários da Internet.

Este artigo é relevante para 2016 e o ​​tempo dirá quem se tornará o novo rei da colina na Rússia e no mundo e quem deixará o mercado. Os usuários não têm escolha a não ser assistir, votar com seus rublos e seus pés. Ou seja, com as mãos.

Os motores de busca (SEs) são uma parte essencial da Internet há algum tempo. Hoje são mecanismos enormes e complexos que não são apenas uma ferramenta para encontrar qualquer informação necessária, mas também áreas bastante interessantes para os negócios.


Muitos usuários de pesquisa nunca pensaram sobre os princípios de sua operação, como processar as solicitações dos usuários ou como esses sistemas são construídos e funcionam. Este material ajudará as pessoas envolvidas na otimização e na compreensão da estrutura e principais funções dos motores de busca.

Funções e conceito de PS

Sistema de pesquisaé um complexo de hardware e software projetado para realizar a função de pesquisa na Internet e responde a uma solicitação do usuário, que geralmente é especificada na forma de uma frase de texto (ou mais precisamente, uma consulta de pesquisa), emitindo uma referência lista às fontes de informação, com base na relevância. Os maiores e mais comuns mecanismos de busca: Google, Bing, Yahoo, Baidu. Em RuNet - Yandex, Mail.Ru, Rambler.

Vamos dar uma olhada mais de perto no significado da consulta de pesquisa, tomando o sistema Yandex como exemplo.

A solicitação deverá ser formulada pelo usuário em total conformidade com o assunto de sua pesquisa, da forma mais simples e concisa possível. Por exemplo, queremos encontrar informações neste mecanismo de busca: “como escolher um carro para você”. Para fazer isso, abra a página principal e digite a consulta de pesquisa “como escolher um carro”. Então nossas funções se reduzem a seguir os links fornecidos para fontes de informação na rede.




Mas mesmo agindo desta forma, podemos não obter as informações de que necessitamos. Se recebermos um resultado tão negativo, precisamos apenas reformatar nossa solicitação, ou o banco de dados de pesquisa realmente não possui nenhuma informação útil sobre este tipo de solicitação (isso é bem possível dados os parâmetros “estreitos” da solicitação, como, por exemplo, “como escolher um carro em Anadyr ").

A tarefa mais básica de todo mecanismo de busca é fornecer às pessoas exatamente o tipo de informação de que elas precisam. E é praticamente impossível ensinar os usuários a criar o tipo “correto” de consultas aos mecanismos de busca, ou seja, frases que correspondam aos seus princípios de funcionamento.

É por isso que os desenvolvedores especializados de mecanismos de busca criam princípios e algoritmos para seu trabalho que permitiriam aos usuários encontrar as informações que lhes interessam. Isso significa que o sistema deve “pensar” da mesma forma que uma pessoa pensa ao buscar as informações necessárias na Internet.

Quando ele insere sua consulta em um mecanismo de busca, ele deseja encontrar o que precisa da maneira mais fácil e rápida possível. Recebido o resultado, o usuário faz sua avaliação do desempenho do sistema, guiado por diversos critérios. Ele conseguiu encontrar as informações de que precisava? Caso contrário, quantas vezes ele teve que reformatar o texto da consulta para encontrá-lo? Quão atualizadas estavam as informações que eles receberam? Com que rapidez o mecanismo de pesquisa processou sua solicitação? Quão fáceis de usar foram os resultados da pesquisa fornecidos? O resultado desejado foi o primeiro ou ficou em 30º lugar? Quanto “lixo” (informações desnecessárias) foi encontrado junto com informações úteis? Serão encontradas informações relevantes para ele, ao usar o PS, em uma semana ou em um mês?




Para obter as respostas corretas a essas perguntas, os desenvolvedores de pesquisa estão constantemente melhorando os princípios de classificação e seus algoritmos, adicionando novos recursos e funções a eles e, por qualquer meio, tentando fazer o sistema funcionar mais rápido.

Principais características dos motores de busca

Indicamos as principais características da pesquisa:

Completude.

A completude é uma das características mais importantes de uma pesquisa; representa a relação entre o número de documentos informativos encontrados mediante solicitação e o número total na Internet relacionado a uma determinada solicitação. Por exemplo, existem 100 páginas na Internet com a frase “como escolher um carro”, e para a mesma consulta foram selecionadas apenas 60 do total, então neste caso a completude da pesquisa será de 0,6. É claro que quanto mais completa for a pesquisa em si, maior será a probabilidade de o usuário encontrar exatamente o documento de que necessita, é claro, se ele existir.

Precisão.

Outra função principal de um mecanismo de pesquisa é a precisão. Determina até que ponto as páginas encontradas na Internet correspondem à solicitação do usuário. Por exemplo, se para a frase-chave “como escolher um carro” existem cem documentos, metade deles contém esta frase, e o restante contém simplesmente as seguintes palavras (como escolher corretamente um rádio de carro e instalá-lo em um carro ), então a precisão da pesquisa é igual a 50/100 = 0,5.

Quanto mais precisa a pesquisa, mais cedo o usuário encontrará as informações de que necessita, menos “lixo” diverso será encontrado entre os resultados e menos documentos encontrados não corresponderão ao significado da solicitação.

Relevância.

Este é um componente significativo da pesquisa, que se caracteriza pelo tempo que decorre desde o momento em que a informação é publicada na Internet até ser inserida na base de dados de índice do motor de pesquisa.

Por exemplo, um dia após o aparecimento das informações sobre o lançamento de um novo iPad, muitos usuários recorreram à pesquisa com tipos de consultas relevantes. Na maioria dos casos, a informação sobre esta notícia já está disponível na pesquisa, embora tenha decorrido muito pouco tempo desde o seu aparecimento. Isso se deve ao fato de os grandes buscadores possuírem um “banco de dados rápido” que é atualizado várias vezes ao dia.

Velocidade de pesquisa.

Uma função como a velocidade de busca está intimamente relacionada à chamada “resistência de carga”. Um grande número de pessoas acessa pesquisas a cada segundo; essa carga de trabalho exige uma redução significativa no tempo de processamento de uma solicitação. Aqui os interesses do motor de busca e do utilizador coincidem completamente: o visitante pretende obter resultados o mais rápido possível, e o motor de busca deve processar o seu pedido o mais rapidamente possível, para não atrasar o processamento dos pedidos subsequentes.

Visibilidade.

A apresentação visual dos resultados é o elemento mais importante da conveniência da pesquisa. Com base em muitas consultas, o mecanismo de busca encontra milhares, e em alguns casos milhões, de documentos diferentes. Devido à imprecisão na compilação das frases-chave da pesquisa ou à sua imprecisão, mesmo os primeiros resultados da consulta nem sempre contêm apenas as informações necessárias.

Isso significa que muitas vezes uma pessoa precisa realizar sua própria pesquisa entre os resultados fornecidos. Vários componentes das páginas de resultados de pesquisa ajudam você a navegar pelos resultados da pesquisa.

História do desenvolvimento dos motores de busca

Quando a Internet começou a desenvolver-se, o número dos seus utilizadores regulares era pequeno e a quantidade de informação a aceder era relativamente pequena. Basicamente, apenas especialistas em áreas de investigação tinham acesso a esta rede. Naquela época, a tarefa de encontrar informações não era tão urgente como agora.

Um dos primeiros métodos de organização do amplo acesso aos recursos de informação foi a criação de diretórios de sites, e os links para eles começaram a ser agrupados por tópicos. O primeiro projeto foi o recurso Yahoo.com, inaugurado na primavera de 1994. Posteriormente, quando o número de sites no diretório do Yahoo aumentou significativamente, foi adicionada a opção de pesquisar as informações necessárias no diretório. Ainda não era um sistema de busca completo, pois o escopo de tal busca se limitava apenas aos sites incluídos neste diretório, e não a absolutamente todos os recursos da Internet. Os diretórios de links foram amplamente utilizados no passado, mas hoje em dia perderam quase completamente sua popularidade.

Afinal, mesmo os catálogos atuais, de enorme volume, contêm informações sobre apenas uma pequena parcela dos sites da Internet. O maior e mais famoso diretório do mundo possui informações sobre cinco milhões de sites, enquanto o banco de dados do Google contém informações sobre mais de 25 bilhões de páginas.




O primeiro mecanismo de busca real foi o WebCrawler, que apareceu em 1994.

No ano seguinte surgiram AltaVista e Lycos. Além disso, o primeiro foi líder na busca de informações por muito tempo.




Em 1997, Sergey Brin, juntamente com Larry Page, criaram o mecanismo de busca Google como um projeto de pesquisa na Universidade de Stanford. Hoje é o Google, o mecanismo de busca mais popular e popular do mundo.




Em setembro de 1997, foi anunciado (oficialmente) o Yandex PS, que é atualmente o sistema de busca mais popular na RuNet.




De acordo com Setembro de 2015, as participações dos motores de busca no mundo são distribuídas da seguinte forma:
  • Google – 69,24%;
  • Bing – 12,26%;
  • Yahoo! - 9,19%;
  • Baidu – 6,48%;
  • AOL - 1,11%;
  • Pergunte - 0,23%;
  • Excitar - 0,00%


De acordo com Dezembro de 2016, ações de mecanismos de pesquisa em Runet:

  • Yandex - 48,40%
  • Google – 45,10%
  • Search.Mail.ru - 5,70%
  • Caminhante - 0,40%
  • Bingo – 0,30%
  • Yahoo – 0,10%

Como funciona um mecanismo de pesquisa

Na Rússia, o principal mecanismo de busca é o Yandex, depois o Google e depois o [email protected]. Todos os grandes motores de busca possuem uma estrutura própria, bastante diferente dos demais. Mas ainda é possível identificar os elementos básicos comuns a todos os motores de busca.

Módulo de indexação.

Este componente consiste em três programas de robô:

Aranha(em inglês spider) é um programa desenvolvido para baixar páginas da web. O spider baixa uma página específica, extraindo simultaneamente todos os links dela. O código HTML é baixado de quase todas as páginas. Para isso, os robôs utilizam protocolos HTTP.




"Aranha" funciona da seguinte maneira. O robô envia uma solicitação ao servidor “get/path/document” e outros comandos de solicitação HTTP. Em resposta, o programa do robô recebe um fluxo de texto que contém informações do tipo de serviço e, claro, o próprio documento.
  • URL da página baixada;
  • data em que a página foi baixada;
  • cabeçalho de resposta http do servidor;
  • código html, “corpo” da página.
rastejante(aranha “viajante”). Este programa acessa automaticamente todos os links encontrados na página e também os destaca. Sua tarefa é decidir para onde o spider deve ir em seguida, com base nesses links ou em uma determinada lista de endereços.

Indexador(robot indexer) é um programa que analisa páginas baixadas por spiders.



O indexador analisa completamente a página em seus elementos componentes e os analisa usando seus próprios tipos de algoritmos morfológicos e lexicais.

A análise é realizada em diversas partes da página, como títulos, texto, links, estilo e características estruturais, tags html, etc.

Assim, o módulo de indexação permite seguir links de um determinado número de recursos, baixar páginas, extrair links para novas páginas de documentos recebidos e realizar uma análise detalhada dos mesmos.

Base de dados

Base de dados(ou índice de mecanismo de busca) é um complexo de armazenamento de dados, um conjunto de informações no qual são armazenados de uma determinada forma os parâmetros modificados de cada documento processado pelo módulo de indexação e baixado.

Servidor de pesquisa

Este é o elemento mais importante de todo o sistema, porque a velocidade e, claro, a qualidade da pesquisa dependem diretamente dos algoritmos subjacentes à sua funcionalidade.

O servidor de pesquisa funciona da seguinte forma:

  • A solicitação proveniente do usuário está sujeita a análise morfológica. É gerado o ambiente de informação de qualquer documento disponível na base de dados (será posteriormente apresentado como um snippet, ou seja, um campo de informação de texto correspondente a um determinado pedido).
  • Os dados recebidos são passados ​​como parâmetros de entrada para um módulo de classificação especializado. Eles são processados ​​​​para todos os documentos e, como resultado, para cada documento é calculada sua própria classificação, que caracteriza a relevância de tal documento para a solicitação do usuário, e demais componentes.
  • Dependendo das condições especificadas pelo usuário, esta classificação pode ser ajustada por outras adicionais.
  • Em seguida, o próprio snippet é gerado, ou seja, Para qualquer documento encontrado, o título, o resumo que melhor corresponde à consulta e um link para este documento são extraídos da tabela correspondente, e as formas e palavras encontradas são destacadas.
  • Os resultados da pesquisa resultante são transmitidos a quem a realizou na forma de uma página na qual são apresentados os resultados da pesquisa (SERP).
Todos estes elementos estão intimamente relacionados entre si e funcionam, interagindo, formando um mecanismo distinto, mas bastante complexo, de funcionamento do PS, exigindo um enorme dispêndio de recursos.

O serviço web mais popular do nosso tempo é o mecanismo de busca. Tudo é compreensível aqui, porque já se foi o tempo em que os representantes dos primeiros internautas podiam observar novos produtos na Internet.

Tanta informação aparece e se acumula que fica muito difícil para uma pessoa encontrar exatamente o que precisa. Imagine como seria pesquisar na Internet se o usuário médio tivesse que procurar informações sabe-se lá onde. Só não entendo onde, porque você não encontrará muitas informações com uma busca manual.

Motor de busca, o que é?

É bom que o usuário já conheça sites que possam conter as informações necessárias, mas o que fazer caso contrário? Para facilitar a vida de uma pessoa na busca das informações necessárias na Internet, foram inventados os motores de busca ou simplesmente os motores de busca. O motor de busca desempenha uma função muito importante, sem a qual a Internet não seria a mesma que estamos habituados a ver: é a procura de informação na Internet.

Sistema de pesquisa- este é um site especial ou, em outras palavras, um site que fornece aos usuários, mediante solicitação, hiperlinks para páginas de sites que respondem a uma determinada consulta de pesquisa.

Para ser um pouco mais preciso, trata-se de uma busca de informações na Internet, realizada graças a um conjunto funcional de software e hardware e a uma interface web para interação com os usuários.

Para a interação humana com o mecanismo de busca, foi criada uma interface web, ou seja, um shell visível e compreensível. Essa abordagem dos desenvolvedores de mecanismos de pesquisa torna a pesquisa mais fácil para muitas pessoas. Regra geral, é na Internet que as pesquisas são efectuadas através de motores de busca, mas também existem sistemas de pesquisa de servidores FTP, determinados tipos de produtos na World Wide Web, ou informações noticiosas ou outras direcções de pesquisa.

A busca pode ser realizada não apenas pelo conteúdo textual dos sites, mas também por outros tipos de informações que uma pessoa pode buscar: imagens, vídeos, arquivos de som, etc.

Como um mecanismo de pesquisa pesquisa?

A pesquisa na própria Internet, assim como a navegação em sites, é possível usando um navegador da Internet. Somente após o usuário especificar sua consulta na barra de pesquisa, a pesquisa propriamente dita é realizada diretamente.

Qualquer sistema de pesquisa contém uma parte de software na qual todo o mecanismo de pesquisa é baseado; é chamado de mecanismo de pesquisa - é um pacote de software que fornece a capacidade de pesquisar informações. Após entrar em contato com um mecanismo de busca, uma pessoa gera uma consulta de pesquisa e a insere na barra de pesquisa, o mecanismo de busca gera uma página com uma lista de resultados de pesquisa, os mais relevantes, na opinião do mecanismo de busca, estão localizados acima.

Relevância da pesquisa - pesquisar os materiais mais relevantes para a solicitação do usuário e colocar hiperlinks sobre eles na página de resultados da pesquisa com resultados mais precisos acima dos demais. A própria distribuição dos resultados é chamada de classificação do site.

Então, como um mecanismo de busca prepara seus materiais para publicação e como o próprio mecanismo de busca busca informações? A coleta de informações na rede é facilitada por um robô ou bot exclusivo para cada mecanismo de busca, que também possui uma série de outros sinônimos como crawler ou spider, e o trabalho do próprio sistema de busca pode ser dividido em três etapas:

A primeira etapa da operação de um mecanismo de busca inclui a varredura de sites na rede global e a coleta de cópias de páginas da web em seus próprios servidores. Isso cria uma enorme quantidade de informações que ainda não foram processadas e não são adequadas para resultados de pesquisa.

A segunda etapa do trabalho do buscador se resume a ordenar as informações recebidas anteriormente, na primeira etapa, dos sites. A classificação é realizada de forma que, no menor tempo possível, conduza à pesquisa de altíssima qualidade que os usuários realmente esperam de um mecanismo de pesquisa. A etapa é chamada de indexação, o que significa que as páginas já estão preparadas para emissão e o banco de dados atual será considerado um índice.

É justamente a terceira etapa que determina os resultados da pesquisa, após receber uma solicitação de seu cliente, com base nas palavras-chave ou quase palavras-chave especificadas na solicitação. Isto facilita a seleção da informação mais relevante para o pedido e a sua posterior entrega. Como há muita, muita informação, o mecanismo de busca realiza a classificação de acordo com seus algoritmos.
Considera-se que o melhor mecanismo de busca é aquele que consegue fornecer o material que mais corretamente responde à solicitação do usuário. Mas também aqui pode haver resultados que foram influenciados por pessoas interessadas em promover o seu site; tais sites, embora nem sempre, aparecem frequentemente nos resultados de pesquisa, mas não por muito tempo.

Embora já tenham sido identificados líderes mundiais em muitas regiões, os motores de busca continuam a desenvolver a sua pesquisa de alta qualidade. Quanto melhor a pesquisa eles puderem fornecer, mais pessoas a usarão.

Como usar o mecanismo de busca?

O que é um mecanismo de busca e como funciona já está claro, mas como usá-lo corretamente? A maioria dos sites sempre tem uma barra de pesquisa e, ao lado dela, há um botão Localizar ou Pesquisar. Uma consulta é inserida na linha de pesquisa, após a qual você precisa pressionar o botão de pesquisa ou, como é mais frequente, pressionar a tecla Enter do teclado e em questão de segundos você receberá o resultado da consulta no formulário de uma lista.

Mas nem sempre é possível obter a resposta correta a uma consulta de pesquisa na primeira vez. Para garantir que a busca pelo que você deseja não se torne penosa, você deve redigir corretamente sua consulta de pesquisa e seguir as recomendações descritas a seguir.

Compomos a consulta de pesquisa corretamente

A seguir serão fornecidas dicas para usar o mecanismo de pesquisa. Seguir alguns truques e regras na busca de informações em um mecanismo de busca permitirá obter o resultado desejado com muito mais rapidez. Siga estas diretrizes:

  1. A grafia correta das palavras garante o número máximo de correspondências com o objeto de informação desejado (embora os motores de busca modernos já tenham aprendido a corrigir erros ortográficos, este conselho não deve ser negligenciado).
  2. Ao usar sinônimos em sua consulta, você pode cobrir uma faixa de pesquisa mais ampla.
  3. Às vezes, alterar uma palavra no texto da consulta pode trazer melhores resultados; reformate a consulta.
  4. Traga especificidade para sua consulta, utilize ocorrências exatas de frases que devem definir a essência principal da busca.
  5. Experimente palavras-chave. O uso de palavras-chave e frases pode ajudar a identificar o ponto principal, e o mecanismo de busca retornará resultados mais relevantes.

Portanto, o que é um mecanismo de busca nada mais é do que uma oportunidade de encontrar informações de interesse e geralmente utilizá-las de forma totalmente gratuita, aprender algo, entender algo ou tirar a conclusão certa para você mesmo. Muitas pessoas não conseguem mais imaginar sua vida sem a pesquisa por voz, na qual não há necessidade de digitar texto, basta fazer sua solicitação, e o dispositivo de entrada de informações aqui é um microfone. Tudo isso indica o constante desenvolvimento das tecnologias de busca na Internet e a necessidade delas.

A Internet é necessária para muitos usuários receberem respostas às dúvidas (perguntas) que eles inserem.

Se não existissem mecanismos de busca, os usuários teriam que pesquisar independentemente os sites de que precisam, lembrá-los e anotá-los. Em muitos casos, encontrar algo adequado “manualmente” seria muito difícil e, muitas vezes, simplesmente impossível.

Os mecanismos de pesquisa fazem todo esse trabalho rotineiro de pesquisar, armazenar e classificar informações em sites para nós.

Vamos começar com os famosos motores de busca Runet.

Motores de busca na Internet em russo

1) Comecemos pelo mecanismo de busca nacional. Yandex funciona não apenas na Rússia, mas também na Bielo-Rússia e no Cazaquistão, na Ucrânia e na Turquia. Também existe Yandex em inglês.

2) O mecanismo de busca Google veio da América e tem localização para o idioma russo:

3) Motor de busca doméstico Mail ru, que representa simultaneamente a rede social VKontakte, Odnoklassniki, também My World, o famoso Answers Mail.ru e outros projetos.

4) Mecanismo de busca inteligente

Nigma (Nigma) http://www.nigma.ru/

Desde 19 de setembro de 2017, o nigma “intelectual” não funcionou. Deixou de ter interesse financeiro para seus criadores; eles mudaram para outro mecanismo de busca chamado CocCoc.

5) A conhecida empresa Rostelecom criou o motor de busca Sputnik.

Existe um mecanismo de busca chamado Sputnik, projetado especificamente para crianças, sobre o qual escrevi.

6) Rambler foi um dos primeiros motores de busca nacionais:

Existem outros motores de busca famosos no mundo:

  • Bing,
  • Yahoo!,
  • PatoDuckGo,
  • Baidu,
  • Ecosia,

Vamos tentar descobrir como funciona um motor de busca, nomeadamente, como os sites são indexados, analisam os resultados da indexação e geram os resultados da pesquisa. Os princípios de funcionamento dos motores de busca são aproximadamente os mesmos: procurar informações na Internet, armazená-las e classificá-las para entrega em resposta às solicitações dos utilizadores. Mas os algoritmos usados ​​pelos motores de busca podem diferir bastante. Estes algoritmos são mantidos em segredo e a sua divulgação é proibida.

Ao inserir a mesma consulta nas sequências de pesquisa de diferentes mecanismos de pesquisa, você pode obter respostas diferentes. A razão é que todos os motores de busca usam seus próprios algoritmos.

O propósito dos motores de busca

Em primeiro lugar, você precisa saber que os motores de busca são organizações comerciais. Seu objetivo é obter lucro. Você pode lucrar com publicidade contextual, outros tipos de publicidade e com a promoção dos sites necessários no topo dos resultados de pesquisa. Em geral, existem muitas maneiras.

Depende do tamanho do público, ou seja, quantas pessoas utilizam esse mecanismo de busca. Quanto maior o público, mais pessoas o anúncio será exibido. Conseqüentemente, essa publicidade custará mais. Os motores de busca podem aumentar a sua audiência através da sua própria publicidade, bem como atrair utilizadores através da melhoria da qualidade dos seus serviços, algoritmo e conveniência de pesquisa.

O mais importante e difícil aqui é o desenvolvimento de um algoritmo de pesquisa totalmente funcional que forneça resultados relevantes para a maioria das consultas dos usuários.

O trabalho de um mecanismo de busca e as ações dos webmasters

Cada motor de busca possui seu próprio algoritmo, que deve levar em consideração um grande número de fatores diferentes na análise da informação e na compilação dos resultados em resposta à solicitação de um usuário:

  • a idade de um determinado site,
  • características do domínio do site,
  • qualidade do conteúdo do site e seus tipos,
  • recursos de navegação e estrutura do site,
  • usabilidade (conveniência para os usuários),
  • fatores comportamentais (o mecanismo de busca pode determinar se o usuário encontrou o que procurava no site ou se o usuário voltou ao mecanismo de busca e novamente procura uma resposta para a mesma consulta)
  • etc.

Tudo isso é necessário justamente para que os resultados solicitados pelo usuário sejam os mais relevantes possíveis, atendendo às solicitações do usuário. Ao mesmo tempo, os algoritmos dos mecanismos de pesquisa estão em constante mudança e sendo refinados. Como se costuma dizer, não há limite para a perfeição.

Por outro lado, webmasters e otimizadores estão constantemente inventando novas formas de promover seus sites, que nem sempre são honestas. A tarefa dos desenvolvedores do algoritmo do mecanismo de busca é fazer alterações nele que não permitam que sites “ruins” de otimizadores desonestos apareçam no TOP.

Como funciona um mecanismo de pesquisa?

Agora vamos falar sobre como o mecanismo de busca realmente funciona. Consiste em pelo menos três etapas:

  • digitalização,
  • indexação,
  • variando.

O número de sites na Internet é simplesmente astronômico. E todo site é informação, conteúdo informativo criado para leitores (pessoas vivas).

Digitalizando

Trata-se de um mecanismo de busca que vagueia pela Internet para coletar novas informações, analisar links e buscar novos conteúdos que possam ser utilizados para retornar ao usuário em resposta às suas solicitações. Para a digitalização, os motores de busca possuem robôs especiais chamados robôs de busca ou spiders.

Os robôs de pesquisa são programas que visitam sites automaticamente e coletam informações deles. O rastreamento pode ser primário (o robô visita um novo site pela primeira vez). Após a coleta inicial das informações do site e sua inserção no banco de dados do mecanismo de busca, o robô começa a visitar suas páginas com certa regularidade. Se alguma alteração tiver ocorrido (novo conteúdo foi adicionado, conteúdo antigo foi excluído), todas essas alterações serão registradas pelo mecanismo de busca.

A principal tarefa de um search spider é encontrar novas informações e enviá-las ao mecanismo de busca para a próxima etapa de processamento, ou seja, para indexação.

Indexação

Um mecanismo de busca pode buscar informações apenas entre os sites que já estão incluídos em seu banco de dados (por ele indexados). Se o rastreamento é o processo de pesquisa e coleta de informações disponíveis em um site específico, a indexação é o processo de inserir essas informações no banco de dados do mecanismo de pesquisa. Nesta fase, o motor de busca decide automaticamente se pretende inserir esta ou aquela informação na sua base de dados e onde inseri-la, em que secção da base de dados. Por exemplo, o Google indexa quase todas as informações encontradas por seus robôs na Internet, enquanto o Yandex é mais exigente e não indexa tudo.

Para novos sites, o estágio de indexação pode ser longo, então os visitantes dos mecanismos de busca podem esperar muito tempo por novos sites. E novas informações que aparecem em sites antigos e bem promovidos podem ser indexadas quase instantaneamente e quase imediatamente acabar no “índice”, ou seja, no banco de dados do mecanismo de busca.

Variando

Ranking é a disposição das informações que foram previamente indexadas e inseridas no banco de dados de um determinado mecanismo de busca, de acordo com o rank, ou seja, quais informações o mecanismo de busca mostrará aos seus usuários em primeiro lugar, e quais informações serão colocadas “ classificação” mais baixa. A classificação pode ser atribuída ao estágio de atendimento do mecanismo de busca ao seu cliente – o usuário.

Nos servidores dos motores de busca, as informações recebidas são processadas e gerados resultados para uma ampla gama de todos os tipos de consultas. É aqui que os algoritmos do mecanismo de pesquisa entram em ação. Todos os sites incluídos no banco de dados são classificados por tópico, e os tópicos são divididos em grupos de consultas. Para cada grupo de solicitações poderá ser elaborada uma questão preliminar, que será posteriormente ajustada.

Olá, queridos leitores do blog. , então seus poucos usuários se cansaram de seus próprios favoritos. Porém, como você lembra, isso aconteceu em progressão geométrica e logo ficou mais difícil navegar em toda a sua diversidade.

Surgiram então os diretórios (Yahoo, Dmoz e outros), nos quais seus autores adicionavam e classificavam vários sites em categorias. Isso imediatamente facilitou a vida dos então ainda não numerosos usuários da rede global. Muitos desses catálogos ainda estão vivos hoje.

Mas depois de algum tempo, o tamanho de seus bancos de dados tornou-se tão grande que os desenvolvedores pensaram primeiro em criar uma busca dentro deles e depois em criar um sistema automatizado de indexação de todo o conteúdo da Internet, a fim de torná-lo acessível a todos.

Os principais motores de busca do segmento de língua russa da Internet

Como você sabe, essa ideia foi implementada com estrondoso sucesso, mas, no entanto, tudo deu certo apenas para um punhado de empresas selecionadas que conseguiram não desaparecer na Internet. Quase todos os motores de busca que apareceram na primeira onda desapareceram, definharam ou foram comprados por concorrentes mais bem-sucedidos.

Um mecanismo de busca é um mecanismo muito complexo e, principalmente, que consome muitos recursos (isso significa não apenas recursos materiais, mas também humanos). Por trás do aparentemente simples , ou de seu análogo ascético do Google, existem milhares de funcionários, centenas de milhares de servidores e muitos bilhões de investimentos que são necessários para que este colosso continue a operar e permanecer competitivo.

Entrar agora neste mercado e começar do zero é mais uma utopia do que um verdadeiro projeto empresarial. Por exemplo, uma das empresas mais ricas do mundo, a Microsoft, vem tentando ganhar uma posição no mercado de buscas há décadas, e só agora seu mecanismo de busca Bing está lentamente começando a atender às suas expectativas. E antes disso houve toda uma série de fracassos e contratempos.

O que podemos dizer sobre entrar neste mercado sem quaisquer influências financeiras especiais. Por exemplo, nosso mecanismo de busca doméstico Nigma tem muitas coisas úteis e inovadoras em seu arsenal, mas seu tráfego é milhares de vezes menor que o dos líderes do mercado russo. Por exemplo, dê uma olhada na audiência diária do Yandex:

A este respeito, podemos assumir que a lista dos principais (melhores e mais sortudos) motores de busca do Runet e de toda a Internet já foi formada e toda a intriga reside apenas em quem acabará por devorar quem, ou como será a sua participação percentual. serão distribuídos se todos sobreviverem e permanecerem à tona.

Mercado russo de mecanismos de pesquisaé muito claramente visível e aqui, provavelmente, podemos distinguir dois ou três intervenientes principais e alguns intervenientes secundários. Em geral, desenvolveu-se uma situação bastante única em RuNet, que, pelo que entendi, se repetiu apenas em outros dois países do mundo.

Estou falando do fato de que o mecanismo de busca Google, que chegou à Rússia em 2004, ainda não conseguiu assumir a liderança. Na verdade, eles tentaram comprar o Yandex nessa época, mas algo não deu certo lá e agora a “nossa Rússia”, junto com a República Tcheca e a China, são aqueles lugares onde o todo-poderoso Google, se não derrotado, então, em de qualquer forma, encontrou séria resistência.

Na verdade, para ver a situação actual entre os melhores motores de busca no RuNet Qualquer um pode. Bastará colar este URL na barra de endereços do seu navegador:

Http://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

O fato é que a maioria deles usa .

Após inserir o URL fornecido, você verá uma imagem que não é muito atraente e apresentável, mas que reflete bem a essência do assunto. Preste atenção aos cinco principais mecanismos de pesquisa dos quais os sites em russo recebem tráfego:

Sim, claro, nem todos os recursos com conteúdo em russo estão localizados nesta zona. Existem também SU e RF, e áreas gerais como COM ou NET estão repletas de projetos de Internet focados em Runet, mas ainda assim a amostra é bastante representativa.

Essa dependência pode ser apresentada de forma mais colorida, como, por exemplo, alguém fez online para sua apresentação:

Isso não muda a essência. Existem alguns líderes e vários muito, muito atrás dos motores de busca. Aliás, já escrevi sobre muitos deles. Às vezes pode ser bastante interessante mergulhar na história de sucesso ou, inversamente, aprofundar-se nas razões do fracasso de mecanismos de busca outrora promissores.

Portanto, em ordem de importância para a Rússia e para o Runet como um todo, vou listá-los e dar-lhes breves características:

    Pesquisar no Google já se tornou uma palavra familiar para muitas pessoas no planeta - você pode ler sobre isso no link. Neste motor de busca gostei da opção “tradução de resultados”, quando recebia respostas de todo o mundo, mas na sua língua nativa, mas agora, infelizmente, não está disponível (pelo menos no google.ru).

    Ultimamente também tenho ficado intrigado com a qualidade de seus resultados (página de resultados do mecanismo de pesquisa). Pessoalmente, sempre uso primeiro o mecanismo de busca espelhado RuNet (há um lá, bem, estou acostumado) e somente se não encontrar uma resposta inteligível lá, recorro ao Google.

    Normalmente, o lançamento deles me deixava feliz, mas ultimamente só me intrigou - às vezes esse tipo de bobagem aparece. É possível que a sua luta para aumentar as receitas provenientes da publicidade contextual e a constante mudança dos resultados da pesquisa para desacreditar a promoção de SEO possam levar ao resultado oposto. De qualquer forma, este mecanismo de busca tem um concorrente no RuNet, e que tipo de concorrente.

    Acho que é improvável que alguém vá especificamente ao Go.mail.ru para pesquisar no RuNet. Portanto, o tráfego para projetos de entretenimento deste mecanismo de busca pode ser significativamente superior a dez por cento. Os proprietários de tais projetos devem prestar atenção a este sistema.

No entanto, para além dos líderes claros no mercado de motores de busca do segmento de língua russa da Internet, existem vários outros players cuja quota é bastante baixa, mas, no entanto, o próprio facto da sua existência torna necessário dizer algumas palavras sobre eles.

Mecanismos de busca Runet do segundo escalão


Mecanismos de pesquisa em toda a Internet

Em geral, na escala de toda a Internet existe apenas um jogador sério - Google. Este é o líder indiscutível, mas ainda tem alguma concorrência.

Primeiro de tudo, ainda é o mesmo Google, que, por exemplo, tem uma posição muito boa no mercado americano, especialmente considerando que o seu motor também é utilizado em todos os serviços do Yahoo (quase um terço de todo o mercado de buscas dos EUA).

Bem, em segundo lugar, devido à enorme proporção que os utilizadores da China representam no número total de utilizadores da Internet, o seu principal motor de busca chama-se Baidu se intromete na distribuição de lugares no Olimpo mundial. Ele nasceu em 2000 e agora sua participação é de cerca de 80% de toda a audiência nacional na China.

É difícil dizer algo mais inteligível sobre o Baidu, mas na Internet há opiniões de que os lugares do seu Top são ocupados não só pelos sites mais relevantes para o pedido, mas também por quem pagou por ele (diretamente no motor de busca , e não para o escritório de SEO). Claro, isto se aplica principalmente a listagens comerciais.

Em geral, olhando para as estatísticas, fica claro porque o Google concorda facilmente em piorar os seus resultados de pesquisa em troca de aumentar os lucros da publicidade contextual. Na verdade, eles não têm medo da rotatividade de usuários, porque na maioria dos casos não têm para onde ir. Esta situação é um tanto triste, mas veremos o que acontece a seguir.

Aliás, para dificultar ainda mais a vida dos otimizadores, e talvez para manter a tranquilidade dos usuários deste mecanismo de busca, o Google vem recentemente usando criptografia na transmissão de consultas dos navegadores dos usuários para a barra de pesquisa. Em breve não será mais possível ver nas estatísticas dos contadores de visitantes quais consultas os usuários do Google procuraram você.

Claro que, além dos motores de busca mencionados nesta publicação, existem milhares de outros - regionais, especializados, exóticos, etc. Tentar listá-los e descrevê-los todos em um artigo seria impossível e provavelmente desnecessário. É melhor dizer algumas palavras sobre como é fácil criar um mecanismo de pesquisa e como é fácil e barato mantê-lo atualizado.

A grande maioria dos sistemas funciona com princípios semelhantes (leia sobre isso e aquilo) e persegue o mesmo objetivo - dar aos usuários uma resposta às suas perguntas. Além disso, esta resposta deve ser relevante (correspondente à pergunta), abrangente e, o que não deixa de ser importante, relevante (de primeira frescura).

Resolver este problema não é tão fácil, principalmente considerando que o mecanismo de busca precisará analisar dinamicamente o conteúdo de bilhões de páginas da Internet, eliminar as desnecessárias e formar uma lista (questão) das demais, onde a maioria as respostas apropriadas à pergunta do usuário aparecerão primeiro.

Esta tarefa extremamente complexa é resolvida pela coleta preliminar de informações destas páginas usando vários robôs de indexação. Eles coletam links de páginas já visitadas e carregam informações deles no banco de dados do mecanismo de pesquisa. Existem bots que indexam texto (um bot regular e rápido que vive de notícias e recursos atualizados com frequência para que os dados mais recentes sejam sempre apresentados nos resultados).

Além disso, existem robôs que indexam imagens (para posterior saída), favicons, espelhos de sites (para posterior comparação e possível colagem), bots que verificam a funcionalidade das páginas da Internet, quais usuários ou através de ferramentas para webmasters (aqui você pode ler sobre, e) .

O próprio processo de indexação e o processo subsequente de atualização dos bancos de dados de índices são bastante demorados. Embora o Google faça isso muito mais rápido que seus concorrentes, pelo menos o Yandex, que leva uma ou duas semanas para fazer isso (leia sobre).

Normalmente, um mecanismo de busca divide o conteúdo textual de uma página da Internet em palavras individuais, que são reduzidas aos princípios básicos, para que possa então dar respostas corretas às perguntas feitas em diferentes formas morfológicas. Todo o material extra na forma de tags HTML, espaços, etc. as coisas são excluídas e as palavras restantes são classificadas em ordem alfabética e sua posição neste documento é indicada ao lado delas.

Esse tipo de coisa é chamado de índice reverso e permite pesquisar não por páginas da web, mas por dados estruturados localizados nos servidores do mecanismo de busca.

O número de tais servidores para Yandex (que pesquisa principalmente sites em russo e um pouco em ucraniano e turco) está na casa das dezenas ou mesmo centenas de milhares, e para o Google (que pesquisa em centenas de idiomas) - na casa dos milhões .

Muitos servidores possuem cópias, que servem tanto para aumentar a segurança dos documentos quanto ajudam a aumentar a velocidade de processamento das solicitações (distribuindo a carga). Estime os custos de manutenção de toda esta economia.

A solicitação do usuário será enviada pelo balanceador de carga para o segmento do servidor que está menos carregado no momento. Em seguida, é feita uma análise da região de onde o usuário do mecanismo de busca enviou sua solicitação, e esta é analisada morfologicamente. Se uma consulta semelhante foi inserida recentemente na barra de pesquisa, o usuário recebe dados do cache para não sobrecarregar os servidores novamente.

Se a solicitação ainda não tiver sido armazenada em cache, ela será transferida para a área onde está localizado o banco de dados de índice do mecanismo de pesquisa. Em resposta, você receberá uma lista de todas as páginas da Internet que estão pelo menos de alguma forma relacionadas à solicitação. Não apenas as ocorrências diretas são levadas em consideração, mas também outras formas morfológicas, bem como, etc. coisas.

Deles precisa ser classificado e nesta fase o algoritmo (inteligência artificial) entra em ação. Na verdade, o pedido do utilizador é multiplicado por todas as opções possíveis para a sua interpretação, e as respostas a muitos pedidos são pesquisadas em simultâneo (através da utilização de operadores de linguagem de consulta, alguns dos quais estão disponíveis para utilizadores comuns).

Via de regra, os resultados da pesquisa contêm uma página de cada site (às vezes mais). são agora muito complexos e levam em conta muitos fatores. Além disso, para corrigi-los, são utilizados, que avaliam manualmente os sites de referência, o que permite ajustar o funcionamento do algoritmo como um todo.

Em geral, está claro que o assunto é obscuro. Podemos falar muito sobre isso, mas já está claro que a satisfação do usuário com um sistema de busca se consegue, ah, como é difícil. E sempre haverá quem não goste de alguma coisa, como você e eu, queridos leitores.

Boa sorte para você! Nos vemos em breve nas páginas do blog

Você pode assistir mais vídeos acessando
");">

Você pode estar interessado

Yandex People - como procurar pessoas nas redes sociais Apometr é um serviço gratuito para rastrear alterações nos resultados de pesquisa e atualizações de mecanismos de pesquisa. DuckDuckGo – um mecanismo de busca que não segue você
Como verificar a velocidade da Internet - teste de conexão online no computador e telefone, SpeedTest, Yandex e outros medidores
Imagens Yandex e Google, bem como pesquisa por arquivo de imagem em Tineye (tinai) e Google