gildot

Topo
Sobre
FAQ
Tópicos
Autores
Preferências
Artigos
Sondagens
Propor artigo


8/3
gildicas
9/30
jobs
10/9
perguntas
10/25
press

 
Google está a morrer?
Contribuído por vd em 07-09-04 15:07
do departamento das-discussões
consultorio ^magico^ escreve "Já repararam que as páginas indexadas pelo Google (valor mostrado na página principal) se mantem estável nos últimos 8 meses em 4.2 biliões?

Não é que isto seja uma preocupação (com a qual não consiga dormir), mas ao ler o (pequeno) artigo Google Indexing Quirk publicado no site Gadgetopia, resolvi dar uma leitura mais atenta do suposto problema.

De acordo com o Google Watch - para uns o site é constituido por pessoas anti-Google, para outros é um site que analisa os problemas de se depender tanto de uma única empresa - a desconfiança de que algo de errado se passa com o Google surge com o artigo Is Google broken? em Junho de 2003.


"Neste artigo o autor, Daniel Brandt, descreve o problema de que o Google não estaria indexar todas as páginas de um site e tenta encontrar uma possível explicação para tal facto. A The Y2K+3 theory é pura especulação! Como referido no artigo, grande parte do software core do Google foi escrito entre 1998 e 2000, utilizando C e C++ de modo a correr em Linux. Em Julho de 2000, o Google indica que estavam a ser indexadas 1 bilião de páginas; em Novembro de 2002, indica que estavam a indexar 3 biliões. Esta situação mostra que em pouco tempo os 4 biliões seriam atingidos e que aparentemente deixariam de haver IDs disponíveis para indexar páginas.

A teoria por detrás deste limite tem a ver com o facto de que o Google atribui um ID (integer, 4 bytes) por cada página indexada, sendo o artigo bastante interessante na análise deste limite.

Assumindo que efectivamente o Google tem um problema com a indexação de novas páginas, em que é que isso nos afecta?! Afinal o problema é deles! Como é descrito no artigo Google is dying, do mesmo autor, ele prova como o Google não está a indexar entre 10% a 70% das páginas que encontra. E isto é um problema para nós, utilizadores e programadores, que utilizamos o Google para pesquisa lúdica e para trabalho, pois deixamos de poder confiar no resultado da pesquisa.

Convém salientar que o Google não faz explicações públicas sobre qualquer problema interno (incluindo este), e apesar de não ser obrigada a faze-lo colocam-se questões:

  • Não estamos a entrar num processo de dependência mais evidente que noutras situações?
  • E apesar de a Google Inc não ter até ao momento agido de má fé (ou feito qualquer concorrência desleal), não está a ser criado um monopólio?
  • Será que a existência de outros motores de busca como o Yahoo e o novo MSN Search, impedem que se possa atribuir ao Google o monopólio dos motores de busca?
  • Considerando todos os serviços disponibilizados pelo Google, haverá mercado para a introdução de novos motores de busca?
Fica lançada a discussão... "

ADSL a 2 Mbps em Portugal | Novo mirror nacional do OpenBSD  >

 

gildot Login
Login:

Password:

Referências
  • Linux
  • Daniel Brandt
  • Google is dying
  • Yahoo
  • MSN Search
  • ^magico^
  • Google Indexing Quirk
  • Gadgetopia
  • Google Watch
  • Is Google broken?
  • Mais acerca consultorio
  • Também por vd
  • Esta discussão foi arquivada. Não se pode acrescentar nenhum comentário.
    Monopólio (Pontos:2)
    por Gimp em 07-09-04 15:27 GMT (#1)
    (Utilizador Info)
    Para mim o monopólio da Google é "virtual", dura enquanto o pessoal gostar, não aparecer alguém com uma coisinha melhor (a Micoxof com quilhentos milhones de Windows2050) ou começarem a encher aquilo de muita PUB.


    "No comments"

    Re:Monopólio (Pontos:1)
    por Dante em 07-09-04 15:55 GMT (#3)
    (Utilizador Info)
    aconteceu o mesmo com o altavista... um tipo ia a outros motores e encontrava 4 ou 5 hits.. no altavista 50 ou 60... no google 500 ou 600...
    next big thing?
    Monopólios e barreiras à entrada (Pontos:3, Interessante)
    por joaobranco em 07-09-04 16:20 GMT (#6)
    (Utilizador Info)
    Sinceramente, não me parece que o Google tenha um monopólio do mercado de motores de busca.

    E isto por uma razão muito simples: as barreiras à entrada nesse mercado são muito baixas (como se já verificou diversas vezes, através da evolução dos lideres yahoo - altavista - google) e existe um baixo "efeito de rede" associado a uma pesquisa (o que quer dizer que ser o lider das pesquisas numa determinada altura não vai necessáriamente implicar que o custo de mudar de motor de busca seja elevado).

    Os monopólios geralmente mantem-se em áreas em que "mudar de fornecedor" seja dificil/caro, quer porque é caro passar a poder fornecer o serviço quer porque o custo de migração é muito elevado.

    Ora, no caso do google, nenhuma das condições parece verificar-se (o que é uma razão pela qual embora "goste" da companhia, não me pareça grande investimento comprar acções da mesma -- comprar acções de "bastards" mas que tenham um monopólio seguro será provavelmente melhor negócio).

    Claro que existe sempre alguma histerese no mercado (o tempo entre a altura em que tomar uma determinada acções passa a ser vantajosa e a altura em que "a maioria dos consumidores" toma essa acção) o que quer dizer que provavelmente mesmo que exista neste momento uma proposição de busca melhor que a google neste momento, provavelmente só vou passar a usá-la daqui a algum tempo :-)

    Cumps, JB

    .. acusaram-O de pirataria, por ter duplicado uma cesta de pão e cinco peixes, e disseram: crucifiquem-No .. (Biblia do Século XXI)

    Re:Monopólios e barreiras à entrada (Pontos:3, Interessante)
    por joaobranco em 07-09-04 16:25 GMT (#7)
    (Utilizador Info)
    Se bem que, a bem dizer, duvido que daqui a algum tempo o "core business" do google seja motores de busca.

    O que eles estão a fazer é criar uma empresa capaz de oferecer computação massiva a uma escala muito grande... Motores de busca (e webmail) são apenas alguns "technology showcases".

    (E não, infelizmente esta ideia, que me parece bem esgalhada, não é minha. Acho que a li no Cringley, mas não tenho o URL à mão).

    Cumps, JB

    .. acusaram-O de pirataria, por ter duplicado uma cesta de pão e cinco peixes, e disseram: crucifiquem-No .. (Biblia do Século XXI)

    Re:Monopólios e barreiras à entrada (Pontos:1)
    por Perky_Goth em 08-09-04 1:32 GMT (#21)
    (Utilizador Info) http://www.fe.up.pt/freefeup
    discordo numa coisa, barreiras baixas à entrada? q tal o custo de uns quantos servidores? o desenvolvimento de um algoritmo fiável? despesas com pessoal?
    n é para qualquer um k keira...
    -----
    Microsoft has funded 13 studies over the past year comparing Linux with its own products. Guess what: All of them come out in favor of Microsoft.
    Re:Monopólios e barreiras à entrada (Pontos:2)
    por nbk em 08-09-04 5:12 GMT (#24)
    (Utilizador Info) http://www.webards.net/
    Boas.

    "q tal o custo de uns quantos servidores? o desenvolvimento de um algoritmo fiável? despesas com pessoal?"

    Thats peanuts.

    O pior problema mesmo é a organização que tens de montar e manter a funcionar para atingires os objectivos a que te propões. O dinheiro aparece se fores bom ( ou o demonstrares que és ) a fazer tal coisa.

    Hint: lê a história do google algures no site deles.

    @257, Nbk

    Re:Monopólios e barreiras à entrada (Pontos:1)
    por Perky_Goth em 09-09-04 0:23 GMT (#37)
    (Utilizador Info) http://www.fe.up.pt/freefeup
    já n estamos nos 90s...
    anyway, a questão é q n é para todos.
    -----
    Microsoft has funded 13 studies over the past year comparing Linux with its own products. Guess what: All of them come out in favor of Microsoft.
    Re:Monopólios e barreiras à entrada (Pontos:2)
    por nbk em 09-09-04 3:31 GMT (#39)
    (Utilizador Info) http://www.webards.net/
    Boas.

    "anyway, a questão é q n é para todos."

    True.

    @188, Nbk

    Re:Monopólios e barreiras à entrada (Pontos:2)
    por nbk em 08-09-04 5:14 GMT (#25)
    (Utilizador Info) http://www.webards.net/
    Boas.

    "Os monopólios geralmente mantem-se em áreas em que "mudar de fornecedor" seja dificil/caro, quer porque é caro passar a poder fornecer o serviço quer porque o custo de migração é muito elevado."

    Atenção ao factor "hábito".

    @259, Nbk

    Totally offtopic (Pontos:1)
    por being em 07-09-04 15:38 GMT (#2)
    (Utilizador Info)

    Bem, e o ptnix.com ? :| Já está down há varios dias... alguem sabe alguma coisa ?

    Comecei uma dieta, cortei a bebida e comidas pesadas e, em catorze dias, perdi duas semanas. - Joe E. Lewis

    Re:Totally offtopic (Pontos:2)
    por vd em 07-09-04 16:14 GMT (#5)
    (Utilizador Info) http://paradigma.co.pt/~vd
    Sim. Problemas de connectividade com a Telepac.
    São os erros derivados do factor humano no seu melhor

    //vd
    Re:Totally offtopic (Pontos:1)
    por BeBe em 07-09-04 21:01 GMT (#14)
    (Utilizador Info) http://www.domingos-bruges.com/

    ou a falta de pagamento do parte de quem aloja o ptnix...
    onde é que eu já vi isto? ;-)
    --
    djsb
    Estão à espera... (Pontos:1)
    por liberdade2004 em 07-09-04 16:01 GMT (#4)
    (Utilizador Info)
    que os processadores de 64 bits baixem ;)

    2^32 = 4 294 967 296.
    Re: (Pontos:3, Interessante)
    por gotcha em 07-09-04 16:39 GMT (#8)
    (Utilizador Info) http://alunos.uevora.pt/~l13591
    Do meu ponto de vista, esta questão é muito interessante. No artigo "Gates: In 2014, magic software, free hardware" encontra-se uma visão do Bill Gates para o ano 2014 comentada, interessante para esta discussão também, penso eu.

    Há pessoas que sugerem que se o Google deixar de ser usável (por indexar só o que lhe interessa ou por passar a ser um serviço pago) outro motor de busca rapidamente há-de surgir. Eu não diria com tanta certeza tal afirmação. São muitos anos de investigação e uma imensa infraestrutura que está montada.

    O que eu não me admirava era que passasse a ser, por exemplo, um serviço pago. Á medida que o hardware vai ficando mais barato e acessível, o software vai sendo cada vez mais mágico. Realmente como diz o nosso amigo Bill, mas o que ele não diz é quanto é que isso nos custará ao minuto.

    Um passo interessante no caminho do Google foi a não fusão ou a não venda à Microsoft das suas tecnologias. Muitos respiraram fundo de alivio quando souberam. Mas no fundo.. não está a ser criado um monópolio... ele já existe! Será que foi por principios que não se venderam? Ou terá sido porque podem ganhar ainda mais dinheiro se não se venderem? Ganhar dinheiro não tem mal nenhum. Não estariam sequer a dar valor ao seu trabalho se não ganhassem dinheiro com ele. Mas a monopolização não é com certeza uma boa coisa.

    "Google não está a indexar entre 10% a 70% das páginas que encontra. E isto é um problema para nós, utilizadores e programadores, que utilizamos o Google para pesquisa lúdica e para trabalho, pois deixamos de poder confiar no resultado da pesquisa."

    Sim, é um problema. Mas o Google não é um serviço público, é um serviço prestado por uma empresa que tanto quanto sabemos até pode indexar só o que lhe interessar ou só o que lhe pagam para indexar e mais algumas coisinhas.

    Não vale a pena pensar de momento numa maneira de fugir ao uso do google porque não há nada para fugir ainda. Mas quando houver pode realmente já ser tarde demais. Mas tudo acontece por uma razão e as coisas têm de evoluir naturalmente. Nem que seja para depois desaparecem e recomeçar tudo de novo.

    --
    Nuno Morgadinho
    Talvez sim, talvez nao... (Pontos:3, Interessante)
    por leitao em 07-09-04 16:44 GMT (#9)
    (Utilizador Info) http://scaletrix.com/nuno/blog/
    Nao me parece que mudar o index para um longint seja particularmente dificil para a Google. Pelo que uma explicacao talvez mais provavel seja que embora muitas novas paginas sao criadas,, muitas outras desaparecem.

    Alem disso, muito do conteudo actual e' dinamico -- pelo que muito deste vai mudando durante o ciclo de indexacao.

    I can live with doubt and uncertainty and not knowing. I think it is much more interesting to live not knowing than to have answers that might be wrong.
    Re:Talvez sim, talvez nao... (Pontos:3, Interessante)
    por ^magico^ em 07-09-04 17:25 GMT (#10)
    (Utilizador Info) http://fsilva.online.pt/
    O problema não é mudar o index para um longint, o problema é o resultado dessa mudança. Como explicado artigo -- e que depois eu tive a oportunidade de ler na investigação "The Anatomy of a Large-Scale Hypertextual Web Search Engine" elaborada pelo Sergey e o Lawrence -- iria trazer uma explosão drástica no aumento do ficheiro de indexação reduzindo exponencialmente a performance de pesquisa.

    Se bem que concordo contigo que muitas páginas desaparecem, a questão aqui é que foi encontrado um problema evidente de que o Google não está a indexar todas as páginas existentes. E qual é a explicação para isso?

    Este comentário foi publicado ao abrigo de leis internacionais "How to handle a Troll".
    Re:Talvez sim, talvez nao... (Pontos:1)
    por Perky_Goth em 08-09-04 1:43 GMT (#22)
    (Utilizador Info) http://www.fe.up.pt/freefeup
    optimização do pigeon rank?
    -----
    Microsoft has funded 13 studies over the past year comparing Linux with its own products. Guess what: All of them come out in favor of Microsoft.
    Por acaso... (Pontos:4, Interessante)
    por taf-7arte em 07-09-04 17:38 GMT (#11)
    (Utilizador Info) http://taf.net/opiniao/
    ... há dias resolvi experimentar o Altavista para fazer uma pesquisa e encontrei muita coisa que não aparecia no Google.

    what if... (Pontos:2)
    por [Cliff] em 07-09-04 17:44 GMT (#12)
    (Utilizador Info) http://www.yimports.com
    ao invés de ir meter a mão no código, deixar tudo como está e criar uma layer anterior à já existente onde se podem usar novamente os 2^32?
    Cada um desses inteiros aponta para um bloco 2^32 sendo que o 1º aponta para o bloco já existente.
    Dessa forma, talvez tudo dependa mais de networking que própriamente de código e revisões etc., pois esta nova layer server +/- como director para o resto.

    De qualquer das formas, parado não está, fazendo uma busca por "find exec site:scaletrix.com" apareceu-me um post útil aqui há dias que o Leitão partilhou no blog dele. Idem para outros blogs que acabei de experimentar.

    ---
    MS Windows, há 10 anos que a taskbar no topo do ecrã gera um bug.
    Naa (Pontos:3, Informativo)
    por CrLf em 07-09-04 18:10 GMT (#13)
    (Utilizador Info) http://crodrigues.webhop.net
    Não acredito muito nesta teoria da conspiração. Por um lado porque era preciso ser muito tapado para usar um inteiro de 32bits como ID numa altura em que todas as previsões para o crescimento da web eram exponenciais. Por outro lado se realmente o limite fosse o ID, ainda poderiam indexar mais 9.767.522 páginas.

    Cá para mim o que se passa é o seguinte: muitas páginas aparecem e muitas morrem, e muito do lixo que se acumulava tem vindo a ser eliminado do motor.

    -- Carlos Rodrigues
    Re:Naa (Pontos:1)
    por tool em 07-09-04 21:11 GMT (#15)
    (Utilizador Info)
    Também não percebo a lógica. Então o google não indexa novas páginas? Se for como percebi não tem lógica nenhuma. Basta criar um site que, se tiver visitas, passa a figurar lá. Ou então não percebi mesmo...
    Re:Naa (Pontos:2)
    por Kmos em 07-09-04 21:34 GMT (#16)
    (Utilizador Info) http://Kmos.TondelaOnline.com
    O Google também não adivinha, mas é inteligente, porque vai buscar os links a páginas adicionadas (http://www.google.pt/intl/pt-PT/add_url.html).

    I'm a Lost Soul in this Lost World...
    Re:Naa (Pontos:1)
    por mpires em 07-09-04 21:45 GMT (#17)
    (Utilizador Info)
    Por um lado porque era preciso ser muito tapado para usar um inteiro de 32bits como ID numa altura em que todas as previsões para o crescimento da web eram exponenciais.
    À partida é preciso ser tapado, mas talvez seja daí (em parte) que venha o seu poder de indexação e velocidade de procura. Como já referiram, um maior ID determinava maiores tempos.

    Mas acredito que o facto da internet ser volátil em informação determine essa estagnação.


    Sleep on , Dream on
    Re:Naa (Pontos:2)
    por CrLf em 07-09-04 23:46 GMT (#19)
    (Utilizador Info) http://crodrigues.webhop.net
    Não acho que fossem usar ints em vez de long longs só por causa da eficiência... Se há coisa que não é um gargalo no google é isso.

    -- Carlos Rodrigues
    Dmoz (Pontos:2)
    por Endymion em 07-09-04 22:00 GMT (#18)
    (Utilizador Info)
    Sempre existe o velhinho dmoz.org para os mais esquecidos...
    Re:Dmoz (Pontos:2)
    por ^magico^ em 08-09-04 9:26 GMT (#26)
    (Utilizador Info) http://fsilva.online.pt/
    o dmoz é um directório, que por sinal também é usado pelo Google. A diferença entre um directorio e um motor de busca é patente no facto em que num directorio os URLs são adicionados manualmente e organizados por pessoas, enquanto que num motor de busca a adição de novos sites ao index é completamente automático desde que o crawler consiga chegar a esse site.

    Este comentário foi publicado ao abrigo de leis internacionais "How to handle a Troll".
    Super-Ultra Off-Topic (Pontos:1)
    por Mulder3 em 08-09-04 0:24 GMT (#20)
    (Utilizador Info)
    Não é já altura de tirar o logo do Gildot com o "patenteado"?

    Microsoft Windows: A 32bit extension and graphical shell to a 16bit patch to an 8bit operating system originally coded for a 4bit microprocessor
    Re:Super-Ultra Off-Topic (Pontos:2)
    por joaobranco em 08-09-04 2:20 GMT (#23)
    (Utilizador Info)
    Porquê, a União Europeia decidiu não implementar patentes de software? Não é o que me parece...

    Cumps, JB

    .. acusaram-O de pirataria, por ter duplicado uma cesta de pão e cinco peixes, e disseram: crucifiquem-No .. (Biblia do Século XXI)

    mid off-topic: ficheiro zip (Pontos:2)
    por pcardoso em 08-09-04 13:06 GMT (#27)
    (Utilizador Info) http://insomni.org
    Alguém me pode dizer se o gmail tb lhes anda a recusar mails com anexos .zip?

    Enviei um mail para mim próprio (de uma outra conta para o gmail) com a src de um trabalho que andei a fazer. Quando envio o ficheiro como .zip é retornado. Se alterar o nome ao mesmíssimo ficheiro (para .rar ou para .zip.2, por exemplo) o mail chega lá sem problemas.

    Será que já andam a controlar q se use o gmail como um sistema de backup artesanal? Será o conteúdo do ficheiro zip?

    Estranho...

    I live the way I type; fast, with a lot of mistakes.
    Re:mid off-topic: ficheiro zip (Pontos:1)
    por manhas em 08-09-04 15:02 GMT (#29)
    (Utilizador Info)
    .zip e .rar estão bloqueados, provavelmente bem como outros formatos de compactação. talvez "passe" se fôr auto-descompactável.
    Re:mid off-topic: ficheiro zip (Pontos:2)
    por Kmos em 08-09-04 19:15 GMT (#32)
    (Utilizador Info) http://Kmos.TondelaOnline.com
    Enviei para lá um ficheiros .rar e ele colocou em "noname" o anexo.. deve ser mesmo isso! ;-) mas não os rejeita como foi dito mais acima.. às vezes também vão para à pasta "Spam", depois é só mover pra "Inbox".

    I'm a Lost Soul in this Lost World...
    Re:mid off-topic: ficheiro zip (Pontos:0)
    por tonidosimpostos em 08-09-04 20:07 GMT (#34)
    (Utilizador Info)
    Se eles controlam o teu email para muita coisa, achas que vao controlar isso ? Onde foste buscar tal ideia estapafurdia ? ;)

    Desde já se agradece ao(s) idiota(s) que modera(m) para baixo todos os comentarios !
    Se está a morrer ... (Pontos:2)
    por joao em 08-09-04 14:33 GMT (#28)
    (Utilizador Info) http://www.nonio.com
    Se está a morrer como é que pode ser um perigoso monopólio?

    ----
    joao
    nonio.com - ciência, tecnologia e cultura
    Re:Se está a morrer ... (Pontos:2)
    por ^magico^ em 08-09-04 15:32 GMT (#30)
    (Utilizador Info) http://fsilva.online.pt/
    No artigo não se refiro a palavra "perigoso". E a questão tem a ver com o facto de que o "possivel monopólio" criado à volta do Google não será prejudicial quando (ou se) este começar a morrer?!

    Este comentário foi publicado ao abrigo de leis internacionais "How to handle a Troll".
    Re:Se está a morrer ... (Pontos:2)
    por joao em 08-09-04 16:36 GMT (#31)
    (Utilizador Info) http://www.nonio.com
    Se ele começar a morrer, a concorrência ganha quota de mercado e o Google deixa de ser um monopólio.

    ----
    joao
    nonio.com - ciência, tecnologia e cultura
    Dica para alternativas... (Pontos:0)
    por tonidosimpostos em 08-09-04 20:05 GMT (#33)
    (Utilizador Info)
    Como normalmente a malta esta habituada e viciada nas coisas (e depois criticam aqueles que so sabem usar Windows!) e nao sabe procurar alternativas (mas no entanto critica aqueles que nao querem usar alternativas), aqui vai a sugestao do www.searchlores.org (sim, nao me apetece usar o href! queriam a mama toda nao ?).

    Esse site é de um dos grandes "genios" do Reverse Engineering, que se fartou daquilo e decidiu investir nessa área. É uma verdadeira mina e pode ensinar-vos alguns truques para uma pesquisa decente, e menos dependencia da suposta fiabilidade do google.
    Claro que se espera que voces como bons zealotas FLOSS (nao é OSS ne ? é FLOSS!), tenham abertura para perderem tempo a lerem aquilo e deixarem de pensar que o google é que é !

    Desde já se agradece ao(s) idiota(s) que modera(m) para baixo todos os comentarios !

    Re:Dica para alternativas... (Pontos:1)
    por Perky_Goth em 09-09-04 0:28 GMT (#38)
    (Utilizador Info) http://www.fe.up.pt/freefeup
    AllTheWeb
    Taoma (acho eu)
    estes li à uns tempos, mas só tenho usado google...
    -----
    Microsoft has funded 13 studies over the past year comparing Linux with its own products. Guess what: All of them come out in favor of Microsoft.
    Nota-se, lol... (Pontos:2)
    por Kmos em 08-09-04 21:02 GMT (#36)
    (Utilizador Info) http://Kmos.TondelaOnline.com
    http://www.google.pt/search?hl=pt-PT&ie=UTF-8&q=X11+6.8.0&btnG=Pesquisa+Google&meta=

    Nota-se que tá a morrer (NOT) :) Ao contrário do que diz o google watch, parece que faz cache, segundo eles já não há id's pra indexar mais e fazer cache's... parece ser mais um milagre de fátima, ou será mais um Google miracle? =)

    I'm a Lost Soul in this Lost World...

     

     

    [ Topo | FAQ | Editores | Contacto ]