gildot

Topo
Sobre
FAQ
Tópicos
Autores
Preferências
Artigos
Sondagens
Propor artigo


8/3
gildicas
9/30
jobs
10/9
perguntas
10/25
press

 
Eric Raymond code..
Contribuído por mvalente em 20-09-03 19:50
do departamento diff--u
News Drune escreve "Eric Raymond lança uma ferramenta que encontra segmentos comuns no código fonte. Com o Comparator é possível comparar o código e descobrir código igual ou semelhante. Num Athlon de 1.8 Ghz, esta ferramenta, consegue analisar nada mais nada menos que 55.000 linhas de código por segundo. Eric Raymond recusou, por motivos legais, dizer se criou o Comparator para comprovar que o Linux não possui código da SCO. O download do Comparator pode ser feito em: página "

Nova distro de Linux em .pt em fermentação | XBOX - Patch indesejado impede instalação de Linux  >

 

gildot Login
Login:

Password:

Referências
  • Linux
  • Drune
  • página
  • Mais acerca News
  • Também por mvalente
  • Esta discussão foi arquivada. Não se pode acrescentar nenhum comentário.
    So falta mesmo........ (Pontos:3, Interessante)
    por humpback em 20-09-03 23:57 GMT (#1)
    (Utilizador Info) http://www.felisberto.net
    Deitar a unha á source do Windows e outro software da Microsoft :)


    Gustavo Felisberto
    72ef1d7183eb2ea89420b94c0cf3e1f1
    apt-get install anarchism

    Isto é uma piada? (Pontos:5, Interessante)
    por sentriun em 21-09-03 15:07 GMT (#2)
    (Utilizador Info)
    Um detector de copy pastes? :) Só pode ser uma piada...
    "comparator does not attempt to do semantic analysis and catch relatively trivial changes like renaming of variables, etc."
    pois.... fiz um pequeno teste:
    $ cat src1/test.c
    int xpto(int n)
    {
    int abc = n + 10;
    return abc;
    }

    $ cat src2/test.c
    int xpto(int x)
    {
    int abc = x + 10;
    return abc;
    }

    $ comparator src1 src2
    #SCF-B 2.0
    Filtering: language
    Hash-Method: RXOR
    Matches: 0
    Merge-Program: comparator 2.1
    Normalization: line-oriented
    Shred-Size: 3
    %%
    src2: matches=0, matchlines=0, totallines=6
    src1: matches=0, matchlines=0, totallines=6
    %%

    resultado confirma-se: nao encontra uma simples troca de variaveis.
    mas 55mil linhas/seg para um detector de copy pastes nao esta mal... é pena ser um bocado inutil. :)

    Estou a ser um bocado ironico porque estou por dentro de software desta natureza e ja existe a funcionar (nao é open source, este é.. ok ok), software que encontra codigo copiado com trocas de variaveis, de funcoes, de linhas, ordem de argumentos e coisas do genero... este 'comparator' é simplesmente anedotico e infantil... Vindo de quem vem esperava um pouco mais.
    Mas para detector de copy pastes... esta giro. ;)

    ps: alguem quer gravar um ficheiro com os 'end of line' à lá unix e outro igual à lá windows pa ver se ele detecta? ;)))
    eu poupo-vos trabalho.. nao detecta. :)
    Re:Isto é uma piada? (Pontos:2, Esclarecedor)
    por CrLf em 21-09-03 15:21 GMT (#3)
    (Utilizador Info) http://crodrigues.webhop.net
    Podias ter transcrito o resto do parágrafo:

    "This is because comparator is designed not as a tool to detect plagiarism of ideas (the subject of patent law), but as a tool to detect copying of the expression of ideas (the subject of copyright law)."

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:1)
    por taf-7arte em 21-09-03 15:28 GMT (#5)
    (Utilizador Info) http://taf.net

    "Podias ter transcrito o resto do parágrafo:"

    Por amor de Deus! Isso muda alguma coisa ao que ele escreveu? Se mudares o nome de uma variável não violas o copyright?

    Se eu escrever um conto, basta-te mudarares o nome dos personagens e publicar tudo o resto igual para que não seja considerado plágio?

    Re:Isto é uma piada? (Pontos:2, Esclarecedor)
    por CrLf em 21-09-03 15:32 GMT (#6)
    (Utilizador Info) http://crodrigues.webhop.net
    Jovem, pára um bocado para pensar... isto está relacionado com o caso SCO onde eles afirmam que foi copiado código sem nenhuma alteração. O comparator permite comparar uma tree com outra em que só se conhecem as hashes. Isto é claramente um desafio à SCO. Eles não podem alegar que não podem mostrar a source do Unixware, basta publicarem as hashes.

    Para quê essa conversa de que isto não está ao nível de outro software destinado a detectar plágios quando não é esse o objectivo!?

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:1)
    por taf-7arte em 21-09-03 15:37 GMT (#7)
    (Utilizador Info) http://taf.net

    "Eles não podem alegar que não podem mostrar a source do Unixware, basta publicarem as hashes."

    Que os tipos da SCO são uns palhaços, isso parece não haver dúvidas.
    Mas esta ideia de mostrar as hashes?! De quê? De todos os bocadinhos possíveis de código?!

    Re:Isto é uma piada? (Pontos:2, Esclarecedor)
    por CrLf em 21-09-03 15:48 GMT (#8)
    (Utilizador Info) http://crodrigues.webhop.net
    "The program is capable of generating a hash list for a source code tree which can be used in place of the tree itself. Thus, it is possible to do comparisons with source trees without having access to the actual source code, providing someone who has access is willing to ship you a hash list. These hash lists are called ‘SCF files’ and made with the extension .scf; the name stands for Source Comparison Format."

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:1)
    por taf-7arte em 21-09-03 15:54 GMT (#9)
    (Utilizador Info) http://taf.net

    "The program is capable of generating a hash list for a source code tree"

    De que servem as hashes se variações absolutamente triviais, sem qualquer efeito no código, fazem com que as hashes mudem?
    Estás mesmo convencido de que este método é fiável?

    Re:Isto é uma piada? (Pontos:2)
    por CrLf em 21-09-03 17:11 GMT (#12)
    (Utilizador Info) http://crodrigues.webhop.net
    Estás mesmo convencido de que este método é fiável?

    Repetindo o que já disse atrás. É claro que não é fiável no caso geral, mas é fiável no caso SCO vs. Linux em que eles alegam que o código foi copiado ipsis verbis. Neste contexto apenas é necessário comparar o código directamente. Adicionalmente não é por acaso que o comparator permite ignorar diferenças de "whitespace" e posições das chavetas em código C... é que qualquer código que entre no kernel do Linux tem pelo menos de obedecer à regra das tabs, isto é, qualquer código copiado directamente para o linux teria pelo menos essa diferença, identação por espaços convertida para identação por tabs.

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:2)
    por CrLf em 21-09-03 19:13 GMT (#21)
    (Utilizador Info) http://crodrigues.webhop.net
    É a SCO que diz que o código foi copiado literalmente com comentários e tudo.

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:2)
    por racme em 22-09-03 0:40 GMT (#29)
    (Utilizador Info) vendetta.guildsoftware.com
    É a SCO que diz que o código foi copiado literalmente com comentários e tudo.

    ele ate da a possibilidade de remover os comentarios dos criterios de pesquisa

    ta claro que esta ferramenta foi elabora para situacoes equivalentes a da SCO, infraccao de copyright



    Those who do not understand Unix are condemned to reinvent it, poorly.
    -- Henry Spencer
    Re:Isto é uma piada? (Pontos:2)
    por CrLf em 21-09-03 19:15 GMT (#22)
    (Utilizador Info) http://crodrigues.webhop.net
    Bem, podes criticar o ESR, agora essa comparação é mesmo imbecil. No entanto é consistente com as opiniões que tens vindo a demonstrar.

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:0, Gozão)
    por taf-7arte em 21-09-03 19:15 GMT (#23)
    (Utilizador Info) http://taf.net

    "Entre os palhacos da SCO, e o palhaco do Eric Raymond va' o diabo e escolha."

    Eu não não tenho seguido as actividades dele, mas por esta amostra do programa tenho que concordar contigo.
    Um pouco de má-língua: o site pessoal dele também é estilo "tia": "ai que chatice, sou uma figura pública"...

    Re:Isto é uma piada? (Pontos:1, Lança-chamas)
    por leitao em 21-09-03 22:57 GMT (#25)
    (Utilizador Info) http://scaletrix.com/nuno/blog/blogger.html
    Bom -- embora nao concorde em nada com o Richard Stallman, acho honestamente que ele e' um tipo admiravel. Nao so' criou algo, como segue a sua filosofia ate' 'as ultimas consequencias.

    O Eric Stallman no entanto, e' um idiota pomposo que diz as maiores balelas... basta ver alguns dos seguintes artigos:

    Este tipo nao passa de um embaraco -- aposto que muita gente na comunidade OSS/Linux gostariam que ele se calasse.


    "I triple guarantee you, there are no American soldiers in Baghdad.", Mohammed Saeed al-Sahaf, Iraqi Minister of Information

    Re:Isto é uma piada? (Pontos:2)
    por Pink em 22-09-03 12:25 GMT (#36)
    (Utilizador Info) http://www.PinksWorld.8m.com
    "Eric Stallman" ??? :-)

    p.s.: Ok, eu entendi... ;-)

    []s,
    Pink@Manaus.Amazon.Brazil.America.Earth.SolarSystem.OrionArm.MilkyWay.Universe

    Re:Isto é uma piada? (Pontos:3, Engraçado)
    por bgravato em 21-09-03 23:16 GMT (#26)
    (Utilizador Info)
    É sempre interessante ver comentários destes por parte de quem diz coisas como:

    Bom, de todos estes comentarios resume-se que:

            * como e' costume e' so' criticas 'as merdas que nao interessam um corno,
            * quando nao se critica o corno, critica-se o cu,
            * quando nao se critica o cu, critica-se o vizinho...

    E' um orgulho...


    E que depois ainda diz que admira alguem que segue a sua filosofia ate' 'as ultimas consequencias


    Re:Isto é uma piada? (Pontos:1)
    por taf-7arte em 21-09-03 17:11 GMT (#11)
    (Utilizador Info) http://taf.net

    " Para quê essa conversa de que isto não está ao nível de outro software destinado a detectar plágios quando não é esse o objectivo!?"

    Esqueci-me há pouco de te explicar que "plágio" significa "violação de copyright".

    Re:Isto é uma piada? (Pontos:2)
    por CrLf em 21-09-03 17:15 GMT (#13)
    (Utilizador Info) http://crodrigues.webhop.net
    Eu sei bem o que é um plágio. Não sei é em que é a tua clarificação do que é um plágio vem afectar a minha premissa de que o ESR não fez o comparator para o caso geral.

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:1)
    por taf-7arte em 21-09-03 17:20 GMT (#14)
    (Utilizador Info) http://taf.net

    "Eu sei bem o que é um plágio."

    Meu caro, lê pf. as mensagens que escreveste acima e verifica se não entraste em contradição.
    A minha avançada idade de 37 anos já não me permite ter paciência para estas tuas teimosias de afirmação juvenil.. ;-)
    Um abraço!

    Re:Isto é uma piada? (Pontos:2)
    por CrLf em 21-09-03 17:31 GMT (#16)
    (Utilizador Info) http://crodrigues.webhop.net
    "plágio - s.m., cópia fraudulenta do trabalho de outrem que um autor apresenta como sua."

    A minha jovem idade de 23 anos ainda não me permite ter paciência para aturar estas tuas teimosias de velho. ;-)

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:1)
    por taf-7arte em 21-09-03 15:24 GMT (#4)
    (Utilizador Info) http://taf.net

    "este 'comparator' é simplesmente anedotico e infantil..."

    Se calhar então o objectivo era mesmo provar que não havia código "comprometedor" no Linux... ;-) :-) :-)

    Re:Isto é uma piada? (Pontos:2)
    por racme em 21-09-03 17:08 GMT (#10)
    (Utilizador Info) vendetta.guildsoftware.com
    Um detector de copy pastes? :) Só pode ser uma piada...
    resultado confirma-se: nao encontra uma simples troca de variaveis.


    comparator

    comparator works by first chopping the specified trees into overlapping shreds (by default 3 lines long) and computing a hash of each shred.



    LIMITATIONS

    comparator does not attempt to do semantic analysis and catch relatively trivial changes like renaming of variables, etc. This is because comparator is designed not as a tool to detect plagiarism of ideas (the subject of patent law), but as a tool to detect copying of the expression of ideas (the subject of copyright law).






    Those who do not understand Unix are condemned to reinvent it, poorly.
    -- Henry Spencer
    Re:Isto é uma piada? (Pontos:2)
    por racme em 21-09-03 17:21 GMT (#15)
    (Utilizador Info) vendetta.guildsoftware.com
    Convem relembrar que o caso SCO e' de alegada infracao de copyright

    - SCO's Evidence: This Smoking Gun Fizzles Out

    Executive summary: There are three pieces of good news for SCO about the evidence they revealed on 18 August 2003. One is that the evidence does support a claim of code-copying; the second is that GPL is not in this case a usable defense; and the third is that BSD probably doesn't save us either. But the rest of the news is all bad for SCO: most of the supposedly infringing code was (a) released as open source by SCO/Caldera in 2002, (b) didn't come through IBM or Sequent, (c) isn't present in 90% of all running Linux distributions, and (d) was removed from Linux 2.5 in July 2003 on grounds of being too ugly to live. If this is representative of the quality of SCO's evidence, their case is dead on arrival.

    - Analysis of Linux Code that SCO Alleges Is In Violation Of Their Copyright and Trade Secrets.





    Those who do not understand Unix are condemned to reinvent it, poorly.
    -- Henry Spencer
    Re:Isto é uma piada? (Pontos:2, Interessante)
    por sentriun em 21-09-03 18:07 GMT (#17)
    (Utilizador Info)
    Desculpem responder ao meu proprio post, mas assim evito responder a cada um individualmente.
    Eu nao pretendo intrometer-me nas vossas discussoes politicas e ideologicas MAS... Aquele programa nao compara 'source code', compara ficheiros binarios ('n' a 'n' linhas). Qualquer modificaçao na codificaçao usada para guardar os ficheiros (unicode, iso-whatever,windows/nix/mac,etc) impossibilita qualquer comparaçao. Nao cumpre claramente o objectivo e nao esperava que o senhor em causa se desse ao trabalho de fazer algo desta natureza... Mas esta é apenas a minha opiniao tecnica. Voces podem continuar a discutir politica. :)

    ps1: eu li a documentaçao antes de fazer o post, nao precisam de fazer mais copy pastes de lá. Continua a ser anedotico.
    ps2: a politica e ideologia é importante e é divertido discuti-las, mas nem sempre.
    ps3: nao me parece que a SCO se assuste com 'aquilo'.
    ps4: pensei 3 ou 4 vezes antes de responder, afinal nao vou acrescentar nada de novo. Nunca foi minha intençao entrar em discussoes do tipo "a minha é maior que a tua", apenas mostrar a minha indignaçao pelas ferramentas criadas em meia duzia de dias, que vao ser expandidas durante uns anos assumindo que sao o state of the art, quando simplesmente nao valem nada.
    Re:Isto é uma piada? (Pontos:1)
    por taf-7arte em 21-09-03 18:59 GMT (#18)
    (Utilizador Info) http://taf.net

    "Eu nao pretendo intrometer-me nas vossas discussoes politicas e ideologicas"
    (...)
    "Qualquer modificaçao na codificaçao usada para guardar os ficheiros (unicode, iso-whatever,windows/nix/mac,etc) impossibilita qualquer comparaçao."


    Concordo genericamente com o que dizes no teu post.
    Queria contudo esclarecer (embora deva ser evidente para quem ler os meus comentários anteriores) que não recorri a quaisquer argumentos "políticos ou ideológicos". Presumo também que não te referisses a mim, mas se não foi assim é porque se calhar me tinha explicado mal e fica aqui o esclarecimento.

    Quanto à questão da codificação, isso só por si não constituiria um problema desde que se assegurasse à partida que ela era a mesma, o que não seria difícil. O mal é tudo o resto que implicaria analisar decentemente a source propriamente dita para detectar violações de copyright, o que pelos vistos o programa não faz a não ser de uma maneira absolutamente primária.

    Re:Isto é uma piada? (Pontos:2)
    por CrLf em 21-09-03 19:21 GMT (#24)
    (Utilizador Info) http://crodrigues.webhop.net
    Não sei onde viste discussões ideológicas. Apenas se disse que este programa tem a ver com o caso SCO, não é para ser usado no caso geral. A ideia de que possa ter sido feito para isso é que é absolutamente ridícula (pelo menos no seu estado actual, ele pode estar a pensar em fazer algo a sério, não leio mentes para saber), logo é ridiculo criticar a sua aplicação em qualquer outro caso que não este.

    apenas mostrar a minha indignaçao pelas ferramentas criadas em meia duzia de dias, que vao ser expandidas durante uns anos assumindo que sao o state of the art, quando simplesmente nao valem nada.

    Esta tua afirmação corrobora aquilo que disse acima.

    -- Carlos Rodrigues
    Re:Isto é uma piada? (Pontos:3, Esclarecedor)
    por racme em 22-09-03 0:25 GMT (#27)
    (Utilizador Info) vendetta.guildsoftware.com
    1- este teu post nao tem razao nenhuma de ser.
    2- o teu ponto de vista esta errado logo de inicio, como ficou largamente demostrado
    3- se querias mostrar "estou por dentro de software desta natureza e ja existe a funcionar" acho que escolheste a pior forma de o fazer.
    4- continuo sem perceber o q raio queres dizer com "Voces podem continuar a discutir politica. :) "
    alem de estares a ser sarcastico tas a disparar em todas as direcoes
    5- o Eric raymond nao e' um ze da esquina
    6- o comparator faz aquilo para que foi criado e isso chega perfeitamente
    7- pior que alguem que nao ve e' alguem que nao quer ver.



    Those who do not understand Unix are condemned to reinvent it, poorly.
    -- Henry Spencer
    Re:Isto é uma piada? (Pontos:2)
    por racme em 22-09-03 0:37 GMT (#28)
    (Utilizador Info) vendetta.guildsoftware.com
    Aquele programa nao compara 'source code', compara ficheiros binarios ('n' a 'n' linhas).
    (...)
    ps1: eu li a documentaçao antes de fazer o post, nao precisam de fazer mais copy pastes de lá. Continua a ser anedotico.

    comparator and filterator are a pair of tools for rapidly finding common code segments in large source trees. They can be useful as tools for detecting copyright infringement.

    ps4: pensei 3 ou 4 vezes antes de responder, afinal nao vou acrescentar nada de novo. Nunca foi minha intençao entrar em discussoes do tipo "a minha é maior que a tua", apenas mostrar a minha indignaçao pelas ferramentas criadas em meia duzia de dias, que vao ser expandidas durante uns anos assumindo que sao o state of the art, quando simplesmente nao valem nada.

    tambem tu tens a possibilidade de pegar na ferramenta e torna-la em state of the art, o "senhor" so te agradece.
    Source tarball comparator-2.1.tar.gz



    Those who do not understand Unix are condemned to reinvent it, poorly.
    -- Henry Spencer
    Mas se a SCO não quer divulgar a source... (Pontos:1)
    por taf-7arte em 22-09-03 0:57 GMT (#30)
    (Utilizador Info) http://taf.net
    Ou há algo que eu não estou a perceber por causa do adiantado da hora e por favor expliquem-me, ou então isto não tem pés nem cabeça...

    Se o problema é a SCO não querer mostrar a source, ao fornecer as hashes para comparar com o Linux permitiria identificar imediatamente qual o código fonte supostamente copiado. Ou seja, ficava-se a conhecer imediatamente a source no lado do Linux!
    Que sentido é que isto faz?

    Re:Mas se a SCO não quer divulgar a source... (Pontos:2)
    por CrLf em 22-09-03 1:43 GMT (#31)
    (Utilizador Info) http://crodrigues.webhop.net
    A SCO não tem obrigação de mostrar o restante da source, mas tem a obrigação de mostrar do que raio falam, se de facto esse "raio" existe, em vez de andar por aí a disparar FUD em todas as direcções. As hashes cumpririam ambos os propósitos. Já agora, essa tua premissa de que assim se ficava a conhecer a source do código copiado não faz sentido, pois essa source já está à vista (se de facto existe), apenas não se sabe qual é. "The cat is out of the bag".

    -- Carlos Rodrigues
    Re:Mas se a SCO não quer divulgar a source... (Pontos:1)
    por taf-7arte em 22-09-03 7:55 GMT (#32)
    (Utilizador Info) http://taf.net

    "mas tem a obrigação de mostrar do que raio falam,"

    Claro que tem, mas não é esse o ponto.
    Põe-te na posição actual (idiota) da SCO:

    1) há código actual no linux que viola copyright;
    2) nós não queremos mostrar que código é esse, porque apesar de estar à vista no Linux ninguém sabe qual é e portanto não faz mal.

    E a seguir vais propor à SCO:
    Aqui têm um programa que me vai permitir descobrir qual é a source que vocês não querem mostrar?!

    É claro que a SCO não vai aceitar e por isso o programa (com hashes ou sem elas) não serve para nada!
    Se eles quisessem poderiam apenas mostrar os bocados "violadores" do código, mas não é isso que eles querem.

    Re:Mas se a SCO não quer divulgar a source... (Pontos:2)
    por CrLf em 22-09-03 11:31 GMT (#33)
    (Utilizador Info) http://crodrigues.webhop.net
    Eles já mostraram alguns pedaços que supostamente foram copiados, juntamente com a source circundante na fonte symbol... se o "encoding" conseguido mudando a fonte eles acham suficiente então não teriam problemas com as hashes.

    -- Carlos Rodrigues
    Re:Mas se a SCO não quer divulgar a source... (Pontos:2)
    por CrLf em 22-09-03 11:40 GMT (#34)
    (Utilizador Info) http://crodrigues.webhop.net
    Quero acrescentar que já entendi onde queres chegar. No entanto a única razão aceitável que a SCO pode usar para não mostrar os pedaços de código copiados é o facto de não querer mostrar mais source nenhuma. Como o contexto aqui é muito importante, este ser constituido por hashes de código real (que eles poderiam apresentar a peritos do tribunal) seria melhor que nada, principalmente se uma entidade terceira validasse as hashes.

    Mas aparte a validade que se atribua a este esquema o factor provocação não deixa de ser importante também. Se não fosse assim nem estariamos aqui a falar disto.

    -- Carlos Rodrigues
    Re:Mas se a SCO não quer divulgar a source... (Pontos:3, Esclarecedor)
    por biduxe em 22-09-03 11:41 GMT (#35)
    (Utilizador Info)
    2) nós não queremos mostrar que código é esse, porque apesar de estar à vista no Linux ninguém sabe qual é e portanto não faz mal.

    Esta não é a posição oficial da SCO

    No entanto concordo de uma forma geral com o teu post... Se a SCO não diz qualé o pedaço de código incriminado, podem dizer que o Linux violou o copyright o lá o que é, e lançar maluquices tipo o Linux é nosso.

    Se o SCO disser qual é o código, este é apagado e reescrito em três tempos, quem quiser actualiza a sua source tree e a SCO fica a chuchar o dedo.


    ------ EOFim.
    Eric Raymond code.. (Pontos:2)
    por blacksheep em 23-09-03 0:40 GMT (#37)
    (Utilizador Info)
    O título correcto seria: Eric Raymond codes... :)

     

     

    [ Topo | Sugerir artigo | Artigos anteriores | Sondagens passadas | FAQ | Editores | Preferências | Contacto ]