.    

Google cenzuruje torrenty, počet nodů Yacy roste

xChaos 30. ledna 2011 [6537 znaků] [Linux a internet]
★★★ [ + ] 6 [10x] [ - ] [informativní[x] cool[x] trapné[x]]
Zobrazení 3779 ← RSS 595 Facebook 10 Twitter 420 Google 55 NYX 20
Komentářů 12

Tzv. #Googlewars začaly: Zdá se, že argumentace v procesu s #Piratebay, nesoucí se víceméně v duchu "ale vždyť #Google dělá to samé" měla nežádoucí vedlejší efekt: největší světový vyhledávač v honbě za penězi pozapomněl na své původní heslo "don't be evil" a začal s cenzurou vyhledávání torrentů. Možná i v důsledku této informace začal rychle narůstat počet aktivních nodů decentralizovaného vyhledávače #Yacy. #internet #peer2peer #freedom #freespeech #bittorrent
Google evidentně podlehla tlaku mocných právníků copyrightových magnátů a začala částečně cenzurovat odkazy na torrenty - alespoň v rovině cenzury automatické dokončování klíčových slov při vyhledávání (tzv. "našeptávače").

  • Google Starts Censoring BitTorrent, RapidShare and More [torrentfreak.com]
  • Google Censors "Piracy Terms" From Instant Search [yro.slashdot.org]
  • Google bojuje proti pirátství, filtruje výpis našeptávače [www.zive.cz]
  • Google Engages in Subtle Form of Censorship [mashable.com]
  • Hned pro začátek je třeba přiznat, že titulek (nejen mého) článku je poněkud zavádějící - protože Google začala cenzurovat pouze svůj automatický našeptávač (typická Web 2.0 feature) - nikoliv výsledky vyhledávání. (Ty jsou konkrétně u těch torrentů beztak čím dál tím více zkreslené díky dobrému google ratingu různých spammerů - kteří nejčastěji předstírají, že jsou sami vyhledávači torrentů... takže nakonec když hledáte cokoliv rozumného, tak stejně většinou z Googlu jdete neomylně rovnou na Piratebay...). Ale to neznamená, že je možné cenzuru prohledávač zlehčovat - protože "ďábelský" Google je vám stejně pořád připraven našeptat v celé řadě činností, které jsou srovnatelně (nebo více) nebezpečné, než sdílení filmů pomocí bittorentu.

  • Google won't autocomplete "bittorrent" but will autocomplete "how to kidnap a child" [www.boingboing.net]
  • Toto je podle mě dobrý argument, proč jednoznačně podpořit výrok: „Na první pohled se jedná o mírnou cenzuru, která působí triviálně. I přesto ale ukazuje ochotu Googlu ke změně způsobu vyhledávání, aby uspokojil určité obchodní skupiny - v tomto případě hráče v zábavním průmyslu.“ Podle serveru Mashable.com je tento krok navíc překvapivý i vzhledem k tomu, že Google už předtím ohrožoval vlastní obchodní zájmy snahou vzdorovat požadavkům na cenzuru v Číně - a zavázal se, že nebude cenzurovat ani antisemitská témata.

    Jak jsem už podrobně vysvětloval dříve - existují i jiné, než čistě pirátské aplikace peer2peer sítí, včetně torrentu. Určité procento torrentů šíří zcela legitimní obsah (např. oficiálně zveřejněné dokumenty britské vlády, linuxové distribuce, apod. - ale může jít i o rozsáhlé archivy staršího obsahu, který se již nachází v public domain)

    A odsud je už jen krůček k druhému hlavnímu tématu tohoto článku, o kterém se už žádný z výše uvedených informačních kanálů nezmiňuje: již několik měsíců se snažím udržet v provozu vlastní node decentralizovaného search enginu Yacy - na adrese teckacz.arachne.cz:8080, viz ikonka na navigační liště vpravo - což je, jak mi jistě potvrdí ti, kdo se o to pokusili také, nadlidský úkol. Momentálně dostupná betaverze prohledávače Yacy je totiž nestabilní, padavé a paměťově náročné monstrum, které vyžaduje téměř každodenní dohled. Podařilo se mi sice najít jakýsi kompromis mezi rychlostí prohledávání webu (co nejmenší), množstvím přidělené paměti (300 MB na prakticky vyhrazeném systému s 512 MB RAM) a nastavením min. velikostí volné paměti před tím, než se vyhledávání zasekne - ale stejně je třeba nainstalovaný node neustále pravidelně aktualizovat, hlídat jestli nespadl a občas promazat z disku nahromaděná data - nechápu, proč je tohle nutné, ale bohužel je.

    A právě díky snaze udrže svůj node "naživu" po několik měsíců, jsem si všiml zajímavého jevu: zatímco po celou dobu se počet aktivních nodů tohoto experimentálního, náročného a padavého systémů pohyboval mezi 50-70ti a počet indexovaných stránek během sledovaného období klesl z 1.2 miliardy pod hranici 1 miliardy - tak po zveřejnění zprávy o hloupém cenzurování našeptávače Googlu vzrostl počet aktivních nodů sítě Yacy na více než 100 a počet indexovaných stránek se vrátil někam k 1 miliardě.

    Osobně jsem přesvědčený, že Yacy je pouze jakýmsi prvním, nepříliš přesvědčivým pokusem na poli decentralizovaného vyhledávání. Vývoj tohoto oboru se dá očekávat jednak proto, že vývojáři programů pro filesharing už údajně pracují na tom, aby jejich software byl schopen pracovat i bez trackerů (centralizovaných supernodů), a zahrnoval i prvky vyhledávání. Byl by to přirozený návrat ke zvyklostem, které mezi uživateli osobních počítačů vládly před nástupem centralizovaných sociálních sítí.

    Ale dovedu si představit - z politických i jiných důvodů - i užitečnost existence na dnešní dobu "syrového", jednoduchého, základního prohledávače, který nebude přímo propojen s dalšími vychytávkami. Např. diskutovaný našeptávač je v podstatě zbytečný - já např. pro přístup ke Google používám rozhraní Goosh.org - které nabízí jakousi "javascriptovou příkazovou řádku". Sice teoreticky by provozovatelé Goosh mohli logovat vyhledávané řetězce - ale na druhou stranu, vůči Googlu samotnému je moje vyhledávání naopak "anonymizované" (podobné dilema ale řeší i každý uživatel sítě Tor). A nemožnost celé "našeptávání" jednoduše vypnout (aspoň já jsem to v administračním rozhraní sítě Yacy dosud nenašel) samozřejmě dále zatěžuje (dosud nedostatečnou, velice poddimenzovanou) distribuovanou infrastrukturu celého systému: v podstatě každá delší prodleva mezi psaním dotazu do okénka vyhledávače takhle vygeneruje nějaký nesmyslný dotaz na spuštění potenciálně složitého distribuovaného výpočtu.

    Nody "jednoduchého decentralizovaného vyhledávače" by samozřejmě bylo vhodné napsat v jazyce C (možná C++), aby nepřiměřeně nezatěžoval hostitelský systém (tak jako java). A celkově by bylo dobré začít nejdřív u odladění základní funkčnosti (prohledávání textu, nebo max. textových stránek s obrázky) - a pak teprve se snažit o implementaci "třešniček na dortu" (prohledávání multimédií, překlady stránek, navigace v reálném čase, apod.). Chybou prohledávače Yacu je, že se snaží nabídnout úplně všechno a hned - a dělá to zatím poměrně nekvalitně a nepoužitelně.


    Sloupcová sazba: pokud je okno prohlížeče dostatečně velké (na monitoru s dostatečným rozlišením), zobrazí se článek ve více sloupcích (w3.org). Testováno v browserech Firefox, Opera a Chrome. Není implementováno v Internet Exploreru. Tato feature může způsobovat problémy ve starších verzích prohlížečů s jádrem Webkit (Google Chrome, Safari, Konqueror). Pokud nevidíte článek celý, zkuste zmenšit okno prohlížeče nebo použít verzi pro tisk. [zpět na začátek sloupcové sazby]
    Pokud se vám článek líbil, zkuste autora podpořit [zobrazit možnosti]
    Sdílet v síti [Identi.ca - musíte být předem přihlášeni] [Twitter] [Facebook] [Jagg.cz]
    Formátovat pro tisk [bez komentářů] [s komentáři]
    Krátká forma URL (adresy) [http://teckacz.cz/1100]
    Všechny články [od autora xChaos] [v rubrice Linux a internet] [nejnovější]

    Hodnocení článku čtenáři [ + ] 6 [10x] [ - ]
    Tip: Pro moderaci článků (kladné nebo záporné hodnocení) je nutné použít browser, který podporuje javascript a cookies.
    Komentáře čtenářů [napsat vlastní]
    Skrýt hodnocené nebo méně


    [] volani.webnode.cz (anonym) 30. ledna 2011 ← komentářů 1019 245 [893x]
    [ + ] 1 [1x] [ - ] [pravdivé[x]]
    → [/-/13647] ← na komentář můžete odpovědět nebo ho sdílet
    Už to zase spadlo :D
    Doufejme že to alespoň trochu odladí ve verzi 1 (současná je 0.99)

    [] volani.webnode.cz (anonym) 30. ledna 2011 ← komentářů 1019 245 [893x]
    [ + ] 1 [1x] [ - ] [informativní[x]]
    → [/-/13648] ← na komentář můžete odpovědět nebo ho sdílet
    http://en.wikiversity.org/wiki/Distributed_P2P_search_engine
    http://en.wikipedia.org/wiki/Distributed_search_engine

    FAROO · YaCy · Wowd · Sciencenet · InfraSearch · Opencola · Alvis

    Koukni na další alternativy YaCy a řekni co by se dalo používat nebo na čem by se dalo stavět..

    [] vbar 30. ledna 2011 ← komentářů 2 ☯☯ 2 [2x]
    [ + ] 1 [1x] [ - ] [informativní[x]]
    → [/-/13649] ← na komentář můžete odpovědět nebo ho sdílet
    Grub ( https://secure.wikimedia.org/wikipedia/en/wiki/Grub_%28search_engine%29 ) už prý je opět volný...

    [] xChaos 30. ledna 2011 ← komentářů 5520 0 [3050x]
    [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
    → [/-/13650] ← na komentář můžete odpovědět nebo ho sdílet
    je pravda, že počet pro mě dostupných nodů Yacy, který se odpoledne pohyboval až přes stovku, klesl na 80 (ale možná je to dané nízkým výkonem mého node ? podle jiných zdrojů jsou běžících nodů stovky - není mi jasný algoritmus, který rozhodne o tom, který node vidí kolik jiných aktivních nodů...).

    jinak dnes vznikl na NYXu klub o distribuovaných search enginech, a odkaz na můj Yacy node je bohužel uveden v záhlaví... takže pochopitelně, dnes to bude padat ještě daleko více, než dosud.

    [] mykhal (anonym) 30. ledna 2011 ← komentářů 1 1 [1x]
    [ + ] 1 [1x] [ - ] [pravdivé[x]]
    → [/-/13651] ← na komentář můžete odpovědět nebo ho sdílet
    ten goosh je zajímavý. ale s tou anonymitou vůči google to není tak úplně žhavé, protože se dotazuje přímo jeho, skrz api :)

    [] xChaos 31. ledna 2011 ← komentářů 5520 0 [3050x]
    [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
    → [/-/13652] ← na komentář můžete odpovědět nebo ho sdílet
    @mykhal tak případná anonymita vůči Googlu je vyvážena ne-anonymitou vůči Gooshi, takže je to každopádně prašť jak uhoď

    ty myslíš, že ten Goosh posílá Googlu i IPčka klientů ?

    [] Tomáš_Mráz 31. ledna 2011 ← komentářů 304 64 [240x]
    [ + ] -1 [1x] [ - ] [nekvalitní[x]]
    → [/-/13655] ← na komentář můžete odpovědět nebo ho sdílet
    Tak než bude distribuované vyhledávání k něčemu použitelné, používejte třeba Duck Duck Go. http://duckduckgo.com

    [] xChaos 31. ledna 2011 ← komentářů 5520 0 [3050x]
    [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
    → [/-/13658] ← na komentář můžete odpovědět nebo ho sdílet
    Tak po reinstalaci mi to žere překvapivě málo CPU, ale pro změnu se mi nedaří to pořádně nastavit (název node, apod.).

    [] xChaos 31. ledna 2011 ← komentářů 5520 0 [3050x]
    [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
    → [/-/13659] ← na komentář můžete odpovědět nebo ho sdílet
    no ok, tak už je to snad i nějak nastavené... tak to zase můžete zkusit shodit.

    [] xChaos 1. února 2011 ← komentářů 5520 0 [3050x]
    [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
    → [/-/13667] ← na komentář můžete odpovědět nebo ho sdílet
    Tak dneska reinstalovaný Yacy prozatím drží a vrací relativně zajímavější výsledky než dříve... ale nevím čím to je, ale počet dostupných nodů mi zase klesl někam k hodnotě 60 a počet dostupných stránek pod 1 miliardu. mám několik teorií... jedna z nich je, že ten program je prostě pořád příliš náročný péči administrátora... a i když po po vlně zájmu v důsledku zpráv o cenzurování výsledků Googlu počet nodů krátkodobě vzrostl, tak bohužel celková nepraktičnost toho programu většinu z těchto zvědavých betatesterů zase odradila.

    Každopádně se zdá, že lokální dotazy mají vliv na DHT transfer i Remote crawling, pokud to někoho zajímá po technické stránce.

    [] xChaos 5. února 2011 ← komentářů 5520 0 [3050x]
    [ + ] 1 [1x] [ - ] [zábavné[x]]
    → [/-/13690] ← na komentář můžete odpovědět nebo ho sdílet
    http://search.slashdot.org/story/11/02/05/0332213/Googles-Search-Copying-Accusation-Called-Silly

    [] xChaos 22. srpna 2011 ← komentářů 5520 0 [3050x]
    [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
    → [/-/15997] ← na komentář můžete odpovědět nebo ho sdílet
    Tak můj Yacy node http://teckacz.arachne.cz:8080 poslední dobou vydrží obvykle běžet i několik dní v kuse...
     

    Počet zobrazených komentářů: 12 [celkový čas potřebný k prohledání databáze a vytvoření stránky: 0.55 sekund]

    Pozor, vložením komentáře souhlasíte s pravidly hry TečkyCZ! [zobrazit pravidla] →
    Ochrana proti spambotům - tři-krát-tři je ... ? (napište číslicí - nemělo by byt potřeba při zapnutém JavaScriptu)
    Sociální síť (přihlaste se předem, 1. řádek<=96 znaků=status, zbytek=odkaz)
    Offtopic resolver (týká se odpověď původního tématu, nebo patří jinam?)
    Přezdívka (povinně) - nepoužívejte speciální znaky, mezery=podtržítka
    E-mail (volitelně) - nebude zobrazen, zobrazí se ikonka z [www.gravatar.com]

    Nelze použít HTML [zobrazit mikrosyntax] →

    Nápověda: ve vlastním zájmu uvádějte u komentářů pouze funkční a dostupnou e-mailovou adresu. Přezdívku, která je jednou spojená s konkrétní e-mailovou adresou, už nyní nelze bez zásahu administrátora serveru spojit s jinou adresou. Uvedením neplatné e-mailové adresy si v budoucnu znemožníte upload ikonky i možnost použít některé další chystané neanonymní funkce vázané na uvedení platné e-mailové adresy.


    TečkaCZ [Nejnovější články] [Nejnovější komentáře] [Zeď vzkazů] [Zeď odkazů] [Začátek článku]

        TečkaCZ
    •  
    • Komentáře →
    • Nástěnky →
    • Debaty →
    • Články →
    • Ročníky →
    • Rubriky →
    • RSS kanály →
    • Vzhled →
    • Ostatní →
    •  
    [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] []
    •  
    .

    [Arachne Labs]

    [SPOJE.NET]

    [Právě dnes | Tech | Ostatní]

    Yacy P2P web search jabber.arachne.cz
    tiskové zprávy a otevřené dopisy přebíráme z nejrůznějších informačních kanálů (i bez výslovného souhlasu autorů)
    licenční práva k použitým obrázkům a grafickým motivům nejsou definována (přebírejte pouze texty bez obrázků)
    texty článků i komentáře bez uvedení copyrightu jsou chráněny GNU Free Documentation License
    založeno na Quzo engine, (G)1999-2002 David Čermák, (G)2002-2012 Michael Polák
    Quzo engine vyvíjejí Arachne Labs, webhosting sponzorují SPOJE.NET
    seznam aktuálních článků je dostupný i ve formátu RSS (XML)
    můžete také sledovat Twitter feed TečkyCZ.
    test XHTML a CSS2 validity