.    

Yacy - P2P search, aneb jak se obejít bez přítele Googla

xChaos 31. srpna 2010 [7908 znaků] [Linux a internet]
★★★★ [ + ] 5 [7x] [ - ]
Zobrazení 4258 ← RSS 492 Facebook 20 Twitter 65 Google 93 NYX 19
Komentářů 15

Použít základní myšlenku programů jako je #bittorent (pro decentralizované sdílení souborů) nebo distribuovaných výpočetních sítí typu Seti@Home (hledání mimozemských civilizací) pro distribuované prohledávání webu se mi už delší dobu jevilo jako jediný realistický způsob, jak trumfnout gigantický #google s jeho milionem serverů. A ukázalo se, že nejsem jediný, kdo takto uvažuje - takže se můžete podívat na předběžné výsledky mého pokusu zapojit se do #Peer2Peer projektu #yacy.
Pryč jsou časy, kdy největším zlem ve světě IT byla firma Microsoft. Jako nová "velká zla" se dnes jeví třeba firmy Apple, Facebook nebo Google. Důvody, proč nedůvěřovat centralizovanému přístupu Applu nebo Facebooku, jsou myslím více než zjevné (více o Facebooku zde) - ale vysvětlit, proč není dobré slepě důvěřovat "hodnému" Googlu, který podporuje open source a vůbec se "hrozně snaží", bude troch složitější. O důvodech, proč nedůvěřuju přehnané centralizaci, kterou Google všemožně prosazuje, jsem psal už dříve. Ale od té doby jsem se dozvěděl i další alarmující skutečnosti - Google např. provozuje asi milion serverů, což je řádově více, než jakýkoliv z jeho konkurentů. A toto už zavání "nebezpečnou tržní silou" a hrozbou vzniku podobného monopolu, jakého dosáhl Microsoft v případě desktopových operačních systémů. A co je nejhorší: pravděpodobně si nelze představit, že by se v dohledné době objevil jakýkoliv subjekt, který by svým souhrnným výpočetním výkonem mohl megalomanii, kterou předvádí Google, nějak rozumně konkurovat. Proto při úvahách "jak se obejít bez Google" velice brzo dospějete k myšlence decentralizovaného a distribuovaného systému, který by měl v podstatě charakter peer-to-peer sítě. Anglicky se to řekne Distributed web crawling [en.wikipedia.org].

Výhody, které decentralizované prohledávání přináší, jsou myslím zjevné: prohledávač může provozovat široká komunita přispěvatelů výpočetního výkonu a konektivity, a ne jenom nějaká jediná obří americká firma. Výsledky vyhledávání nejsou zkreslené placenou inzercí ani různými SEO (Search Engine Optimalization) postupy, speciálně šitými na míru algoritmu, který Google používá. Zkrátka - webovému vyhledávání chybí možnost výběru z více nezávislých zdrojů - a iluze objektivity, kterou přináší Google skrze zcela zdrcující množstvím dosti svévolně seřazených výsledků vyhledávání, je pro budoucí vývoj Internetu potenciálně dosti nebezpečná. Prapůvodní Internet 90. let byl do jisté míry naplněním postmoderní představy o nahrazení jediného oficiálního pseudoobjektivního výkladu světa mnohostí různých subjektivních výkladů: jenže technokratický Bůh jednosměrných masmédií, který byl Internetem svržen, se v současnosti vrací zpět na scénu v podobně Google coby potenciální "singularity machine". A protože technologické singularitě pokládám za vhodné se pokud možno vyhnout (či před ní nějakým způsobem "utéct"), tak je myslím pochopitelné, proč se snažím zapojit do komunity, která se snaží prohledávat web bez pomoci Googlu (="jediného velkého centra").

Politické důsledky decentralizovaného prohledávání webu jsou pak myslím zjevné: je zde prakticky nulová možnost cenzury. Pravda - je možné mazat obsah konkrétních domén ze svého vlastního node, ale nelze mazat domény z cizích nodů ani zakázat komukoliv zřídit další node. Všechny debaty, které se točily kolem cenzury výsledků vyhledávní Googlem v Číně, nebo kolem snahy o zákaz The Pirate Bay (PirateBay je do jistý míry také jenom centralizovaný vyhledávač a nic víc - i když slouží k prohledávání decentralizované sítě torrentů a jejich trackerů), by bývaly byly zcela zbytečné, kdyby lidé dali přednost umírněné racionalitě před přímočarým příklonem k tomu nejpohodlnějšímu řešení, a kdyby hned od začátku na Internetu převládlo decentralizované, distribuované vyhledávání - tak bychom dnes spoustu otázek týkající se hrozby cenzury Internet z nejrůznějších důvodů (ať už jde o odpor k demokratické diskuzi nebo o snahu zakazovat kopírování copyrightovaných děl) možná ani nemuseli řešit. O cenzuru výsledků vyhledávání nebo o různé "zakřivování" priority zobrazování výsledků vyhledávání se určitě budou snažit všichni ti, kteří během posledních desetiletí až staletí dosáhli tohoto druhu kontroly nad předchozími typy médií - od tištěných knih až po televizi: mít kontrolu nad prohledáváním se bude jevit jako reálnější cíl, než mít kontrolu nad obsahem jako takovým. A právě proto by nic takového jako "jediný vstupní bod do Internetu" nemělo pokud možno existovat. Ani na globální, ani na regionální úrovni.

Prvním řešením, které jsem v tomto ohledu vyzkoušel, a které se překvapivě ukázalo být alespoň okrajově použitelné, je prohledávač převážně asi německého původu pojmenovaný Yacy [www.yacy.net]. Popravdě - moje nadšení pro tento projekt není zcela neomezené: je napsaný v Javě, a je tudíž nepříjemně náročný co se týče využití CPU i paměti. Rozumných výsledků nemáte šanci dosáhnout, pokud pro provoz Yacy nevyhradíte alespoň jeden samostatný internetový server. A ani potom není úspěch zcela zaručen - protože například ve chvíli, kdy jsem měl na disku už přes 4 GB výsledků vyhledávání a měl oindexováno asi 2 miliony stránek mi celá aplikace spadla a pro pokračování musel jsem všechna data smazat a začít znovu od nuly. V současné době index narůstá ještě rychleji (pravda - povolil jsem transfery Distributed Hash Table od ostatních peerů, což jsem při prvním pokus měl zakázané) - ale na druhou stranu jsem si dal pozor, abych v jednu chvíli inicioval pouze jediný web crawl - protože právě paralelní zpracování více různých prohledávání možná přispělo k nestabilitě mé první instalace. Popravdě - jsem přesvědčený, že správným řešením bylo celé to napsat jako open source multiplatformně přeložitelnou aplikaci v C, a nepsat to v těžkopádné Javě. A nebo když už bych to psal jako multiplatformní skript, tak asi v Pythonu. Jenže to všechno bylo nadlouho - a provoz P2P search enginu je běh na dlouhou trať - vstupní nody je vhodnější umisťovat spíše na serverech na otevřeném Internetu, než na běžných PC - a tím pádem jde zřejmě spíše o P2P síť organizovanou na dlouhodobější bázi správci sítí a serverů, než o živelnou domácí D.I.Y aktivitu, jako v případě torrentových downloadů.

Můj node Decentralizovaného P2P webového prohledávače Yacy [teckacz.arachne.cz:8080] si můžete vyzkoušet pomocí buď pomocí vstupní brány [teckacz.arachne.cz:8080], kterou jsem nainstaloval na svůj soukromý server - nebo můžete vyzkoušet i ajaxový search box, který by se po odladění počátečních problémů měl stát stálou součástí portálu TečkaCZ:

Yacy Live Search

Současně se tímto omlouvám, že jsem jako vyhledávač roku do soutěže Křišťálová Lupa nominoval Google - byl to samozřejmě omyl.


Sloupcová sazba: pokud je okno prohlížeče dostatečně velké (na monitoru s dostatečným rozlišením), zobrazí se článek ve více sloupcích (w3.org). Testováno v browserech Firefox, Opera a Chrome. Není implementováno v Internet Exploreru. Tato feature může způsobovat problémy ve starších verzích prohlížečů s jádrem Webkit (Google Chrome, Safari, Konqueror). Pokud nevidíte článek celý, zkuste zmenšit okno prohlížeče nebo použít verzi pro tisk. [zpět na začátek sloupcové sazby]
Pokud se vám článek líbil, zkuste autora podpořit [zobrazit možnosti]
Sdílet v síti [Identi.ca - musíte být předem přihlášeni] [Twitter] [Facebook] [Jagg.cz]
Formátovat pro tisk [bez komentářů] [s komentáři]
Krátká forma URL (adresy) [http://teckacz.cz/1031]
Všechny články [od autora xChaos] [v rubrice Linux a internet] [nejnovější]

Hodnocení článku čtenáři [ + ] 5 [7x] [ - ]
Tip: Pro moderaci článků (kladné nebo záporné hodnocení) je nutné použít browser, který podporuje javascript a cookies.
Komentáře čtenářů [napsat vlastní]
Skrýt hodnocené nebo méně


[] fikus (anonym) 1. září 2010 ← komentářů 583 ☯☯ 78 [166x]
[ + ] 1 [1x] [ - ]
→ [/-/12654] ← na komentář můžete odpovědět nebo ho sdílet
napadla mne dalsi vec co je centralizovana: root DNS servery
takze bysme mohli zahodit DNS a vratit se k IP adresam, nebo mit nejaky nezavisly system.

[] xChaos 1. září 2010 ← komentářů 5519 0 [3050x]
[ + ] 0 [2x] [ - ]
→ [/-/12655] ← na komentář můžete odpovědět nebo ho sdílet
Hmm, tak to je typický... krátce po zveřejnění tohoto článku se můj node odpojil od komunity a tím pádem logicky nenajde nic. No ok, restart pomohl... ale asi budu potřebovat nějaké "pomocné adminy", kteří to budou hlídat, a případně provedou restart za mě. Takže se hlaste...

[] xChaos 1. září 2010 ← komentářů 5519 0 [3050x]
[ + ] -1 [1x] [ - ]
→ [/-/12656] ← na komentář můžete odpovědět nebo ho sdílet
Ještě si nejsem úplně jistej, jestli se přepínání mezi "resource Global" a "resource Local" nepřepíná pomocí cookies ve vašem browseru... tzn. nejprve je potřeba jít na http://teckacz.arachne.cz:8080/ a v More Options si to přepnout na global. Lokální výsledky jsou pochopitelně o ničem... globální jsou daleko zajímavější...

[] fikus (anonym) 1. září 2010 ← komentářů 583 ☯☯ 78 [166x]
[ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
→ [/-/12657] ← na komentář můžete odpovědět nebo ho sdílet
takze informace o tom co ma ktery uzel zaindexovano se distribuuji pomoci te "Distributed Hash Table", jo?

predpokladam, ze weby o bukkake budou nejvice zaindexovany
na japonskych uzlech a kdyz dam u nas vyhledavat bukkake,
tak si cesky uzel odvodi, ze se musi ptat dale uzlu japonskych,
je to tak nejak?!

[] xChaos 1. září 2010 ← komentářů 5519 0 [3050x]
[ + ] 1 [1x] [ - ]
→ [/-/12658] ← na komentář můžete odpovědět nebo ho sdílet
fikus: pls nespamuj mi diskuzi těmito termíny, ať nejsem zase banovaný pro pornografii... :-)

v zásadě se DHT transfery provádí podle četnosti dotazů na jednotlivá témata z jednotlivých vstupních bodů. Například od chvíle zveřejnění odkazů na svůj vyhledávací portál můj node prakticky úplně přestal stíhat indexovat... a místo toho vykazuje na obrázku http://teckacz.arachne.cz:8080/Network.html masivního DHT transfer aktivitu. prostě se mi to masivně ptá svého okolí - protože samo to má zatím oindexováno velice málo.

jakým způsobem se šíří dotazy dále do sítě to nevím... ale vzhledem k tomu, že komunita má zatím jen asi 59 serverů, a z toho většina jich má u sebe jen velice malé procento globálního indexu (viz to schéma), tak se toto asi příliš neřeší, a dotazy se prostě šíří "do šířky".

já měl v hlavě svůj vlastní algoritmus, týkající se toho, jakým způsobem distribuované prohledávání provádět... ale samozřejmě netuším, jaký přístup zvolila síť Yacy.

já si představoval, že za vlastní dotazy se bude bude "platit" crawlováním webu pro ostatní nody... tedy směna, jako v případě BitTorrentu ... ale ve skutečnosti, ty dotazy jsou samozřejmě taky samy o sobě cenné, protože prozrazují, co lidi všechno zajímá ! tedy v současné době mi přijde, že aby systém dosáhl nějaké efektivity, tak by měl směňovat výpočetní výkon a kapacitu disku/paměti... šířka pásma mi v dnešní době ani jako velký problém nepřijde...

[] fikus (anonym) 1. září 2010 ← komentářů 583 ☯☯ 78 [166x]
[ + ] 0 [2x] [ - ]
→ [/-/12659] ← na komentář můžete odpovědět nebo ho sdílet
prosim te nahrad si to japonske slovo peknym ceskym nahradnim slovem co vymyslel kolega: BREKEKE :-)

[] xChaos 1. září 2010 ← komentářů 5519 0 [3050x]
[ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
→ [/-/12660] ← na komentář můžete odpovědět nebo ho sdílet
zpátky k tématu: snad jsem to nějak konečně vytunil, aby mi to tak často nepadalo.. tak uvidíme.

[] Honza D. (anonym) 1. září 2010
[ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
→ [/-/12661] ← na komentář můžete odpovědět nebo ho sdílet
Kua dřív o YaCy v ČR téměř žádná zmínka a teď díky mně a xchaosovi nevím kde číst dřív, jestli tady nebo na facebooku :D ... [celkem 2478 znaků] [zobrazit]

[] hovno z nutrie (anonym) 1. září 2010 ← komentářů 1 1 [1x]
[ + ] 1 [1x] [ - ]
→ [/-/12662] ← na komentář můžete odpovědět nebo ho sdílet
k tomu bukkake a BREKEKE.
Nač potřebujeme filtr citlivého obsahu, když se o vše podstatné postará autocenzura? :)

xChaos 2. září 2010 ← komentářů 5519 0 [3050x] [ + ] -2 [2x] [ - ] Nekvalitní komentář! [zobrazit]
[] xChaos 2. září 2010 ← komentářů 5519 0 [3050x]
[ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
→ [/-/12664] ← na komentář můžete odpovědět nebo ho sdílet
Honza D.: díky za zájem. s těmi restarty to nebude tak jednoduché... restarty přes web nejsou dostatečné, protože většinou je pak ještě nutné pokillovat nějakou zombie javu, která zůstane po restartu běžet. Yacy je tedy lepší restartovat přímo z příkazové řádky.. a na svůj soukromý server se mi zatím nikoho pouštět nechce (ovšem je otázka, jestli bych nemohl pro Yacy zřídit vyhrazený virtuál na některém z firemních strojů...)

každopádně e-mail napsat můžeš - rozhodně chci zůstat v kontaktu s lidmi, kteří se o decentralizované distribuované prohledávání webu aktivně zajímají. naučit lidi používat něco jiného než Google by byl myslím docela husarský kousek :-)

[] xChaos 2. září 2010 ← komentářů 5519 0 [3050x]
[ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné nikde registrovat
→ [/-/12665] ← na komentář můžete odpovědět nebo ho sdílet
Když jsem hledal "recept zapečený losos se zeleninou", tak mi sice Yacy nenašel nic, ale navrhl mi "Did you mean: recept zapečený logos se zeleninou", což musím přiznat, že mě z čistě filosofického hlediska vcelku zaujalo... :-)

[] (anonym) 3. září 2010 ← komentářů 56 -1 [1x]
0 [0x]
→ [/-/12666] ← na komentář můžete odpovědět nebo ho sdílet
Mohl bys prosím změnit port z 8080 na 80? :)

[] xChaos 3. září 2010 ← komentářů 5519 0 [3050x]
[ + ] -1 [3x] [ - ]
→ [/-/12667] ← na komentář můžete odpovědět nebo ho sdílet
anonym: ne, nemohl, protože na portu 80 pochopitelně běží normální webserver pro moje další projekty (a hrát si s nějakým aliasováním IP adrese se mi vůbec nechce). ale hodlám pro veřejný Yacy node vyhradit samostatný virtuální server, kde nepoběží nic jiného, a tudíž bude port 80 volný.

[] xChaos 4. září 2010 ← komentářů 5519 0 [3050x]
[ + ] -1 [1x] [ - ]
→ [/-/12668] ← na komentář můžete odpovědět nebo ho sdílet
jinak zajímavá diskuze k tématu proběhla také zde - Pirátské Noviny můj text (s mým souhlasem) převzaly: http://www.piratskenoviny.cz/?c_id=32495
 

Počet zobrazených komentářů: 15 [celkový čas potřebný k prohledání databáze a vytvoření stránky: 0.69 sekund]

Pozor, vložením komentáře souhlasíte s pravidly hry TečkyCZ! [zobrazit pravidla] →
Ochrana proti spambotům - tři-krát-tři je ... ? (napište číslicí - nemělo by byt potřeba při zapnutém JavaScriptu)
Sociální síť (přihlaste se předem, 1. řádek<=96 znaků=status, zbytek=odkaz)
Offtopic resolver (týká se odpověď původního tématu, nebo patří jinam?)
Přezdívka (povinně) - nepoužívejte speciální znaky, mezery=podtržítka
E-mail (volitelně) - nebude zobrazen, zobrazí se ikonka z [www.gravatar.com]

Nelze použít HTML [zobrazit mikrosyntax] →

Nápověda: ve vlastním zájmu uvádějte u komentářů pouze funkční a dostupnou e-mailovou adresu. Přezdívku, která je jednou spojená s konkrétní e-mailovou adresou, už nyní nelze bez zásahu administrátora serveru spojit s jinou adresou. Uvedením neplatné e-mailové adresy si v budoucnu znemožníte upload ikonky i možnost použít některé další chystané neanonymní funkce vázané na uvedení platné e-mailové adresy.


TečkaCZ [Nejnovější články] [Nejnovější komentáře] [Zeď vzkazů] [Zeď odkazů] [Začátek článku]

    TečkaCZ
  •  
  • Komentáře →
  • Nástěnky →
  • Debaty →
  • Články →
  • Ročníky →
  • Rubriky →
  • RSS kanály →
  • Vzhled →
  • Ostatní →
  •  
[] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] []
  •  
.

[Arachne Labs]

[SPOJE.NET]

[Právě dnes | Tech | Ostatní]

Yacy P2P web search jabber.arachne.cz
tiskové zprávy a otevřené dopisy přebíráme z nejrůznějších informačních kanálů (i bez výslovného souhlasu autorů)
licenční práva k použitým obrázkům a grafickým motivům nejsou definována (přebírejte pouze texty bez obrázků)
texty článků i komentáře bez uvedení copyrightu jsou chráněny GNU Free Documentation License
založeno na Quzo engine, (G)1999-2002 David Čermák, (G)2002-2012 Michael Polák
Quzo engine vyvíjejí Arachne Labs, webhosting sponzorují SPOJE.NET
seznam aktuálních článků je dostupný i ve formátu RSS (XML)
můžete také sledovat Twitter feed TečkyCZ.
test XHTML a CSS2 validity