![]() |
![]() |
Yacy - P2P search, aneb jak se obejít bez přítele Googla → [/1031] xChaos 31. srpna 2010 [7908 znaků] [Linux a internet] [ + ] [ - ] Zobrazení 3467 ← RSS 398 Facebook 20 Twitter 63 Google 85 NYX 19 Komentářů 15 Použít základní myšlenku programů jako je #bittorent (pro decentralizované sdílení souborů) nebo distribuovaných výpočetních sítí typu Seti@Home (hledání mimozemských civilizací) pro distribuované prohledávání webu se mi už delší dobu jevilo jako jediný realistický způsob, jak trumfnout gigantický #google s jeho milionem serverů. A ukázalo se, že nejsem jediný, kdo takto uvažuje - takže se můžete podívat na předběžné výsledky mého pokusu zapojit se do #Peer2Peer projektu #yacy. Výhody, které decentralizované prohledávání přináší, jsou myslím zjevné: prohledávač může provozovat široká komunita přispěvatelů výpočetního výkonu a konektivity, a ne jenom nějaká jediná obří americká firma. Výsledky vyhledávání nejsou zkreslené placenou inzercí ani různými SEO (Search Engine Optimalization) postupy, speciálně šitými na míru algoritmu, který Google používá. Zkrátka - webovému vyhledávání chybí možnost výběru z více nezávislých zdrojů - a iluze objektivity, kterou přináší Google skrze zcela zdrcující množstvím dosti svévolně seřazených výsledků vyhledávání, je pro budoucí vývoj Internetu potenciálně dosti nebezpečná. Prapůvodní Internet 90. let byl do jisté míry naplněním postmoderní představy o nahrazení jediného oficiálního pseudoobjektivního výkladu světa mnohostí různých subjektivních výkladů: jenže technokratický Bůh jednosměrných masmédií, který byl Internetem svržen, se v současnosti vrací zpět na scénu v podobně Google coby potenciální "singularity machine". A protože technologické singularitě pokládám za vhodné se pokud možno vyhnout (či před ní nějakým způsobem "utéct"), tak je myslím pochopitelné, proč se snažím zapojit do komunity, která se snaží prohledávat web bez pomoci Googlu (="jediného velkého centra"). Politické důsledky decentralizovaného prohledávání webu jsou pak myslím zjevné: je zde prakticky nulová možnost cenzury. Pravda - je možné mazat obsah konkrétních domén ze svého vlastního node, ale nelze mazat domény z cizích nodů ani zakázat komukoliv zřídit další node. Všechny debaty, které se točily kolem cenzury výsledků vyhledávní Googlem v Číně, nebo kolem snahy o zákaz The Pirate Bay (PirateBay je do jistý míry také jenom centralizovaný vyhledávač a nic víc - i když slouží k prohledávání decentralizované sítě torrentů a jejich trackerů), by bývaly byly zcela zbytečné, kdyby lidé dali přednost umírněné racionalitě před přímočarým příklonem k tomu nejpohodlnějšímu řešení, a kdyby hned od začátku na Internetu převládlo decentralizované, distribuované vyhledávání - tak bychom dnes spoustu otázek týkající se hrozby cenzury Internet z nejrůznějších důvodů (ať už jde o odpor k demokratické diskuzi nebo o snahu zakazovat kopírování copyrightovaných děl) možná ani nemuseli řešit. O cenzuru výsledků vyhledávání nebo o různé "zakřivování" priority zobrazování výsledků vyhledávání se určitě budou snažit všichni ti, kteří během posledních desetiletí až staletí dosáhli tohoto druhu kontroly nad předchozími typy médií - od tištěných knih až po televizi: mít kontrolu nad prohledáváním se bude jevit jako reálnější cíl, než mít kontrolu nad obsahem jako takovým. A právě proto by nic takového jako "jediný vstupní bod do Internetu" nemělo pokud možno existovat. Ani na globální, ani na regionální úrovni. Prvním řešením, které jsem v tomto ohledu vyzkoušel, a které se překvapivě ukázalo být alespoň okrajově použitelné, je prohledávač převážně asi německého původu pojmenovaný Yacy [www.yacy.net]. Popravdě - moje nadšení pro tento projekt není zcela neomezené: je napsaný v Javě, a je tudíž nepříjemně náročný co se týče využití CPU i paměti. Rozumných výsledků nemáte šanci dosáhnout, pokud pro provoz Yacy nevyhradíte alespoň jeden samostatný internetový server. A ani potom není úspěch zcela zaručen - protože například ve chvíli, kdy jsem měl na disku už přes 4 GB výsledků vyhledávání a měl oindexováno asi 2 miliony stránek mi celá aplikace spadla a pro pokračování musel jsem všechna data smazat a začít znovu od nuly. V současné době index narůstá ještě rychleji (pravda - povolil jsem transfery Distributed Hash Table od ostatních peerů, což jsem při prvním pokus měl zakázané) - ale na druhou stranu jsem si dal pozor, abych v jednu chvíli inicioval pouze jediný web crawl - protože právě paralelní zpracování více různých prohledávání možná přispělo k nestabilitě mé první instalace. Popravdě - jsem přesvědčený, že správným řešením bylo celé to napsat jako open source multiplatformně přeložitelnou aplikaci v C, a nepsat to v těžkopádné Javě. A nebo když už bych to psal jako multiplatformní skript, tak asi v Pythonu. Jenže to všechno bylo nadlouho - a provoz P2P search enginu je běh na dlouhou trať - vstupní nody je vhodnější umisťovat spíše na serverech na otevřeném Internetu, než na běžných PC - a tím pádem jde zřejmě spíše o P2P síť organizovanou na dlouhodobější bázi správci sítí a serverů, než o živelnou domácí D.I.Y aktivitu, jako v případě torrentových downloadů. Můj node Decentralizovaného P2P webového prohledávače Yacy [teckacz.arachne.cz:8080] si můžete vyzkoušet pomocí buď pomocí vstupní brány [teckacz.arachne.cz:8080], kterou jsem nainstaloval na svůj soukromý server - nebo můžete vyzkoušet i ajaxový search box, který by se po odladění počátečních problémů měl stát stálou součástí portálu TečkaCZ:
Současně se tímto omlouvám, že jsem jako vyhledávač roku do soutěže Křišťálová Lupa nominoval Google - byl to samozřejmě omyl. Optimalizace: pokud používáte prohlížeč s jádrem Mozilla (Firefox 3.8-8.0) v dostatečně velkém okně a na monitoru s dostatečným rozlišením, tak nepřehlédněte pokračování textu v dalším sloupci vícesloupcové sazby ! Tato feature je sice v prohlížečích s jádrem Webkit (Google Chrome, Safari, Konqueror) teoreticky také k dispozici - ale bohužel se chová nepředvídatelně a nepoužitelně: sloupce které se na obrazovku nevejdou, jednoduše skryje. [zpět na začátek sloupcové sazby] Pokud se vám článek líbil, můžete podpořit provozovatele serveru zasláním Bitcoin daru dle vlastního uvážení na BTC účet č. [19rriLx8vR19wGefPaMhakqnCYNYwjLvxq] :-) Sdílet v síti [Identi.ca - musíte být předem přihlášeni] [Twitter] [Facebook] [Jagg.cz] Formátovat pro tisk [bez komentářů] [s komentáři] Krátká forma URL (adresy) [http://teckacz.cz/1031] Všechny články [tohoto autora] [v rubrice Linux a internet] Hodnocení článku čtenáři [ + ] [ - ] Komentáře [napsat] ★ [ + ] 1 [1x] [ - ] → [/-/12654] ← na komentář můžete odpovědět napadla mne dalsi vec co je centralizovana: root DNS servery takze bysme mohli zahodit DNS a vratit se k IP adresam, nebo mit nejaky nezavisly system. ★ [ + ] 0 [2x] [ - ] → [/-/12655] ← na komentář můžete odpovědět Hmm, tak to je typický... krátce po zveřejnění tohoto článku se můj node odpojil od komunity a tím pádem logicky nenajde nic. No ok, restart pomohl... ale asi budu potřebovat nějaké "pomocné adminy", kteří to budou hlídat, a případně provedou restart za mě. Takže se hlaste... ★ [ + ] [ - ] → [/-/12656] ← na komentář můžete odpovědět Ještě si nejsem úplně jistej, jestli se přepínání mezi "resource Global" a "resource Local" nepřepíná pomocí cookies ve vašem browseru... tzn. nejprve je potřeba jít na http://teckacz.arachne.cz:8080/ a v More Options si to přepnout na global. Lokální výsledky jsou pochopitelně o ničem... globální jsou daleko zajímavější... ★ [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné registrovat, stačí kliknout na + nebo - → [/-/12657] ← na komentář můžete odpovědět takze informace o tom co ma ktery uzel zaindexovano se distribuuji pomoci te "Distributed Hash Table", jo? predpokladam, ze weby o bukkake budou nejvice zaindexovany na japonskych uzlech a kdyz dam u nas vyhledavat bukkake, tak si cesky uzel odvodi, ze se musi ptat dale uzlu japonskych, je to tak nejak?! ★ [ + ] 1 [1x] [ - ] → [/-/12658] ← na komentář můžete odpovědět fikus: pls nespamuj mi diskuzi těmito termíny, ať nejsem zase banovaný pro pornografii... :-) v zásadě se DHT transfery provádí podle četnosti dotazů na jednotlivá témata z jednotlivých vstupních bodů. Například od chvíle zveřejnění odkazů na svůj vyhledávací portál můj node prakticky úplně přestal stíhat indexovat... a místo toho vykazuje na obrázku http://teckacz.arachne.cz:8080/Network.html masivního DHT transfer aktivitu. prostě se mi to masivně ptá svého okolí - protože samo to má zatím oindexováno velice málo. jakým způsobem se šíří dotazy dále do sítě to nevím... ale vzhledem k tomu, že komunita má zatím jen asi 59 serverů, a z toho většina jich má u sebe jen velice malé procento globálního indexu (viz to schéma), tak se toto asi příliš neřeší, a dotazy se prostě šíří "do šířky". já měl v hlavě svůj vlastní algoritmus, týkající se toho, jakým způsobem distribuované prohledávání provádět... ale samozřejmě netuším, jaký přístup zvolila síť Yacy. já si představoval, že za vlastní dotazy se bude bude "platit" crawlováním webu pro ostatní nody... tedy směna, jako v případě BitTorrentu ... ale ve skutečnosti, ty dotazy jsou samozřejmě taky samy o sobě cenné, protože prozrazují, co lidi všechno zajímá ! tedy v současné době mi přijde, že aby systém dosáhl nějaké efektivity, tak by měl směňovat výpočetní výkon a kapacitu disku/paměti... šířka pásma mi v dnešní době ani jako velký problém nepřijde... ★ [ + ] 0 [2x] [ - ] → [/-/12659] ← na komentář můžete odpovědět prosim te nahrad si to japonske slovo peknym ceskym nahradnim slovem co vymyslel kolega: BREKEKE :-) ★ [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné registrovat, stačí kliknout na + nebo - → [/-/12660] ← na komentář můžete odpovědět zpátky k tématu: snad jsem to nějak konečně vytunil, aby mi to tak často nepadalo.. tak uvidíme. ★ [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné registrovat, stačí kliknout na + nebo - → [/-/12661] ← na komentář můžete odpovědět Kua dřív o YaCy v ČR téměř žádná zmínka a teď díky mně a xchaosovi nevím kde číst dřív, jestli tady nebo na facebooku :D Sranda byla že ten facebook i pirátský strany nejde bez přihlášení často ani otevřít a nebo neustále hází tabulky do popředí s loginem :D Jinak jak tu byly ty dotazy na to vyhledávání na jiných nodech, tak tady k tomu něco je. Q) Search Engines need a lot of terabytes of space, don't they? How much space do I need on my machine? A) The global index is shared, but not copied to the peers. If you run YaCy, you need an average of the same disc memory amount for the index as you need for the cache. In fact, the global space for the index may reach the space of Terabytes, but not all of that on your machine! Q) Vyhledávače potřebovat hodně TB prostoru, ne? Kolik prostoru musím na mém počítači? A) Globální index je sdílená, ale nikoli zkopírovat do vrstevníky. Pokud spustíte YaCy, potřebujete průměrně stejné výši diskové paměti pro index, jak budete potřebovat pro cache. Ve skutečnosti může být globální prostor pro index dosah prostor terabytů, ale ne všechny, že na vašem počítači! ----- Q)How long does a search take? A)Our architecture does not do peer-hopping, we also don't have a TTL (time to live). We expect that search results are instantly responded to the requester. This can be done by asking the index-owning peer directly which is in fact possible by using DHT's (distributed hash tables). Because we need some redundancy to compensate for missing peers, we ask several peers simultanously. To collect their response, we wait a little time of at most 6 seconds (by default, you can change that). Q) Jak dlouho trvá hledání vzít? A) Naše architektura nedělá peer-hopping, také nemají TTL (Time To Live). Očekáváme, že výsledky vyhledávání jsou okamžitě reagoval na žadatele. Toho lze dosáhnout tím, index-vlastnit peer přímo, která je ve skutečnosti možné pomocí DHT je (distribuované hash tabulky). Vzhledem k tomu potřebujeme nějaké propouštění kompenzovat chybějící kolegy, žádáme několika vrstevníky simultanously. Vybírat své odpovědi, budeme čekat jen málo času na maximálně 6 sekund (ve výchozím nastavení můžete změnit, že). zdroj: http://www.yacy-websearch.net/wiki/index.php/En:FAQ Na to hlídání bych se hlásil (ne že bych u toho seděl od ráno do večera, ale občas bych to zkusil a byl nějaký problém, tak restart udělat můžu..) Pošlu ti teď někdy email a do odpovědi mi můžeš poslat login a heslo. ★ [ + ] 1 [1x] [ - ] → [/-/12662] ← na komentář můžete odpovědět k tomu bukkake a BREKEKE. Nač potřebujeme filtr citlivého obsahu, když se o vše podstatné postará autocenzura? :) xChaos 2. září 2010 ← komentářů 4569 ☯ 13 [2269x] ★ [ + ] [ - ] Nekvalitní komentář ! [zobrazit] ★ [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné registrovat, stačí kliknout na + nebo - → [/-/12664] ← na komentář můžete odpovědět Honza D.: díky za zájem. s těmi restarty to nebude tak jednoduché... restarty přes web nejsou dostatečné, protože většinou je pak ještě nutné pokillovat nějakou zombie javu, která zůstane po restartu běžet. Yacy je tedy lepší restartovat přímo z příkazové řádky.. a na svůj soukromý server se mi zatím nikoho pouštět nechce (ovšem je otázka, jestli bych nemohl pro Yacy zřídit vyhrazený virtuál na některém z firemních strojů...) každopádně e-mail napsat můžeš - rozhodně chci zůstat v kontaktu s lidmi, kteří se o decentralizované distribuované prohledávání webu aktivně zajímají. naučit lidi používat něco jiného než Google by byl myslím docela husarský kousek :-) ★ [ + ] 0 [0x] [ - ] ← pro ohodnocení komentáře se není nutné registrovat, stačí kliknout na + nebo - → [/-/12665] ← na komentář můžete odpovědět Když jsem hledal "recept zapečený losos se zeleninou", tak mi sice Yacy nenašel nic, ale navrhl mi "Did you mean: recept zapečený logos se zeleninou", což musím přiznat, že mě z čistě filosofického hlediska vcelku zaujalo... :-) ★ 0 [0x] → [/-/12666] ← na komentář můžete odpovědět Mohl bys prosím změnit port z 8080 na 80? :) ★ [ + ] [ - ] → [/-/12667] ← na komentář můžete odpovědět anonym: ne, nemohl, protože na portu 80 pochopitelně běží normální webserver pro moje další projekty (a hrát si s nějakým aliasováním IP adrese se mi vůbec nechce). ale hodlám pro veřejný Yacy node vyhradit samostatný virtuální server, kde nepoběží nic jiného, a tudíž bude port 80 volný. ★ [ + ] [ - ] → [/-/12668] ← na komentář můžete odpovědět jinak zajímavá diskuze k tématu proběhla také zde - Pirátské Noviny můj text (s mým souhlasem) převzaly: http://www.piratskenoviny.cz/?c_id=32495 Nápověda: ve vlastním zájmu uvádějte u komentářů pouze funkční a dostupnou e-mailovou adresu.
Přezdívku, která je jednou spojená s konkrétní e-mailovou adresou, už nyní nelze bez zásahu
administrátora serveru spojit s jinou adresou. Uvedením neplatné e-mailové adresy si v budoucnu
znemožníte upload ikonky i možnost použít některé další chystané neanonymní funkce vázané na
uvedení platné e-mailové adresy. |
![]() |
| |
![]() |
|||||
| |||||