Blogy       Lidé.cz       Spolužáci.cz       Hry.cz       Seznam       Email       Novinky.cz       Super.cz
Franciho blog
TOPList, Lidé, Seznam a já.
Kategorie: TOPlist
03.09.2009 11:37 - TOPlist - trvalý odkaz

Aktuální informace

Jelikož obecně nejsem moc velký psavec, rozhodl jsem se zmenšit množství různých míst, kde podávám informace o TOPlistu. Proto:

aktuální informace se dovíte na Facebook stránce: http://www.facebook.com/pages/TOPlist/26963276402

a ostaní návody, tipy a další na Wiki: http://wiki.toplist.cz

03.04.2008 11:24 - TOPlist - trvalý odkaz

Denní statistiky přes RSS

Pro ty, kteří nechtějí čekat celý týden na email se souhrnem návštěvnosti, jsem připravil RSS feed. Link na něj je v podrobných statistikách. Jednak v menu vpravo nebo je uveden i v headru stránky, takže jej nabídne každý inteligentnější prohlížeč.
Obecně má adresu http://www.toplist.cz/stat/?id=ID_stránky&a=rss.
Obsahuje počet návštěv a zhlédnutí za konkrétní den a pořadí celkové a v kategorii.

02.02.2008 11:35 - TOPlist - trvalý odkaz

nový hlavní databázový server

V posledních dnech, kdy objem denních statistik přesáhl 170 miliónů zhlédnutí, se ukázala nutnost výměny hlavního databázového serveru.

Je docela překvapivé, že na svém místě vydrzel víc než tři roky. Ale je pravda, že z něj byla během té doby podstatná část zátěže přesunuta na další dva pomocné servery.
Takže původní dual Xeon na 3GHz a 2GB paměti byl vyměnen za nový s parametry 2x quad-core Xeon E5335 2GHz, 8GB RAM, 4x 76GB 15krpm SAS v RAID 10.

Bylo nutné systém ještě trochu vyladit (raid je softwarový, ale server obsahuje i HW RAID s 256 MB vyrovnávací paměti a to trochu mate systém při zápisech), ale jinak se zdá, že by měl mít dostatečný výkon. A je jenom otázka, jestli vydrzí tak dlouho jako jeho předchůdce.

A jedna perlička na závěr. Když to spočítám, tak TOPlist dnes bězí na 15 procesorech, celkem s 32 jádry, 24 GB RAM a 4TB disků. Nebýt toho, že ty požadavky stoupaly postupně během posledních 4 let (tenkrát ještě všechno běželo na jednom stroji), dalo se to všechno nacpat do jednoho blade serveru :-).


21.01.2008 11:39 - TOPlist - trvalý odkaz

XML výstup

Data o návštěvnosti je nyní možné získávat i ve formátu XML.

Fungují na podobném principu jako Infopanel, tj. nedochází k vlastnímu měření. Pro něj je nutné použít nějaký klasický měřící kód.

Dostupná data jsou stejná jako pro větší verzi panelu: návštěvnost celkem, dnes, za týden, pořadí celkové a v kategorii a počet uživatelů online.

Adresa pro volání je http://toplist.cz/images/counter.asp?a=xml&id=ID_stranky

Poznámka: jen připomínám, že pokud budete tento způsob využívat k zobrazení návštěvnosti přímo ve stránce, nebude v ní započítáno její aktuální zobrazení, které je zaznamenáno až načtením měřícího kódu.

20.12.2007 14:58 - TOPlist - trvalý odkaz

button 80x15

TOPlist
18.01.2006 18:28 - TOPlist - trvalý odkaz

Nový server


Problémy začaly minulý týden, kdy na hostingu (Casablanca) vypadl proud a prý jim dvacet minut trvalo než na to vůbec přišli.
Všechno vyvrcholilo včera večer, kdy se při instalaci nového serveru zjistilo, že je na jednom stávajícím disk v takovém stavu, že po rebootu už nenaběhl (nechci spekulovat, jak moc se na této situaci výpadek projevil, ale umřelého železa bylo po serverovně vidět docela dost).
Jelikož ani rozběhnutí nového serveru nebylo zcela bez problému (např. podpora pro nový RAID řadič je až v jádře 2.6.14) byl dneska, bohužel, TOPlist v degradovaném stavu. Nyní se podařilo situaci stabilizovat. Nový server se na tom podílí nemalou měrou.

Jedná se o poměrně zajímavý kousek. Jeho výrobce je Supermicro a z oficiálních stránek se o něm nic nedovíte. Na nich se totiž zdá, se Supermicro je  čistě Intel-only výrobce. Takže až na adrese http://www.supermicro.com/Aplus/ se dá objevit, že to není úplně pravda. Tento konkrétní kousek má označení AS1020A-T. Jedná se o 1U server osazený 2GB RAM a dvěma Opterony 270 (2.0GHz, dual-core). Zatím na něm běží 32bitová verze Debianu (sarge). O tom, jakou 64bit distribuci tam dát zatím uvažuji (zatím mi běží Ubuntu a CentOS). Vaše případné tipy jsou vítány :-).

Ještě není celý systém úplně doladěný, ale celkový nárůst výpočetní kapacity je téměř 50%, takže skýtá rezervy. A ještě se trochu zvednou, až se zase zapojí ten odešlý server, co tam leží v koutě, to byl Opteron 144 (1,8Ghz,  single-core).


15.09.2005 07:22 - TOPlist - trvalý odkaz

Výkon MySQL 4.0 vs. 4.1

O tom, že aktuální verze MySQL - 4.1 je trochu náročnější se ví.

Já bych rád ukázal jeden konkrétní graf, na kterém je vidět o kolik. Jde o provoz v rozsahu 3000 - 3500 dotazů za vteřinu (modří již vědi :-)). Grafy odpovídají stejnému časovému úseku. Jak je z nich vidět, je nárůst relativně vysoký, přibližně 50%.


Protože se jedná o velké množství jednoduchých dotazů a hlavně dotazů modifikující obsah tabulek(insert, update), nejsou využity rozšířené možnosti jako query cache, subselecty atd. V případě, že by je projekt využíval (publikační systémy, virtuální obchody atp.) může být situace opačna. Ale pokud máte aplikaci, která používá základní sadu dotazů, je asi lepší zůstat u starší verze.
21.08.2005 19:52 - TOPlist - trvalý odkaz

TOPlist - zakulisí

Jak je asi každému jasné, že srdcem podobného systému bude databáze a proto nejdřív budu psát o ní.


Jelikož zastávám přesvědčení, že se nemá ztrácet čas s tím, co udělali jiní a lépe, je použitá klasická relační databáze. Nejdřív MS SQL (proto také ty historické koncovky .asp), nyní když je TOPlist LAMP (je hezké, že se dá zkratka použít pro Perl i Python, ještě by to chtělo nějaký jazyk P a P-shell), používám MySQL. Zatím ve verzi 4.0 a přemýšlím, jestli použít 4.1 nebo počkat až na 5.0. Pro zajímavost jsem vytáhl graf zátěže. Zelená čára je aktuální počet dotazů za vteřinu a modrá je průměr od startu.

Pochopitelně, v případě že se jedná o zatíženější aplikaci (mimochodem, minulé pondělí, ze kdy je ten graf, byla poprvé překonána hranice 60 miliónů měření za den, běžně je nad 55 miliónů) je potřeba pečlivý návrh a trochu se věnovat nastavení. Ovšem, i příslušný hardware.

Na TOPlistu mi databáze běží na IBM xSeries 345. V konfiguraci 2xXeon 3GHz, 2 GB RAM a 3+1 36GB (proč plus jedna bude dál) disky. Jedná se o rackový server velikosti 2U. Tradičně výborně je řešené uchycení. Lyžiny se nasazují tím, že se natáhnou západky, které se pak "nastřelí" do lišt ve skříni. A server se pak už jen na ně položí a zajistí. Takže žádné šroubování deseti šroubků a hledání zapadlých mezi kabeláží, ale s trochou cviku je za dvě minuty všechno vyřízeno. Jediný zádrhel může nastat s délkou. Většina hostingů má skříně pouze 80cm hluboké. A vzhledem k délce 70cm a prostoru potřebného k proudění chladícího vzduchu je potřeba použít skříň alespoň s metrovou hloubkou.

Na serverovně jsem ho zkusil vyfotit na mobilu. Když jsem to viděl, tak jsem si říkal, že tam někdy musím vzít digiták. Ale nakonec jsem se rozhodl pro tuhle, protože je taková autentická ("Proč jsou vždycky záběry UFO rozmazaný?" Hellboy). Dokonce se mi podařila stihnout zachytit i rozsvícená LEDka disku :-). Chtěl jsem původně všechny tři, ale po asi dvaceti pokusech jsem byl rád aspoň za tu jednu. Je tam vidět i jeden z webserverů, ale o těch třeba až jindy.

Takže k těm diskům. Někdy v půlce července odešel jeden z disků v poli. Díky RAIDu 5 vše běželo. Během dvou dnů IBM poslala nový a vyměnil se. Ale přecejen to bylo trochu nervoznější období, protože jak píše Terry Pratchett, jestli má něco pravděpodobnost jedna ku miliónu, můžete si být jistí, že se to stane (tedy v případě, že je to něco nepřijemného). Rozhodl jsem se proto využít jednu z funkcí, kterými se liší skutečný RAID řadič od toho, který za něj vydávají výrobci motherboardů. Přidal jsem hot-spare disk. Nyní je to ten vlevo dole.
 
Pro ty, kteří si nehrají se servery: jak název napovídá, jedná se o disk, který za normálních okolností "leží ladem". Ovšem ve chvíli, kdy některý z aktivních disků vykáže chybu a je odpojen, monitoring pošle SMSku a řadič sám automatický začne pole vytvářet na tomto záložním. Rozbitý disk se pak vymění a stane se z něj hot-spare. Možná vás napadlo, co se stane ve chvíli, když by odešel během vytváření další disk. Ano, pak by přišly ke slovu zálohy :-) Ovšem pravděpodobnost, že během hodiny (co trvá přestavění pole) odejdou dva disky je taková, že už Pratchettovi věřit nebudu. Není to sice součin obou pravděpodobností (takže ne jedna ku miliónu na druhou :-)), ale i tak je taková, že se spíš stane něco úplně jiného.

Instalace byla také docela jednoduchá. Disk se strčil do zásuvky, přes ipssend SCANDRIVES se řadiči řeklo, že má zjistit změny (tj. přidaný disk) a pak už jen SETSTATE HSP pro nastavení stavu. Disk dvakrát zablikal jako že jo a pak už jen GETCONFIG hlásí: State: Hot spare (HSP).

28.07.2005 09:48 - TOPlist - trvalý odkaz

Co se stalo


Hlavní data jsou ukládána do mySQL, resp. InnoDB. To úložistě je nastaveno tak, aby byla volná rezerva přibližně 7GB. Dnes v noci se, při přepočítávání statistik za minulý den, zcela zaplnila. Bohužel jsem podcenil tuto možnost (ta rezerva mi přišla dostatečná), takže upozornění SMSkou mi přišlo až v devět ráno.
Nyní proto přibyl další graf do sledování, takže v budoucnu bude snažší tento stav předvídat.
Ostatně, nyní se generuje několik desítek grafů, takže možná trochu poodkryju poličku a některé zde časem zveřejním.
Za výpadek se všem omlouvám.
05.07.2005 23:15 - TOPlist - trvalý odkaz

Měření návštěvnosti na WAPu


Není to úplná novinka, ale asi jsem o tom ještě nikde nepsal :-) Kdysi jsem si hrál s WAPem, takže stačí použít kód:

<img src="http://toplist.cz/wap.asp?ID=xxx" alt="."/>

kde xxx je pochopitelně ID stránky. Posílá to WBMP bílý bod. Nejsou tam žadná rozšiření pomocí Javaskriptu atp. Další omezení je, že WAP neposílá referrer, takže stránky jsou označeny ve statistikách jednotně jako "W@P". Ještě není udělaná nějaká bližší identifikace mobilů, ale pokud bude zájem a hlavně data, tak se to dá dodělat.
13.06.2005 09:37 - TOPlist - trvalý odkaz

Pár novinek na TOPlistu


Trochu jako náhradu na páteční výpadek jsem zprovoznil několik novinek.
Je to zejména měření návštěvnosti podle země.
Dál jsem u výpisu cest po serveru přidal linky na stránky (ahoj Ivo :-)) a u výpisu hledaných frází přidal možnost vypsání všech.
A ještě drobnost, u mailu s týdenními statistikami je v subjectu uvedeno číslo týdne a rok.
07.02.2005 21:54 - TOPlist - trvalý odkaz

Memcached - 1. výsledky

Tento příspěvek je víceméně odpověď Jirkovi Pallasovi v komentáři k předchozímu, ale třeba bude zajímat i někoho dalšího :-)

Po přibližně 14. dnech provozu je situace následující.

Průměrný provoz je přes 500 čtení a 300 nastavení za vteřinu. Při objemu dat kolem 170 MB je procesor P4@2.8GHz zatížený asi na 5%. A to ještě běží na 2.4 jádru, tj. bez podpory epollu [viz. libevent]. Na jiném projektu jej už používáme (Debian sarge a 2.6 jádro). Proklamované zrychlení o řády se sice nekonalo, ale "alespoň" v násobcích to bylo.

20.01.2005 09:21 - TOPlist - trvalý odkaz

Memcached

distribuovaná memory storage

Doteď jsem informace o právě aktivních sessions ukládal klasicky do databáze.

Jelikož se nyní dosti zvedlo množství sledovaných návštěvníků, obsahovala ve špičce přes 3 milióny záznamů (součet všech online návštěvníků na všech měřených serverech) a počet dotazů do ní byl v řádech stovek za vteřinu. Proto jsem se rozhodl vyzkoušet na jejich uložení paměťový daemon. Nejsem příznivcem akademického "urob-si-sám" a tak jsem použil memcached, který už na jiných projektech nějakou dobu používáme.

Jedná se o jednoduchý prográmek, který umožňuje uložení víceméně libovolné struktury (klientské knihovny jsou pro Perl, Python, PHP, C ad. - samotný protokol je také primitivní) pod klíč.

Během dneška uvidím, jaký vliv to bude mít na samotné statistiky, ale metodika zůstává nezměněná (proč taky měnit to, co 8 let funguje), tj. min. 30 minut interval mezi návštěvami jednoho uživatele.

10.02.2004 09:08 - TOPlist - trvalý odkaz

Podíly návštěvníků podle domén 2. úrovně

To hlavní už zmínil Yuhů. Já k tomu ještě dodám upřesnění. Filtr je podobný jako u refererů, tj. nepočítají se záznamy z kategorií Anglicky a Erotika.
Jinak se skutečně neměří na unikátní uživatele, ale návštěvy. Čímž, jak Dušan zmiňuje, je zohledněn nejen celkový počet, ale též aktivita zákazníků jednotlivých providerů.
K jeho tabulce za neděli připojuji pro ukázku TOP10 ze včerejška (pondělí 9.2.2004).

  1. vol.cz 4.72 %
  2. tiscali.cz 4.29 %
  3. iol.cz 4.17 %
  4. mistral.cz 3.78 %
  5. eurotel.cz 2.76 %
  6. aol.com 2.28 %
  7. contactel.net 2.11 %
  8. indos.cz 2.08 %
  9. contactel.cz 1.89 %
 10. karneval.cz 1.29 %

Rozdíl je vidět hlavně v poklesu podílu velkých providerů ve prospěch připojení ze škol a firem.

05.02.2004 21:24 - TOPlist - trvalý odkaz

Statické linky na TOPlist

Jelikož:

a) se teď webserver celkem fláká
b) jsem si chtěl vyzkoušet mod_rewrite
c) mě štve Google tou svojí ignorací dynamických stránek

nastavil jsem Apache tak, aby bral i linky do kategorií jako adresáře. Takže žebříček weblogů nyní funguje i na adrese http://www.toplist.cz/weblogy. Odstránkování se děje přes "podadresář", např. http://www.toplist.cz/weblogy/50.

Když už jsem byl v tom, tak jsem zprovoznil i jednodušší přístup k podrobným statistikám, které jsou přes adresář stat a ID. Viz. http://toplist.cz/stat/50427.

Původní cesty přes dynamické adresy zůstávají zachovány.

04.02.2004 14:42 - TOPlist - trvalý odkaz

Přesun proveden

Takže přesun byl v noci proveden podle plánu. Až na ignoraci hodinové expirace DNS záznamu u některých providerů (Contactel, Tiscali aj.) vše proběhlo relativně hladce.

Co se týče výkonu, má systém nyní dost velkou rezervu a navíc možnost snadného upgradu.

20.08.2003 01:24 - TOPlist - trvalý odkaz

Statistiky podle kategorií

Yuhůů mne přemluvil, abych vytvořil stránku s nějakými celkovými statistikami TOPlistu. První verze je na adrese http://www.toplist.cz/global.html. Stránka je generována jednou denně. 

Zatím jsou na ní podíly prohlížečů a op. systému podle kategorií za předchozí den (tj. ten den, jehož datum tam je napsáno :-)). Zobrazeny jsou pouze ty typy, které mají alespoň v jedné kategorii podíl nad 0,1%.

Ještě je tam tabulka s průběhem návštěvnosti během posledního týdne.

Další statistiky budou postupem času přibývat. Když mi dáte vědět, co chcete, pokusím se je vytvořit.

Ze statistik určitě vyčtete něco zajímavého. Já upozorním alespoň na to, co je přímo do očí bijící. Tím je skutečnost, jak moc se liší weblogová komunita od ostatních (jediná kategorie, kde má Gecko nad 10%, FreeBSD nad 0,1% apod. :-)).

02.07.2003 16:51 - TOPlist - trvalý odkaz

Podkategorie na TOPlistu

Vím o tom, že probíhá diskuse nad rozdělením kategorie Weblogy na víc podkategorií (přehled je třeba u Každého blogujícího :-))

Nad tím jsem v minulosti už i přemýšlel (např. chovatelé by šli rozdělit na pejskaře, kočičkáře ad.). Nerad bych ale opustil výhody "jedné úrovně" - např. možnost rychlého přechodu z kategorie do kategorie pomocí selectu, odkaz na všechno hned z homepage apod. A zároveň nechci mít z TOPlistu katalog. V první řadě slouží k měření návštěvnosti.

Pokud vás ale napadne nějaký jednoduchý a účinný způsob jak to vyřešit, není problém jej aplikovat. Vaše náměty a připomínky jen uvítám buď v diskusi nebo na mailu.

UPDATE - Robert reagoval s námitkou, že by se měl filtrovat erotický obsah. Tohle TOPlist ovšem dělá odjakživa (viz. výpis všech kategorii či hledání, kde nejsou erotické stránky). Jen je někdy těžší rozhodnout, jestli je to víc osobní stránka exhibicionisty, blog nebo porno. Podobně dilema jako třeba v případě obchodu s erotickým zbožím. Je to erotika nebo virtuální obchod?

23.06.2003 18:03 - TOPlist - trvalý odkaz

TOPlist - tajné funkce IV.

Dneska poodhalím trochu ze zákulisí TOPlistu. Pokud vás zajímá hardware, na kterém běží, tak vězte, že se jedna o:

MB MSI KT3 Ultra2
CPU Athlon 1800+
RAM 1GB
SCSI SEAGATE Model: ST318453LW @ Tekram DC-390U2W

A jak na tom běží mySQL můžete vidět třeba na http://www.toplist.cz/images/mysql.png. Jedná se o graf množství dotazů za vteřinu během několika posledních hodin.

16.06.2003 16:12 - TOPlist - trvalý odkaz

TOPlist - tajné funkce III.

Dnes to nebude ani tak funkce, jako spíš pomůcka k lepší funkcionalitě TOPlistu. Množina rozeznávaných prohlížečů a op. systémů má asi 99% podíl na trhu (za to, že jich dohromady je asi 20 druhů můžem třeba Billovi nadávat, ale prostě je to skutečnost. Pochopitelně, bylo by hezké počítat všechno, ale musím zase brát ohled na poměr cena/výkon, resp. počet/zatížení procesoru).

Pokud máte podezření, že váš prohlížeč či operační systém, jehož podíl se neblíží k nule, není detekován správně, můžete si jej ověřit na stránce http://www.toplist.cz/cgi-bin/test.pl, kde bude vypsáno co si myslí TOPlist a co o sobě tvrdí váš prohlížeč. A pokud to nebude souhlasit, tak mi prosím dejte vědět na pavel@toplist.cz.

< Novějších 20 článků - Starších 20 článků >
Autor:
franci
Archív:
únor 2010
PoÚtStČtSoNe
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28