Přes systémy Apify proteče měsíčně přes petabajt dat. To by nebylo možné bez používání cloudu

Pražský startup se při budování svých produktů spoléhá na silnou infrastrukturu AWS, jež umožňuje rychlé škálování podle aktuálních potřeb.

Peter BrejčákPeter Brejčák

apify-founders-boxed-1

Foto: Apify

Zakladatelé Apify Jakub Balada a Jan Čurn

Automaticky se dívá na webové stránky, a když na nich přibude něco nového, data stáhne a nabídne je na další analýzu. České Apify pomocí takzvaného scrapování ulehčuje život více než tisícovce platících zákazníků po celém světě a dalším tisícům uživatelů v rámci své bezplatné verze. Zatímco případů, jak se dá taková technologie využít v praxi, existuje v podstatě neomezený počet, nejlépe se její fungování přibližuje na neziskových projektech, na nichž sedmiletý startup pracuje – boj s pašeráky dětí, zaznamenávání válečných zločinů i překonávání jazykových bariér migrantů. Při tom všem spoléhá na infrastrukturu Amazon Web Services.

„Scraping je hrozně důležitý nástroj, který na internetu pomáhá vytvářet hodnotu. Nejvíc na celém světě scrapují vyhledávače a přidaná hodnota jejich technologií je jasná – bez vyhledávání by byl internet horším místem,“ popsal již dříve jeden ze zakladatelů a ředitel Apify Jan Čurn pro CzechCrunch.

Když Čurn společně s Jakubem Baladou v roce 2015 Apify zakládali, prošli prestižním akceleračním programem Y Combinatoru v Silicon Valley. Startup tehdy jako jednu z výhod od Amazonu získal dvacet tisíc dolarů v kreditech na využití cloudu Amazon Web Services (AWS). „Tak jsme kolem toho nástroje začali vše stavět. Tímto krokem nám AWS přirostlo k srdci a naše infrastruktura přirostla k AWS,“ usmívá se Čurn.

Za jednu z hlavních výhod této spolupráce Apify označuje to, že kolem řešení od Amazonu může v relativně malém týmu stavět velké věci. Dlouhodobě měl startup například jen jediného člena ve svém DevOps týmu.

marek-trunkat-apify

Foto: Apify

Technologický ředitel Apify Marek Trunkát

„AWS nám také nabízí širokou podporu. Ta začala zmíněnými kredity pro startupy, širokou komunitou připravenou sdílet know-how  a pořádající paletu meetupů až po dnešní přímou podporu ze strany AWS, kdy nám pomáhají efektivněji využít jejich služby z hlediska architektury. Důležité je, že cena služeb je naprosto predikovatelná a škáluje lineárně se zátěží, což nám umožňuje generovat stabilní marži i při rychlém růstu,“ hodnotí technologický ředitel Apify Marek Trunkát.

V konkrétních číslech měsíčně Apify automatizuje kolem 20 milionů úkolů, které zprocesují přes petabajt (tisíc terabajtů) webových dat. V tak velkém objemu optimalizuje mnoha způsoby, jedním z nich je i například využití AWS spot instancí. „Ty nám dovolují v reálném čase nakupovat volné kapacity serverů za výrazně nižší cenu. Jen tohle nám snížilo náklady o čtvrtinu. AWS byl první provider, který tento produkt nabídl,“ říká Trunkát.

Boj s pašeráky dětí i zaznamenávání válečných zločinů

Scraping webů Apify kromě jiného využívá také u neziskových projektů. Jedním z největších je boj s pašeráky dětí – digitální nástroj Spotlight shromažďuje data z eskortních stránek, kde se objevují i inzeráty podezřelé z obchodu s mladistvými. Informace jsou zasílané vyšetřovatelům, kterým pomáhají rychleji nalézt oběti a dopadnout viníky. Za projektem stojí americká nezisková organizace Thorn, technologie funguje právě na řešení startupu a škáluje se i díky AWS.

„Klient za námi přišel sám, když hledal nového dodavatele dat. Jejich předchozí vendor neměl nasazený správný monitoring, takže se stalo, že Thorn přes týden nevěděl, že se nestahují inzeráty z jednoho z portálů. Což je v tomto typu projektu zásadní problém,“ přibližuje Trunkát s tím, že všechna data pro Thorn Apify transformuje na sjednocený formát a následně nahrává do AWS přímo u zákazníka.

Ryanair, Netflix, či Tinder – každý jiným způsobem, ale všichni využívají služeb AWS. Přečtěte si jejich příběhy a objevte možnosti cloudu.

Díky společné práci Thornu a Apify se podařilo identifikovat přes 17 tisíc dětí, z nichž bylo více než deset tisíc navráceno ke svým rodinám. Startup kontroluje přes deset různých portálů, což představuje 13 milionů inzerátů měsíčně, přes 12 milionů telefonních čísel a téměř 80 milionů stažených obrázků z inzerátů.

Podobných projektů pro dobrou věc ale Apify dělá několik. Dalším příkladem je digitalizace kolektivní paměti o válkách. Mezinárodní nezisková organizace Mnemonic uchovává v digitální formě důkazy o porušování lidských práv, ať už jde o reportáže, fotografie, videa nebo další příspěvky. Původně se zaměřovala na válku v Sýrii, nyní na konflikt na Ukrajině.

Startup také pomáhá překonávat jazykové bariéry. Cílem iniciativy Welcome je výzkum a vývoj inteligentních technologií na podporu přijímání a integrace migrantů a uprchlíků v Evropě. Problémem bývá mluvený dialekt lidí, který není zachycen v psané podobě. Pomocí scrapingu ale Apify dokáže najít příklady dialektů ze sociálních sítí a na základě těchto dat pomáhá trénovat umělou inteligenci, jež se učí i tato nářečí překládat.

Je skvělé být součástí rozvoje a expanze společností, jako je Apify. V AWS nabízíme startupům cloudová řešení a rozsáhlou podporu, s jejichž pomocí mohou vybudovat vlastní infrastrukturu rychleji a akcelerovat tak svůj růst. Kromě specializovaného týmu je tato podpora poskytována prostřednictvím programů, jako je AWS Activate, kde startupy získávají zdarma nástroje, zdroje informací, obsah a odbornou podporu, nebo 10týdenní program na míru AWS Startup Loft Accelerator. Ten umožňuje začít pracovat s technologiemi AWS a sdílet know-how,“ říká Tomasz Stachlewski, vedoucí technologií pro oblast Evropy, Afriky a Blízkého východu ve společnosti AWS.

Desítky tisíc českých uživatelů pak další z řešení Apify využívají v rámci Hlídače shopů, který sleduje e-commerce hráče, jestli zákazníkům férově komunikují slevy. Evropská unie totiž definovala, jak se mají zvýhodněné ceny vypočítávat, a tak Apify společně se startupy Keboola a TopMonks vyvinuly nástroj, jež dodržování tohoto nařízení sleduje.

„AWS nám pomáhá při všech těchto činnostech. Je to primárně silná infrastruktura, která nám rychle umožňuje naškálovat jakýkoliv z našich projektů. Když potřebujeme nastartovat tisíce prohlížečů během relativně krátké chvíle, není to problém, stejně tak ani stáhnout terabajty až petabajty dat,“ uzavírá Trunkát.

CC Native

Partnerem článku je Amazon Web Services