Přeskočit na obsah
PRÁCE

Celé portfolio a technická hloubka

Pro toho, kdo chce vidět víc — minulé role, produkty a jak hluboko do stacku jdu.

01CO STAVÍM

Co aktuálně stavím

B2B · PRODUKCE

Autonomous Data Feeds

Spravované B2B datové feedy s nulovými tichými chybami a nulovou údržbou na straně klienta.

Pipeline propojuje rychlé lokální deterministické parsery, sémantickou AI validaci v reálném čase a vlastní fyzický LTE proxy pool v ČR. Systém se sám opravuje (heals) při změnách layoutu a garantuje stálou validitu výstupů (SLA).

Žádné dashboardy, pouze surová strukturovaná data doručovaná přímo do S3, SFTP, na Webhook nebo přes REST API.

Živé demo a specifikace ↗
SOLO · R&D

Surfaced

AI Search Visibility scanner + GEO content methodology.

Měří, kde brand chybí v Google AI Overview, a generuje obsah, který tu díru zaplní.

Stack: rané R&D, zatím nefinalizováno.

Solo · R&D fáze.

Více informací: jan.hilgard@gmail.com

CTO produkčních AI produktů (Advanty, Margly, Discury)

Tři produkční AI produkty, kde jsem postavil a vedl technickou architekturu a AI stack. Minulá role — dnes to nejsou moje produkty.

Advanty

AI-powered competitive intelligence pro marketingové agentury.

Agenti auto-tagují reklamy, extrahují hooky, klasifikují CTA a tagují kreativy — vše jako spolehlivé structured outputs.

Stack: Qwen 3.6 on vllm-mlx (Apple Silicon M3 Ultra). Batch-friendly workload se spolehlivými structured outputs — owned inference dával ekonomicky i provozně smysl.

Vedl jsem AI stack a agentní flow projektu a zajišťoval technický dohled jako CTO produkčních AI produktů.

Margly

E-commerce analytika pro Shoptet e-shopy.

AI agenti odhalují margin leaks, doporučují cenové změny, auto-tagují transakce a běží multi-step orchestraci nad objednávkami, dopravou, reklamními náklady a vratkami.

Stack: Google AI (Gemini). Zvoleno záměrně — Margly potřebovala rychlou odezvu pro multi-step tool calling a autonomní orchestraci. Vlastní inference onsite by se v této třídě úloh ekonomicky nevyplatila.

Vedl jsem AI stack a agentní flow projektu a zajišťoval technický dohled jako CTO produkčních AI produktů.

Discury

Customer intelligence — těží z Redditu, Hacker News a Product Hunt pain points, trendy a tržní mezery.

Discovery a klasifikační agenti surfují signály ve velkém objemu; summarization agenti destilují nuance, na které stojí za to reagovat.

Stack: hybridní orchestrace. Discovery a klasifikační agenti na Qwen 3.6 / vllm-mlx (high-volume, batch-tolerant); finální summarization a nuance-heavy reasoning na Google AI tam, kde per-token premium ospravedlnila kvalita výstupu. Routing rozhodnut per agent task.

Vedl jsem AI stack a agentní flow projektu a zajišťoval technický dohled jako CTO produkčních AI produktů.

07PŘEDCHOZÍ PROJEKTY

Co jsem spoluzakládal a rozvíjím

SPOLUZALOŽENO · AKTIVNÍ ROZVOJ

Lobot.chat

AI chatbot pro automatizaci zákaznické podpory v e-commerce. Vyřeší až 98 % dotazů bez zapojení člověka, doporučuje produkty a aktivně pomáhá s prodejem. Navrhl jsem a kompletně odřídil technickou architekturu, včetně integrací do Shopify, WooCommerce, Magento, PrestaShop a OpenCart. Jako spoluzakladatel se nadále aktivně podílím na jeho technickém rozvoji a provozu.

lobot.chat
SPOLUZALOŽENO · DLOUHODOBÁ KONZULTACE

GuruWatch

Komplexní B2B monitorovací dashboard pro výrobce a distributory. GuruWatch v reálném čase sleduje skladové zásoby a ceny u partnerských e-shopů napříč trhem, hlídá cenové trendy a posílá okamžitá upozornění. Mezi klienty patří značky jako Lenovo, Niceboy nebo Infinix. Navrhl jsem a kompletně postavil celou datovou a scraping pipeline, která spolehlivě funguje ve velkém měřítku. Provoz projektu byl sice předán novému majiteli, ale i nadále pro GuruWatch zajišťuji strategickou technickou podporu a konzultace.

www.guruwatch.cz
03JAK STAVÍM

Většina „AI agentů“ jsou demos. Produkční systémy potřebují celý stack pod sebou.

Stavím napříč celým stackem — agentic flows, které produkt pohánějí, i inference, proxy a datovou infrastrukturu pod nimi. Takhle to vypadá na orchestrační vrstvě; důkaz na infra vrstvě je níž.

  1. 01

    Multi-model orchestration

    Routing requestů mezi lokálními modely (Qwen, Gemma) a cloud APIs (Claude, GPT) podle task complexity + cost. Production cost saving 60–80 % oproti pure cloud setupu.

    Postaveno do high-volume agent tasks v Discury — owned Qwen 3.6, frontier cloud modely jen tam, kde kvalita výstupu ospravedlnila premium.

  2. 02

    Hermes-style tool calling

    Žádné brittle prompt chains. Agent dostane tool set, rozhoduje sám. Vyžaduje strong reasoning model + správnou tool granularitu. Lessons learned z production deployment.

    Postaveno do Margly pro autonomní multi-step orchestraci nad daty objednávek, nákladů a reklam.

  3. 03

    MCP-native architektura

    Model Context Protocol jako foundation pro tool integration. Praktické patterny pro context management, error recovery a debugging multi-step agents.

  4. 04

    Failure modes v produkci

    Tool calling loops, hallucinated calls, context window poisoning, infinite retry loops. Co jsem v produkci viděl a jak to řešit.

    Patterny ze stavby a provozu více produkčních webů a aplikací postavených nad AI.

  5. 05

    Token ekonomika agentických systémů

    Prefill vs generation cost. KV cache reuse. Speculative decoding pro agent loops. Praktické ROI analýzy.

    Proč jsem Advanty a Discury postavil na owned inference — naměřené ROI M3 Ultra vs. cloud API per task class; lokální inference se při nedostupnosti automaticky přepínala na public cloud.

Píšu o tom pravidelně. Pokud máš production agentic workflow, který krvácí na tokens nebo má failure mode issues, ozvi se →

04DŮKAZ HLOUBKY

Jak hluboko do stacku jdu — když to ekonomika vyžaduje.

Když to unit ekonomika vyžaduje, jdu až dolů — na inference vrstvu i na vrstvu přístupu k datům. vllm-mlx (79 merged PRs) a vlastnoručně postavený LTE proxy pool jsou dva konce stejného příběhu: owned inference, díky kterému byly produkty levné na provoz, a residential-IP scraping stack, díky kterému je gated public data dosažitelná. MLX dělám z nutnosti efektivity, ne jako research specializaci.

  • vllm-mlx core contributor

    79 merged PRs do open-source LLM inference projektu pro Apple Silicon (581+ stars). Primary implementor Anthropic Messages API (/v1/messages) — compatibility layer, díky kterému vllm-mlx funguje s Claude Code a OpenCode.

    Hlavní areas of work:

    • ·KV cache quantization: QuaRot live inference, asymmetric K/V bit quantization pro prefix cache, TurboQuant R1 Hadamard rotation pro outlier-free MoE weight quantization
    • ·Constrained decoding: JSON schema enforcement, thinking suppression, preamble handling, array-of-objects fixes
    • ·MLLM infrastructure: logits processor context, token duplication fixes, tools/tool_choice v chat templates
    • ·Production reliability: client disconnect detection, in-flight token credit při request abort, generation_tps batch stats
    • ·Streaming: UTF-8-safe incremental decode, tool calls s reasoning parserem, leak fixes pro Anthropic streaming
    github.com/waybarrios/vllm-mlx
  • Infrastruktura přístupu k datům (druhý konec)

    Vlastnoručně postavený LTE proxy pool — Raspberry Pi plus consumer MiFi modemy na rotujících CGNAT residential IP — který posílá scraping traffic z organicky residential adres, s komerční proxy jako hot fallback. Anti-detect scraping přes Cloudflare / DataDome / Akamai. Reálná throughput data z produkčních pipeline (10k+ requests/day).

    Číst: LTE proxy pool
  • Production batch inference

    Apple M3 Ultra 256GB jako primary inference machine. Workloads s 9:1 prefill/generation ratio (image classification, content tagging, structured extraction). 274 tok/s sustained throughput na Gemma 4 26B-A4B s concurrency 8.

  • Hardware ekonomika

    Reálné ROI analýzy: M3 Ultra vs RTX PRO 6000 Blackwell pro různé workload types. Cost-per-token kalkulace napříč cloud providery vs vlastní infrastruktura. Payback period modeling pro hardware investice.

  • Local LLM deployment patterns

    vLLM, SGLang, llama.cpp, MLX. Kdy použít který stack. Quantization tradeoffs. Multi-model serving. Auto-scaling na bare metal vs Kubernetes.

06TIMELINE

Cesta od začátku

  1. DNES

    Aktuální focus

    Core contributor vllm-mlx. Vývoj Surfaced (R&D). Otevřen pro Fractional CTO a technické advisory spolupráce.

  2. ZAČÁTEK 2025

    Spuštění Advanty, Margly & Discury + vllm-mlx

    Oficiální nasazení a spuštění tří komplexních AI produktů v pozici CTO a AI architekta: Margly (profitability analytics pro e-shopy), Discury (customer intelligence platform) a Advanty (AI competitive intelligence). Architektury kombinují lokální inferenci s frontier cloudy. Zároveň aktivní role core contributora do open-source frameworku vllm-mlx (LLM inference na Apple Silicon, přes 80 schválených PR, autor kompatibilní Messages API vrstvy pro nástroje jako Claude Code).

  3. 2024

    R&D a vývoj AI stacku

    Intenzivní vývoj, testování lokálních modelů a návrh hybridní infrastruktury pro chystané AI produkty. Práce na spolehlivosti orchestrace agentických toků (agentic flows) a optimalizaci nákladů na tokeny (inference economics).

  4. 2023

    Vývoj a spoluzaložení Lobot.chat

    Vývoj pokročilého e-commerce chatbota s integrací na platformy jako Shopify, WooCommerce či Magento. Na projektu se jako spoluzakladatel nadále aktivně technicky podílím.

  5. 2022

    Plný přechod k AI/ML stacku

    Hluboký ponor do lokálních LLM modelů, agentických workflow a optimalizace inference. Překonávání gapu mezi akademickým výzkumem a reálně provozovatelnou infrastrukturou pro solo zakladatele.

  6. 2021

    Spoluzaložení GuruWatch

    Vývoj a spuštění robustní scraping a datové pipeline pro sledování cenových trendů u stovek e-shopů (značky jako Lenovo, Infinix, Niceboy). Pro projekt i nadále funguji jako technický konzultant.

  7. ZÁŘÍ 2020

    Úspěšný exit Hosting90

    Kompletní prodej společnosti Hosting90 systems s.r.o. mezinárodní skupině WY Group (provozovatel značky Ignum). Transakce byla veřejně oznámena.

    hostingy.net
  8. 2002

    Založení Hosting90

    Založení hostingové a infrastrukturní společnosti a jejích 18 let budování od nuly z garáže až po tým 25 lidí a vlastní servery.

Advisory / fractional CTO

Pro technické týmy — inference economics, agentic architektura, technické due diligence.

Advisory / fractional CTO
Zkonzultovat můj projekt zdarma