PRÁCE

Celé portfolio a technická hloubka

Pro toho, kdo chce vidět víc — minulé role, produkty a jak hluboko do stacku jdu.

01—CO STAVÍM

Co aktuálně stavím

B2B · PRODUKCE

Autonomous Data Feeds

Spravované B2B datové feedy s nulovými tichými chybami a nulovou údržbou na straně klienta.

Pipeline propojuje rychlé lokální deterministické parsery, sémantickou AI validaci v reálném čase a vlastní fyzický LTE proxy pool v ČR. Systém se sám opravuje (heals) při změnách layoutu a garantuje stálou validitu výstupů (SLA).

Žádné dashboardy, pouze surová strukturovaná data doručovaná přímo do S3, SFTP, na Webhook nebo přes REST API.

Živé demo a specifikace ↗

SOLO · R&D

Surfaced

AI Search Visibility scanner + GEO content methodology.

Měří, kde brand chybí v Google AI Overview, a generuje obsah, který tu díru zaplní.

Stack: rané R&D, zatím nefinalizováno.

Solo · R&D fáze.

→ Více informací: jan.hilgard@gmail.com

CTO produkčních AI produktů (Advanty, Margly, Discury)

Tři produkční AI produkty, kde jsem postavil a vedl technickou architekturu a AI stack. Minulá role — dnes to nejsou moje produkty.

Advanty

AI-powered competitive intelligence pro marketingové agentury.

Agenti auto-tagují reklamy, extrahují hooky, klasifikují CTA a tagují kreativy — vše jako spolehlivé structured outputs.

Stack: Qwen 3.6 on vllm-mlx (Apple Silicon M3 Ultra). Batch-friendly workload se spolehlivými structured outputs — owned inference dával ekonomicky i provozně smysl.

Vedl jsem AI stack a agentní flow projektu a zajišťoval technický dohled jako CTO produkčních AI produktů.

Margly

E-commerce analytika pro Shoptet e-shopy.

AI agenti odhalují margin leaks, doporučují cenové změny, auto-tagují transakce a běží multi-step orchestraci nad objednávkami, dopravou, reklamními náklady a vratkami.

Stack: Google AI (Gemini). Zvoleno záměrně — Margly potřebovala rychlou odezvu pro multi-step tool calling a autonomní orchestraci. Vlastní inference onsite by se v této třídě úloh ekonomicky nevyplatila.

Vedl jsem AI stack a agentní flow projektu a zajišťoval technický dohled jako CTO produkčních AI produktů.

Discury

Customer intelligence — těží z Redditu, Hacker News a Product Hunt pain points, trendy a tržní mezery.

Discovery a klasifikační agenti surfují signály ve velkém objemu; summarization agenti destilují nuance, na které stojí za to reagovat.

Stack: hybridní orchestrace. Discovery a klasifikační agenti na Qwen 3.6 / vllm-mlx (high-volume, batch-tolerant); finální summarization a nuance-heavy reasoning na Google AI tam, kde per-token premium ospravedlnila kvalita výstupu. Routing rozhodnut per agent task.

Vedl jsem AI stack a agentní flow projektu a zajišťoval technický dohled jako CTO produkčních AI produktů.

07—PŘEDCHOZÍ PROJEKTY

Co jsem spoluzakládal a rozvíjím

SPOLUZALOŽENO · AKTIVNÍ ROZVOJ

Lobot.chat

AI chatbot pro automatizaci zákaznické podpory v e-commerce. Vyřeší až 98 % dotazů bez zapojení člověka, doporučuje produkty a aktivně pomáhá s prodejem. Navrhl jsem a kompletně odřídil technickou architekturu, včetně integrací do Shopify, WooCommerce, Magento, PrestaShop a OpenCart. Jako spoluzakladatel se nadále aktivně podílím na jeho technickém rozvoji a provozu.

→ lobot.chat

SPOLUZALOŽENO · DLOUHODOBÁ KONZULTACE

GuruWatch

Komplexní B2B monitorovací dashboard pro výrobce a distributory. GuruWatch v reálném čase sleduje skladové zásoby a ceny u partnerských e-shopů napříč trhem, hlídá cenové trendy a posílá okamžitá upozornění. Mezi klienty patří značky jako Lenovo, Niceboy nebo Infinix. Navrhl jsem a kompletně postavil celou datovou a scraping pipeline, která spolehlivě funguje ve velkém měřítku. Provoz projektu byl sice předán novému majiteli, ale i nadále pro GuruWatch zajišťuji strategickou technickou podporu a konzultace.

→ www.guruwatch.cz

03—JAK STAVÍM

Většina „AI agentů“ jsou demos. Produkční systémy potřebují celý stack pod sebou.

Stavím napříč celým stackem — agentic flows, které produkt pohánějí, i inference, proxy a datovou infrastrukturu pod nimi. Takhle to vypadá na orchestrační vrstvě; důkaz na infra vrstvě je níž.

01
Multi-model orchestration
Routing requestů mezi lokálními modely (Qwen, Gemma) a cloud APIs (Claude, GPT) podle task complexity + cost. Production cost saving 60–80 % oproti pure cloud setupu.
→ Postaveno do high-volume agent tasks v Discury — owned Qwen 3.6, frontier cloud modely jen tam, kde kvalita výstupu ospravedlnila premium.
02
Hermes-style tool calling
Žádné brittle prompt chains. Agent dostane tool set, rozhoduje sám. Vyžaduje strong reasoning model + správnou tool granularitu. Lessons learned z production deployment.
→ Postaveno do Margly pro autonomní multi-step orchestraci nad daty objednávek, nákladů a reklam.
03
MCP-native architektura
Model Context Protocol jako foundation pro tool integration. Praktické patterny pro context management, error recovery a debugging multi-step agents.
04
Failure modes v produkci
Tool calling loops, hallucinated calls, context window poisoning, infinite retry loops. Co jsem v produkci viděl a jak to řešit.
→ Patterny ze stavby a provozu více produkčních webů a aplikací postavených nad AI.
05
Token ekonomika agentických systémů
Prefill vs generation cost. KV cache reuse. Speculative decoding pro agent loops. Praktické ROI analýzy.
→ Proč jsem Advanty a Discury postavil na owned inference — naměřené ROI M3 Ultra vs. cloud API per task class; lokální inference se při nedostupnosti automaticky přepínala na public cloud.

Píšu o tom pravidelně. Pokud máš production agentic workflow, který krvácí na tokens nebo má failure mode issues, ozvi se →

04—DŮKAZ HLOUBKY

Jak hluboko do stacku jdu — když to ekonomika vyžaduje.

Když to unit ekonomika vyžaduje, jdu až dolů — na inference vrstvu i na vrstvu přístupu k datům. vllm-mlx (79 merged PRs) a vlastnoručně postavený LTE proxy pool jsou dva konce stejného příběhu: owned inference, díky kterému byly produkty levné na provoz, a residential-IP scraping stack, díky kterému je gated public data dosažitelná. MLX dělám z nutnosti efektivity, ne jako research specializaci.

✓
vllm-mlx core contributor
79 merged PRs do open-source LLM inference projektu pro Apple Silicon (581+ stars). Primary implementor Anthropic Messages API (/v1/messages) — compatibility layer, díky kterému vllm-mlx funguje s Claude Code a OpenCode.
Hlavní areas of work:
- ·KV cache quantization: QuaRot live inference, asymmetric K/V bit quantization pro prefix cache, TurboQuant R1 Hadamard rotation pro outlier-free MoE weight quantization
- ·Constrained decoding: JSON schema enforcement, thinking suppression, preamble handling, array-of-objects fixes
- ·MLLM infrastructure: logits processor context, token duplication fixes, tools/tool_choice v chat templates
- ·Production reliability: client disconnect detection, in-flight token credit při request abort, generation_tps batch stats
- ·Streaming: UTF-8-safe incremental decode, tool calls s reasoning parserem, leak fixes pro Anthropic streaming
→ github.com/waybarrios/vllm-mlx
Infrastruktura přístupu k datům (druhý konec)
Vlastnoručně postavený LTE proxy pool — Raspberry Pi plus consumer MiFi modemy na rotujících CGNAT residential IP — který posílá scraping traffic z organicky residential adres, s komerční proxy jako hot fallback. Anti-detect scraping přes Cloudflare / DataDome / Akamai. Reálná throughput data z produkčních pipeline (10k+ requests/day).
→ Číst: LTE proxy pool
Production batch inference
Apple M3 Ultra 256GB jako primary inference machine. Workloads s 9:1 prefill/generation ratio (image classification, content tagging, structured extraction). 274 tok/s sustained throughput na Gemma 4 26B-A4B s concurrency 8.
Hardware ekonomika
Reálné ROI analýzy: M3 Ultra vs RTX PRO 6000 Blackwell pro různé workload types. Cost-per-token kalkulace napříč cloud providery vs vlastní infrastruktura. Payback period modeling pro hardware investice.
Local LLM deployment patterns
vLLM, SGLang, llama.cpp, MLX. Kdy použít který stack. Quantization tradeoffs. Multi-model serving. Auto-scaling na bare metal vs Kubernetes.

06—TIMELINE

Cesta od začátku

DNES
Aktuální focus
Core contributor vllm-mlx. Vývoj Surfaced (R&D). Otevřen pro Fractional CTO a technické advisory spolupráce.
ZAČÁTEK 2025
Spuštění Advanty, Margly & Discury + vllm-mlx
Oficiální nasazení a spuštění tří komplexních AI produktů v pozici CTO a AI architekta: Margly (profitability analytics pro e-shopy), Discury (customer intelligence platform) a Advanty (AI competitive intelligence). Architektury kombinují lokální inferenci s frontier cloudy. Zároveň aktivní role core contributora do open-source frameworku vllm-mlx (LLM inference na Apple Silicon, přes 80 schválených PR, autor kompatibilní Messages API vrstvy pro nástroje jako Claude Code).
2024
R&D a vývoj AI stacku
Intenzivní vývoj, testování lokálních modelů a návrh hybridní infrastruktury pro chystané AI produkty. Práce na spolehlivosti orchestrace agentických toků (agentic flows) a optimalizaci nákladů na tokeny (inference economics).
2023
Vývoj a spoluzaložení Lobot.chat
Vývoj pokročilého e-commerce chatbota s integrací na platformy jako Shopify, WooCommerce či Magento. Na projektu se jako spoluzakladatel nadále aktivně technicky podílím.
2022
Plný přechod k AI/ML stacku
Hluboký ponor do lokálních LLM modelů, agentických workflow a optimalizace inference. Překonávání gapu mezi akademickým výzkumem a reálně provozovatelnou infrastrukturou pro solo zakladatele.
2021
Spoluzaložení GuruWatch
Vývoj a spuštění robustní scraping a datové pipeline pro sledování cenových trendů u stovek e-shopů (značky jako Lenovo, Infinix, Niceboy). Pro projekt i nadále funguji jako technický konzultant.
ZÁŘÍ 2020
Úspěšný exit Hosting90
Kompletní prodej společnosti Hosting90 systems s.r.o. mezinárodní skupině WY Group (provozovatel značky Ignum). Transakce byla veřejně oznámena.
→ hostingy.net
2002
Založení Hosting90
Založení hostingové a infrastrukturní společnosti a jejích 18 let budování od nuly z garáže až po tým 25 lidí a vlastní servery.

08—V MÉDIÍCH

Hostingy.net·září 2020
Ignum koupilo HOSTING90 ↗

Advisory / fractional CTO

Pro technické týmy — inference economics, agentic architektura, technické due diligence.

Advisory / fractional CTO →

Celé portfolio a technická hloubka

Co aktuálně stavím

Autonomous Data Feeds

Surfaced

CTO produkčních AI produktů (Advanty, Margly, Discury)

Advanty

Margly

Discury

Co jsem spoluzakládal a rozvíjím

Lobot.chat

GuruWatch

Většina „AI agentů“ jsou demos. Produkční systémy potřebují celý stack pod sebou.

Multi-model orchestration

Hermes-style tool calling

MCP-native architektura

Failure modes v produkci

Token ekonomika agentických systémů

Jak hluboko do stacku jdu — když to ekonomika vyžaduje.

vllm-mlx core contributor

Infrastruktura přístupu k datům (druhý konec)

Production batch inference

Hardware ekonomika

Local LLM deployment patterns

Cesta od začátku

Aktuální focus

Spuštění Advanty, Margly & Discury + vllm-mlx

R&D a vývoj AI stacku

Vývoj a spoluzaložení Lobot.chat

Plný přechod k AI/ML stacku

Spoluzaložení GuruWatch

Úspěšný exit Hosting90

Založení Hosting90

Advisory / fractional CTO