Přeskočit na obsah
AGENTIC AI PRODUCTS · OWNED & CLOUD INFERENCE · BOOTSTRAP

Jan HilgardAGENTIC AI PRODUCTS · OWNED & CLOUD INFERENCE · BOOTSTRAP

Stavím AI produkty, kde AI je engine.
Agentic flows, tool calling, autonomní rozhodnutí.

Inference si vybírám per workload — owned (vllm-mlx) nebo frontier cloud modely; ta volba je where the value lives. 79 PRs do vllm-mlx. Exit Hosting90 (2020).

01O MNĚ

20+ let stavím tech firmy a produkty

V 2002 jsem založil Hosting90. Osmnáct let budování od garáže přes tým 25 lidí až po mezinárodní exit do WY Group v roce 2020.

Pak jsem si dal rok pauzu. Ponořil jsem se hlouběji do AI/ML stacku — lokální LLM modely, agentic workflows, inference infrastructure. Zjistil jsem, že existuje obrovský gap mezi tím, co AI labs publikují, a tím, co solo founder může reálně provozovat na vlastní infrastruktuře.

Tenhle gap mě teď zajímá nejvíc.

Tak to teď stavím: AI produkty, kde je AI engine, ne funkce. Tři z nich — Margly, Discury a Advanty — běží na agentic flows, které rozhodují, volají tools a samy odbavují multi-step úlohy.

Inference stack si vybírám per workload. Batch-friendly práce Advanty běží plně na owned inference (Qwen 3.6 na vllm-mlx, Apple Silicon); složitější agent orchestrace Margly běží na frontier cloudu (Google AI) kvůli spolehlivosti, kterou potřebuje; Discury orchestruje obojí. 79 PRs, které jsem zmergoval do vllm-mlx, je ta hloubka, díky které tohle rozhodnutí — owned nebo cloud, a kde — umím udělat.

Když nestavím vlastní produkty, dělám audity inference ekonomiky a agentic workflows pro AI startupy a tech firmy.

Otevřená otázka, kterou řeším: stavím Surfaced pro GEO (Generative Engine Optimization) — být citovaný v Google AI Overview — ale ještě nevím, nakolik je to reprodukovatelné napříč různými niche. Dokud nemám vlastní ověřené case studies, zůstává to projekt ve vývoji; content nabídka bez vlastního track recordu je jen prodavač slibů.

Žiji u Prahy, mluvím česky a anglicky (textově), publikuji o LLM ekonomice a infrastructure patterns.

Portrétní fotografie Jana Hilgarda, builder agentic AI produktů
02HOW MY PRODUCTS WORK

Většina „AI agentů“ jsou demos. Produkční systémy vyžadují něco jiného.

Aktivně řeším failure modes, token ekonomiku a orchestration patterny pro multi-step agentic workflows v produkci.

  1. 01

    Multi-model orchestration

    Routing requestů mezi lokálními modely (Qwen, Gemma) a cloud APIs (Claude, GPT) podle task complexity + cost. Production cost saving 60–80 % oproti pure cloud setupu.

    V produkci u Discury — high-volume agent tasks na owned Qwen 3.6, frontier cloud modely jen tam, kde kvalita výstupu ospravedlní premium.

  2. 02

    Hermes-style tool calling

    Žádné brittle prompt chains. Agent dostane tool set, rozhoduje sám. Vyžaduje strong reasoning model + správnou tool granularitu. Lessons learned z production deployment.

    V Margly pohání autonomní multi-step orchestraci nad daty objednávek, nákladů a reklam.

  3. 03

    MCP-native architektura

    Model Context Protocol jako foundation pro tool integration. Praktické patterny pro context management, error recovery a debugging multi-step agents.

  4. 04

    Failure modes v produkci

    Tool calling loops, hallucinated calls, context window poisoning, infinite retry loops. Co jsem v produkci viděl a jak to řešit.

    Patterny z provozu tří AI produktů v produkci.

  5. 05

    Token ekonomika agentických systémů

    Prefill vs generation cost. KV cache reuse. Speculative decoding pro agent loops. Praktické ROI analýzy.

    Proč Advanty a Discury běží na owned inference — naměřené ROI M3 Ultra vs. cloud API per task class; lokální inference se při nedostupnosti automaticky přepne na public cloud.

Píšu o tom pravidelně. Pokud máš production agentic workflow, který krvácí na tokens nebo má failure mode issues, ozvi se →

03SOUČASNÉ PRODUKTY

Co aktuálně stavím

SOLO · LIVE

Advanty

AI-powered competitive intelligence pro marketingové agentury.

Agenti auto-tagují reklamy, extrahují hooky, klasifikují CTA a tagují kreativy — vše jako spolehlivé structured outputs.

Stack: Qwen 3.6 on vllm-mlx (Apple Silicon M3 Ultra). Workload (auto-tagging, hook extraction, CTA classification, creative tagging) is batch-friendly with reliable structured outputs — owned inference makes sense economically and operationally.

Solo-built a provozované. Live.

www.advanty.io
MIRANDA MEDIA · LIVE

Margly

E-commerce analytika pro Shoptet e-shopy.

AI agenti odhalují margin leaks, doporučují cenové změny, auto-tagují transakce a běží multi-step orchestraci nad objednávkami, dopravou, reklamními náklady a vratkami.

Stack: Google AI (Gemini). Chosen deliberately — Margly's complex multi-step tool calling and autonomous orchestration require frontier-model reliability that current open-weights models don't yet match at this task class.

Postavil jsem a vedl technickou architekturu. Live.

margly.io
MIRANDA MEDIA · LIVE

Discury

Customer intelligence — těží z Redditu, Hacker News a Product Hunt pain points, trendy a tržní mezery.

Discovery a klasifikační agenti surfují signály ve velkém objemu; summarization agenti destilují nuance, na které stojí za to reagovat.

Stack: Hybrid orchestration. Discovery and classification agents on Qwen 3.6 / vllm-mlx (high-volume, batch-tolerant). Final summarization and nuance-heavy reasoning on Google AI where per-token premium is justified by output quality. Routing decided per agent task.

Postavil jsem a vedl technickou architekturu. Live.

discury.io
SOLO · R&D PHASE

Surfaced

AI Search Visibility scanner + GEO content methodology.

Měří, kde brand chybí v Google AI Overview, a generuje obsah, který tu díru zaplní.

Stack: rané R&D, zatím nefinalizováno.

Solo · R&D fáze.

Více informací: jan.hilgard@gmail.com
04THE INFERENCE MOAT

Moat je vlastnit inference vrstvu.

Proč moje produkty ekonomicky fungují jako bootstrap: inference vrstvu si stavím sám. vllm-mlx (79 merged PRs) není hobby — je to operační substrát, díky kterému jsou Advanty a Discury levné na provoz, a hloubka, která mi dovoluje rozhodnout, kdy je u produktů jako Margly správná volba cloud. Vlastnit stack znamená, že za inference neplatím retail.

  • vllm-mlx core contributor

    79 merged PRs do open-source LLM inference projektu pro Apple Silicon (581+ stars). Primary implementor Anthropic Messages API (/v1/messages) — compatibility layer, díky kterému vllm-mlx funguje s Claude Code a OpenCode.

    Hlavní areas of work:

    • ·KV cache quantization: QuaRot live inference, asymmetric K/V bit quantization pro prefix cache, TurboQuant R1 Hadamard rotation pro outlier-free MoE weight quantization
    • ·Constrained decoding: JSON schema enforcement, thinking suppression, preamble handling, array-of-objects fixes
    • ·MLLM infrastructure: logits processor context, token duplication fixes, tools/tool_choice v chat templates
    • ·Production reliability: client disconnect detection, in-flight token credit při request abort, generation_tps batch stats
    • ·Streaming: UTF-8-safe incremental decode, tool calls s reasoning parserem, leak fixes pro Anthropic streaming
    github.com/waybarrios/vllm-mlx
  • Production batch inference

    Apple M3 Ultra 256GB jako primary inference machine. Workloads s 9:1 prefill/generation ratio (image classification, content tagging, structured extraction). 274 tok/s sustained throughput na Gemma 4 26B-A4B s concurrency 8.

  • Hardware ekonomika

    Reálné ROI analýzy: M3 Ultra vs RTX PRO 6000 Blackwell pro různé workload types. Cost-per-token kalkulace napříč cloud providery vs vlastní infrastruktura. Payback period modeling pro hardware investice.

  • Local LLM deployment patterns

    vLLM, SGLang, llama.cpp, MLX. Kdy použít který stack. Quantization tradeoffs. Multi-model serving. Auto-scaling na bare metal vs Kubernetes.

  • Scraping & data infrastructure

    Anti-detect web scraping. LTE modem pools s CGNAT rotací. Anonymizující proxy stack. Reálná throughput data z produkčních pipeline (10k+ requests/day).

05JAK PŘEMÝŠLÍM

Pár principů, podle kterých pracuji

  1. 01

    Cost arbitrage jako strategie

    Cost arbitrage je strategie, ne preference. Kdo vlastní inference stack, soutěží na jiném základě než kdo platí OpenAI bill. Engineering decision s P&L impactem.

  2. 02

    Production > novelty

    Trendy jsou drahé. Working production systems = long-term moat. Šest měsíců s jedním providerem > tři měsíce honit každý nový release.

  3. 03

    Most mezi tech a business

    18 let jsem řídil tech firmu — kde CEO židle znamenala rozumět kódu i cash flow zároveň. Když dnes řeším architekturu, vidím P&L konsekvence. Když mluvím s investory, mluvím i o KV cache. Tahle kombinace je vzácná a tam, kde leží největší value.

  4. 04

    Bootstrap by choice, not by default

    Mám exit za sebou. Vím, jak vypadá VC track. Vědomě volím bootstrap, protože pro AI infrastructure tooling je profit > scale. Není to dogma, je to context-aware decision.

  5. 05

    Outcomes > activity

    20 let mi ukázalo, že shipping features ≠ creating value. Měřím sebe i projekty podle reálných outcomes (retention, margin, ARR), ne podle aktivit (PRs, posty, meetings). Tahle perspektiva přichází až po několika cyklech building/selling.

Pokud tohle rezonuje, jsme možná na stejné vlně.

06TIMELINE

Cesta od začátku

  1. DNES

    Aktuální focus

    Core contributor vllm-mlx. CTO v Miranda Media Group (Margly, Discury). Building Surfaced — AI Search Visibility scanner.

  2. 2025

    vllm-mlx core contributor

    79 merged PRs do vllm-mlx (open-source LLM inference pro Apple Silicon, 581+ stars). Napsal jsem Anthropic Messages API compatibility layer, díky kterému vllm-mlx funguje s Claude Code. Hlavní focus: KV cache quantization (QuaRot, asymmetric, TurboQuant), constrained decoding, MLLM infrastructure, production reliability.

  3. 2025

    Spuštění Advanty

    AI-powered competitive intelligence pro marketingové agentury.

  4. 2024

    Margly + Discury

    Spuštění Margly (e-commerce profitability analytics pro Shoptet) a Discury (customer intelligence platform) v rámci Miranda Media.

  5. 2023

    Spoluzaložení Lobot.chat

    AI chatbot pro e-commerce zákaznickou podporu. Dnes běží dál, provoz předán.

  6. 2022

    Přechod k AI

    Začátek práce s lokálními LLM modely a inference infrastructure.

  7. 2021

    Spoluzaložení GuruWatch

    B2B monitoring dashboard pro výrobce a distributory — sleduje skladové zásoby a ceny partnerů napříč e-shopy. Dnes běží dál, provoz předán.

  8. ZÁŘÍ 2020

    Exit Hosting90

    Prodej společnosti Hosting90 systems s.r.o. skupině WY Group (provozovatel značky Ignum). Transakce veřejně oznámena.

    hostingy.net
  9. 2002

    Založení Hosting90

    Start podnikatelské cesty v hostingu a web services. Firma působila pod značkou Hosting90 systems s.r.o. (IČO 28545711).

07PŘEDCHOZÍ PROJEKTY

Co jsem stavěl dřív

SPOLUZALOŽENO · PŘEDÁNO

Lobot.chat

AI chatbot pro e-commerce zákaznickou podporu — vyřeší až 98 % dotazů bez člověka, doporučuje produkty a dotahuje prodej. Nasazení přes JS snippet do Shopify, WooCommerce, Magenta, PrestaShopu i OpenCartu. Spoluzaložil jsem a vedl technickou část. Dnes běží dál, provoz předán.

lobot.chat
SPOLUZALOŽENO · PŘEDÁNO

GuruWatch

B2B monitoring dashboard pro výrobce a distributory — sleduje skladové zásoby a ceny prodejních partnerů napříč e-shopy, posílá real-time alerty a hlídá cenové trendy. Mezi zákazníky Lenovo, Niceboy nebo Infinix. Spoluzaložil jsem a stavěl data pipeline a infrastrukturu. Dnes běží dál, provoz předán.

www.guruwatch.cz
FAQ

Časté dotazy

Kdo je Jan Hilgard?
Jan Hilgard je builder AI produktů se sídlem u Prahy. Staví AI produkty, kde je AI engine — agentic flows, tool calling a autonomní rozhodnutí — a je core contributor vllm-mlx se 79 zmergovanými PRs. V roce 2002 založil Hosting90 a v roce 2020 ho prodal skupině WY Group.
Co Jan Hilgard staví?
AI produkty, kde je AI engine, ne funkce: Margly (e-commerce analytika pro Shoptet), Discury (customer intelligence) a Advanty (competitive intelligence pro marketingové agentury). Inference stack volí per workload.
Co je vllm-mlx a jaká je jeho role?
vllm-mlx je open-source LLM inference pro Apple Silicon — fork vLLM s MLX backendem. Jan zmergoval 79 PRs, včetně Anthropic Messages API compatibility layer, díky kterému funguje s Claude Code, plus KV cache quantization a constrained decoding.
Na jakém inference stacku běží jeho produkty?
Podle workloadu. Advanty běží plně na owned inference (Qwen 3.6 na vllm-mlx, Apple Silicon); Margly běží na frontier cloudu (Google AI) kvůli spolehlivosti agent orchestrace; Discury orchestruje obojí.
Je Jan Hilgard k dispozici pro spolupráci?
Je otevřený fractional CTO spolupráci, advisory roli k inference ekonomice nebo agentic architektuře, krátkodobému technickému due diligence a přednáškám či podcastům. Nejlepší kontakt je jan.hilgard@gmail.com.

Pojď spolupracovat

Email nebo LinkedIn — písemně česky i anglicky, stejnou rychlostí.
Na callech jsem nejsilnější v češtině; anglické cally fungují nejlíp domluvené předem s jasnou agendou. Většinou odpovím týž den.

Aktuálně otevřený k

  • Fractional CTO spolupráce pro AI / infrastructure startupy
  • Advisory role, kde se rozhoduje o inference ekonomice nebo agentic architektuře
  • Krátkodobé technické due diligence — AI produkty, inference stacky, scraping infrastruktura
  • Přednášky a podcasty o production AI infrastruktuře, vlastní inference ekonomice nebo přechodu Hosting90 → AI

Co aktuálně nepřijímám

  • Full-time pozice s nutností přestěhování mimo ČR
  • Projekty vyžadující víc než ~20 hodin týdně