Jan Hilgard je builder AI produktů se sídlem u Prahy. Staví AI produkty, kde je AI engine — agentic flows, tool calling a autonomní rozhodnutí — a je core contributor vllm-mlx se 79 zmergovanými PRs. V roce 2002 založil Hosting90 a v roce 2020 ho prodal skupině WY Group.

Co Jan Hilgard staví?

AI produkty, kde je AI engine, ne funkce: Margly (e-commerce analytika pro Shoptet), Discury (customer intelligence) a Advanty (competitive intelligence pro marketingové agentury). Inference stack volí per workload.

Co je vllm-mlx a jaká je jeho role?

vllm-mlx je open-source LLM inference pro Apple Silicon — fork vLLM s MLX backendem. Jan zmergoval 79 PRs, včetně Anthropic Messages API compatibility layer, díky kterému funguje s Claude Code, plus KV cache quantization a constrained decoding.

Na jakém inference stacku běží jeho produkty?

Podle workloadu. Advanty běží plně na owned inference (Qwen 3.6 na vllm-mlx, Apple Silicon); Margly běží na frontier cloudu (Google AI) kvůli spolehlivosti agent orchestrace; Discury orchestruje obojí.

Je Jan Hilgard k dispozici pro spolupráci?

Je otevřený fractional CTO spolupráci, advisory roli k inference ekonomice nebo agentic architektuře, krátkodobému technickému due diligence a přednáškám či podcastům. Nejlepší kontakt je jan.hilgard@gmail.com.

AGENTIC AI PRODUCTS · OWNED & CLOUD INFERENCE · BOOTSTRAP

Jan Hilgard — AGENTIC AI PRODUCTS · OWNED & CLOUD INFERENCE · BOOTSTRAP

Stavím AI produkty, kde AI je engine.
Agentic flows, tool calling, autonomní rozhodnutí.

Inference si vybírám per workload — owned (vllm-mlx) nebo frontier cloud modely; ta volba je where the value lives. 79 PRs do vllm-mlx. Exit Hosting90 (2020).

01—O MNĚ

20+ let stavím tech firmy a produkty

V 2002 jsem založil Hosting90. Osmnáct let budování od garáže přes tým 25 lidí až po mezinárodní exit do WY Group v roce 2020.

Pak jsem si dal rok pauzu. Ponořil jsem se hlouběji do AI/ML stacku — lokální LLM modely, agentic workflows, inference infrastructure. Zjistil jsem, že existuje obrovský gap mezi tím, co AI labs publikují, a tím, co solo founder může reálně provozovat na vlastní infrastruktuře.

Tenhle gap mě teď zajímá nejvíc.

Tak to teď stavím: AI produkty, kde je AI engine, ne funkce. Tři z nich — Margly, Discury a Advanty — běží na agentic flows, které rozhodují, volají tools a samy odbavují multi-step úlohy.

Inference stack si vybírám per workload. Batch-friendly práce Advanty běží plně na owned inference (Qwen 3.6 na vllm-mlx, Apple Silicon); složitější agent orchestrace Margly běží na frontier cloudu (Google AI) kvůli spolehlivosti, kterou potřebuje; Discury orchestruje obojí. 79 PRs, které jsem zmergoval do vllm-mlx, je ta hloubka, díky které tohle rozhodnutí — owned nebo cloud, a kde — umím udělat.

Když nestavím vlastní produkty, dělám audity inference ekonomiky a agentic workflows pro AI startupy a tech firmy.

Otevřená otázka, kterou řeším: stavím Surfaced pro GEO (Generative Engine Optimization) — být citovaný v Google AI Overview — ale ještě nevím, nakolik je to reprodukovatelné napříč různými niche. Dokud nemám vlastní ověřené case studies, zůstává to projekt ve vývoji; content nabídka bez vlastního track recordu je jen prodavač slibů.

Žiji u Prahy, mluvím česky a anglicky (textově), publikuji o LLM ekonomice a infrastructure patterns.

Portrétní fotografie Jana Hilgarda, builder agentic AI produktů

02—HOW MY PRODUCTS WORK

Většina „AI agentů“ jsou demos. Produkční systémy vyžadují něco jiného.

Aktivně řeším failure modes, token ekonomiku a orchestration patterny pro multi-step agentic workflows v produkci.

01
Multi-model orchestration
Routing requestů mezi lokálními modely (Qwen, Gemma) a cloud APIs (Claude, GPT) podle task complexity + cost. Production cost saving 60–80 % oproti pure cloud setupu.
→ V produkci u Discury — high-volume agent tasks na owned Qwen 3.6, frontier cloud modely jen tam, kde kvalita výstupu ospravedlní premium.
02
Hermes-style tool calling
Žádné brittle prompt chains. Agent dostane tool set, rozhoduje sám. Vyžaduje strong reasoning model + správnou tool granularitu. Lessons learned z production deployment.
→ V Margly pohání autonomní multi-step orchestraci nad daty objednávek, nákladů a reklam.
03
MCP-native architektura
Model Context Protocol jako foundation pro tool integration. Praktické patterny pro context management, error recovery a debugging multi-step agents.
04
Failure modes v produkci
Tool calling loops, hallucinated calls, context window poisoning, infinite retry loops. Co jsem v produkci viděl a jak to řešit.
→ Patterny z provozu tří AI produktů v produkci.
05
Token ekonomika agentických systémů
Prefill vs generation cost. KV cache reuse. Speculative decoding pro agent loops. Praktické ROI analýzy.
→ Proč Advanty a Discury běží na owned inference — naměřené ROI M3 Ultra vs. cloud API per task class; lokální inference se při nedostupnosti automaticky přepne na public cloud.

Píšu o tom pravidelně. Pokud máš production agentic workflow, který krvácí na tokens nebo má failure mode issues, ozvi se →

03—SOUČASNÉ PRODUKTY

Co aktuálně stavím

SOLO · LIVE

Advanty

AI-powered competitive intelligence pro marketingové agentury.

Agenti auto-tagují reklamy, extrahují hooky, klasifikují CTA a tagují kreativy — vše jako spolehlivé structured outputs.

Stack: Qwen 3.6 on vllm-mlx (Apple Silicon M3 Ultra). Workload (auto-tagging, hook extraction, CTA classification, creative tagging) is batch-friendly with reliable structured outputs — owned inference makes sense economically and operationally.

Solo-built a provozované. Live.

→ www.advanty.io

MIRANDA MEDIA · LIVE

Margly

E-commerce analytika pro Shoptet e-shopy.

AI agenti odhalují margin leaks, doporučují cenové změny, auto-tagují transakce a běží multi-step orchestraci nad objednávkami, dopravou, reklamními náklady a vratkami.

Stack: Google AI (Gemini). Chosen deliberately — Margly's complex multi-step tool calling and autonomous orchestration require frontier-model reliability that current open-weights models don't yet match at this task class.

Postavil jsem a vedl technickou architekturu. Live.

→ margly.io

MIRANDA MEDIA · LIVE

Discury

Customer intelligence — těží z Redditu, Hacker News a Product Hunt pain points, trendy a tržní mezery.

Discovery a klasifikační agenti surfují signály ve velkém objemu; summarization agenti destilují nuance, na které stojí za to reagovat.

Stack: Hybrid orchestration. Discovery and classification agents on Qwen 3.6 / vllm-mlx (high-volume, batch-tolerant). Final summarization and nuance-heavy reasoning on Google AI where per-token premium is justified by output quality. Routing decided per agent task.

Postavil jsem a vedl technickou architekturu. Live.

→ discury.io

SOLO · R&D PHASE

Surfaced

AI Search Visibility scanner + GEO content methodology.

Měří, kde brand chybí v Google AI Overview, a generuje obsah, který tu díru zaplní.

Stack: rané R&D, zatím nefinalizováno.

Solo · R&D fáze.

→ Více informací: jan.hilgard@gmail.com

04—THE INFERENCE MOAT

Moat je vlastnit inference vrstvu.

Proč moje produkty ekonomicky fungují jako bootstrap: inference vrstvu si stavím sám. vllm-mlx (79 merged PRs) není hobby — je to operační substrát, díky kterému jsou Advanty a Discury levné na provoz, a hloubka, která mi dovoluje rozhodnout, kdy je u produktů jako Margly správná volba cloud. Vlastnit stack znamená, že za inference neplatím retail.

✓
vllm-mlx core contributor
79 merged PRs do open-source LLM inference projektu pro Apple Silicon (581+ stars). Primary implementor Anthropic Messages API (/v1/messages) — compatibility layer, díky kterému vllm-mlx funguje s Claude Code a OpenCode.
Hlavní areas of work:
- ·KV cache quantization: QuaRot live inference, asymmetric K/V bit quantization pro prefix cache, TurboQuant R1 Hadamard rotation pro outlier-free MoE weight quantization
- ·Constrained decoding: JSON schema enforcement, thinking suppression, preamble handling, array-of-objects fixes
- ·MLLM infrastructure: logits processor context, token duplication fixes, tools/tool_choice v chat templates
- ·Production reliability: client disconnect detection, in-flight token credit při request abort, generation_tps batch stats
- ·Streaming: UTF-8-safe incremental decode, tool calls s reasoning parserem, leak fixes pro Anthropic streaming
→ github.com/waybarrios/vllm-mlx
Production batch inference
Apple M3 Ultra 256GB jako primary inference machine. Workloads s 9:1 prefill/generation ratio (image classification, content tagging, structured extraction). 274 tok/s sustained throughput na Gemma 4 26B-A4B s concurrency 8.
Hardware ekonomika
Reálné ROI analýzy: M3 Ultra vs RTX PRO 6000 Blackwell pro různé workload types. Cost-per-token kalkulace napříč cloud providery vs vlastní infrastruktura. Payback period modeling pro hardware investice.
Local LLM deployment patterns
vLLM, SGLang, llama.cpp, MLX. Kdy použít který stack. Quantization tradeoffs. Multi-model serving. Auto-scaling na bare metal vs Kubernetes.
Scraping & data infrastructure
Anti-detect web scraping. LTE modem pools s CGNAT rotací. Anonymizující proxy stack. Reálná throughput data z produkčních pipeline (10k+ requests/day).

05—JAK PŘEMÝŠLÍM

Pár principů, podle kterých pracuji

01
Cost arbitrage jako strategie
Cost arbitrage je strategie, ne preference. Kdo vlastní inference stack, soutěží na jiném základě než kdo platí OpenAI bill. Engineering decision s P&L impactem.
02
Production > novelty
Trendy jsou drahé. Working production systems = long-term moat. Šest měsíců s jedním providerem > tři měsíce honit každý nový release.
03
Most mezi tech a business
18 let jsem řídil tech firmu — kde CEO židle znamenala rozumět kódu i cash flow zároveň. Když dnes řeším architekturu, vidím P&L konsekvence. Když mluvím s investory, mluvím i o KV cache. Tahle kombinace je vzácná a tam, kde leží největší value.
04
Bootstrap by choice, not by default
Mám exit za sebou. Vím, jak vypadá VC track. Vědomě volím bootstrap, protože pro AI infrastructure tooling je profit > scale. Není to dogma, je to context-aware decision.
05
Outcomes > activity
20 let mi ukázalo, že shipping features ≠ creating value. Měřím sebe i projekty podle reálných outcomes (retention, margin, ARR), ne podle aktivit (PRs, posty, meetings). Tahle perspektiva přichází až po několika cyklech building/selling.

Pokud tohle rezonuje, jsme možná na stejné vlně.

06—TIMELINE

Cesta od začátku

DNES
Aktuální focus
Core contributor vllm-mlx. CTO v Miranda Media Group (Margly, Discury). Building Surfaced — AI Search Visibility scanner.
2025
vllm-mlx core contributor
79 merged PRs do vllm-mlx (open-source LLM inference pro Apple Silicon, 581+ stars). Napsal jsem Anthropic Messages API compatibility layer, díky kterému vllm-mlx funguje s Claude Code. Hlavní focus: KV cache quantization (QuaRot, asymmetric, TurboQuant), constrained decoding, MLLM infrastructure, production reliability.
2025
Spuštění Advanty
AI-powered competitive intelligence pro marketingové agentury.
2024
Margly + Discury
Spuštění Margly (e-commerce profitability analytics pro Shoptet) a Discury (customer intelligence platform) v rámci Miranda Media.
2023
Spoluzaložení Lobot.chat
AI chatbot pro e-commerce zákaznickou podporu. Dnes běží dál, provoz předán.
2022
Přechod k AI
Začátek práce s lokálními LLM modely a inference infrastructure.
2021
Spoluzaložení GuruWatch
B2B monitoring dashboard pro výrobce a distributory — sleduje skladové zásoby a ceny partnerů napříč e-shopy. Dnes běží dál, provoz předán.
ZÁŘÍ 2020
Exit Hosting90
Prodej společnosti Hosting90 systems s.r.o. skupině WY Group (provozovatel značky Ignum). Transakce veřejně oznámena.
→ hostingy.net
2002
Založení Hosting90
Start podnikatelské cesty v hostingu a web services. Firma působila pod značkou Hosting90 systems s.r.o. (IČO 28545711).

07—PŘEDCHOZÍ PROJEKTY

Co jsem stavěl dřív

SPOLUZALOŽENO · PŘEDÁNO

Lobot.chat

AI chatbot pro e-commerce zákaznickou podporu — vyřeší až 98 % dotazů bez člověka, doporučuje produkty a dotahuje prodej. Nasazení přes JS snippet do Shopify, WooCommerce, Magenta, PrestaShopu i OpenCartu. Spoluzaložil jsem a vedl technickou část. Dnes běží dál, provoz předán.

→ lobot.chat

SPOLUZALOŽENO · PŘEDÁNO

GuruWatch

B2B monitoring dashboard pro výrobce a distributory — sleduje skladové zásoby a ceny prodejních partnerů napříč e-shopy, posílá real-time alerty a hlídá cenové trendy. Mezi zákazníky Lenovo, Niceboy nebo Infinix. Spoluzaložil jsem a stavěl data pipeline a infrastrukturu. Dnes běží dál, provoz předán.

→ www.guruwatch.cz

08—V MÉDIÍCH

Hostingy.net·září 2020
Ignum koupilo HOSTING90 ↗

FAQ

Časté dotazy

Kdo je Jan Hilgard?: Jan Hilgard je builder AI produktů se sídlem u Prahy. Staví AI produkty, kde je AI engine — agentic flows, tool calling a autonomní rozhodnutí — a je core contributor vllm-mlx se 79 zmergovanými PRs. V roce 2002 založil Hosting90 a v roce 2020 ho prodal skupině WY Group.
Co Jan Hilgard staví?: AI produkty, kde je AI engine, ne funkce: Margly (e-commerce analytika pro Shoptet), Discury (customer intelligence) a Advanty (competitive intelligence pro marketingové agentury). Inference stack volí per workload.
Co je vllm-mlx a jaká je jeho role?: vllm-mlx je open-source LLM inference pro Apple Silicon — fork vLLM s MLX backendem. Jan zmergoval 79 PRs, včetně Anthropic Messages API compatibility layer, díky kterému funguje s Claude Code, plus KV cache quantization a constrained decoding.
Na jakém inference stacku běží jeho produkty?: Podle workloadu. Advanty běží plně na owned inference (Qwen 3.6 na vllm-mlx, Apple Silicon); Margly běží na frontier cloudu (Google AI) kvůli spolehlivosti agent orchestrace; Discury orchestruje obojí.
Je Jan Hilgard k dispozici pro spolupráci?: Je otevřený fractional CTO spolupráci, advisory roli k inference ekonomice nebo agentic architektuře, krátkodobému technickému due diligence a přednáškám či podcastům. Nejlepší kontakt je jan.hilgard@gmail.com.

Pojď spolupracovat

Email nebo LinkedIn — písemně česky i anglicky, stejnou rychlostí.
Na callech jsem nejsilnější v češtině; anglické cally fungují nejlíp domluvené předem s jasnou agendou. Většinou odpovím týž den.

Aktuálně otevřený k

Fractional CTO spolupráce pro AI / infrastructure startupy
Advisory role, kde se rozhoduje o inference ekonomice nebo agentic architektuře
Krátkodobé technické due diligence — AI produkty, inference stacky, scraping infrastruktura
Přednášky a podcasty o production AI infrastruktuře, vlastní inference ekonomice nebo přechodu Hosting90 → AI

Co aktuálně nepřijímám

Full-time pozice s nutností přestěhování mimo ČR
Projekty vyžadující víc než ~20 hodin týdně

Jan Hilgard — AGENTIC AI PRODUCTS · OWNED & CLOUD INFERENCE · BOOTSTRAP

20+ let stavím tech firmy a produkty

Většina „AI agentů“ jsou demos. Produkční systémy vyžadují něco jiného.

Multi-model orchestration

Hermes-style tool calling

MCP-native architektura

Failure modes v produkci

Token ekonomika agentických systémů

Co aktuálně stavím

Advanty

Margly

Discury

Surfaced

Moat je vlastnit inference vrstvu.

vllm-mlx core contributor

Production batch inference

Hardware ekonomika

Local LLM deployment patterns

Scraping & data infrastructure

Pár principů, podle kterých pracuji

Cost arbitrage jako strategie

Production > novelty

Most mezi tech a business

Bootstrap by choice, not by default

Outcomes > activity

Cesta od začátku

Aktuální focus

vllm-mlx core contributor

Spuštění Advanty

Margly + Discury

Spoluzaložení Lobot.chat

Přechod k AI

Spoluzaložení GuruWatch

Exit Hosting90

Založení Hosting90