Grok

@pelipasДмитрий Пелипас

Grok Imagine video 1.5: как писать промты, отличия от остальных видео моделей

## Коротко о главном

**Grok Imagine (Video 1.5)** от xAI — это не «Seedance с другим логотипом». Логика промтинга у него **принципиально другая**, и если переносить сюда привычки из Seedance вслепую — половина приёмов сломается. Главное, что нужно понять с самого начала:

> **Grok 1.5 — это image-to-video. Он не рисует сцену с нуля, он оживляет стартовый кадр. Промт описывает не картинку, а ДВИЖЕНИЕ, которое из неё рождается.**

Из этого следует всё остальное. Модель любит **короткую прозу с режиссёрским интентом** (не стек тегов), понимает **кинолексику на естественном английском** (push-in, drift, tracking shot), умеет **генерировать звук в том же проходе** — и при этом **НЕ умеет показать несколько ракурсов в одной генерации**. А значит, главный приём Seedance (таймкоды и нумерованные шоты в одном промте) здесь — миф, который только мешает.

Если вы усвоите только три правила из этой статьи, пусть это будут они:

1. **Описывай движение, а не картинку.** Модель уже видит стартовый кадр. Скажи ей, что приходит в движение: действие, камера, атмосфера. Короткой осмысленной прозой, не тегами.

2. **Один субъект + одно действие + одно движение камеры на клип.** Несколько ракурсов — НЕ в одной генерации, а **чейнингом «Extend from Frame»** (каждый клип стартует от последнего кадра предыдущего).

3. **Формулируй позитивно и прописывай звук.** Негатив-промты Grok игнорирует — никаких `Avoid:`. А вот строка `Sound:` — фирменная фича: звук генерируется синхронно с действием.

Дальше — детали, шаблоны и нюансы, которые отделяют «нейросеть погенерила» от «снято осознанно».

---

## 1. Как устроен промт к Grok Imagine 1.5

Главное отличие от привычного видео-промта: вы **не описываете сцену целиком**. Стартовый кадр уже задаёт субъекта, свет, композицию — «модель его видит». Ваша задача — **режиссировать изменение**: что оживает, как ведёт себя камера, как меняются свет и атмосфера, что звучит.

**Скелет одного клипа (один непрерывный шот):**

```

[Что приходит в движение: субъект + действие].

Camera: [одно named-движение — направление, скорость, старт/финиш].

[Сдвиг света / атмосферы].

Sound: [1–2 звуковых cue].

[Global look: жанр + грейд + фактура].

```

| Блок | Что кладём |

|---|---|

| **Motion** | Что приходит в движение: действие(я) субъекта. **Не переописывай статику кадра** — опиши изменение. Можно мульти-бит: `then…, then…` в одном дубле. |

| **Camera** | **Одна** named-инструкция: направление + скорость + старт/финиш. `slow push-in`, `camera drifts gently to the left`, `tracking shot alongside`, `locked, static`. |

| **Lighting / atmosphere** | Как **меняются** свет и среда по ходу клипа (`light warms as…`, `fog rolls in`) — сдвиг, а не статичное описание. |

| **Sound** | 1–2 звуковых cue прямо в промте. Фирменная фича Grok — пиши как саунд-дизайнер. |

| **Global look** | Жанр, цветовой грейд, фактура плёнки/оптики — глобальной строкой в конце. Короткие концепты можно через запятую. |

> ⚠️ **Миф №1, который кочует из гайдов по Seedance:** «насыщай промт деталями и тегами вроде `epic, 8K, cinematic, masterpiece`». В Grok это даёт **обобщённый, мутный** результат. Лучшие промты добавляют **не больше слов, а точнее направляют**. Держи промт коротким — это ещё и стабилизирует движение.

> 💡 **Удобный режиссёрский шаблон (если хочется структуры):** `Scene` (что происходит) + `Style` (эстетика) + `Mood` (эмоция) + `Lighting` (свет/время суток) + `Camera` (план, ощущение объектива, фокус). Для видео добавь к этому **действие и движение камеры** — то, что меняется.

---

## 2. Главный вопрос: «можно ли показать сцену с разных ракурсов в одной генерации?»

Короткий ответ: **в Grok Imagine 1.5 — нет.** И это самое важное отличие от Seedance, где такой мультишот в одном промте как раз работает.

> 🎬 **Одна генерация Grok = один непрерывный шот.** Дискретные смены плана/ракурса внутри одного промта не работают. Таймкоды (`0-5s / 5-10s`), маркеры `[00:00]`, скобочные `[Cut to:]`, фразы `camera switch` — **не дают настоящих кат-ов**. Это проверено и опровергнуто (см. таблицу мифов).

Тогда как же собрать сцену из нескольких ракурсов с единым луком? Рабочим процессом **«Extend from Frame»** — это «родной» способ Grok строить последовательности:

1. **Срежиссируй Клип 1** — один план, один промт по скелету.

2. **Сгенерируй**, возьми **последний кадр** клипа.

3. **Запусти Клип 2 от этого последнего кадра** как нового стартового — с новым промтом (новый ракурс/действие той же сцены). В версии 1.5 чейнинг от последнего кадра даёт **меньшую потерю качества**, чем раньше.

4. Повтори для Клипа 3/4 и **сшей клипы в монтаже**. Общий лук держится за счёт того, что каждый следующий клип стартует из хвоста предыдущего + одинаковая строка `Global look`.

То есть на запрос «сделай сцену с разных ракурсов» вы готовите **раскадровку из N клипов** — по одному промту на клип, а не один «многошотовый» промт:

```

CLIP 1 — Wide establishing.

From the starting frame, [motion]. Camera: slow push-in.

Sound: [ambience]. [Global look].

CLIP 2 — Medium (extend from the last frame of Clip 1).

[Same subject, new motion/angle]. Camera: tracking shot alongside.

Sound: [...]. [Global look].

CLIP 3 — Close-up (extend from the last frame of Clip 2).

[Motion]. Camera: slow push-in to the face, locked.

Sound: [...]. [Global look].

```

> ⚠️ **Держите рамки:** 2–3 сильных действия на клип максимум; длительность одного клипа 1–15 секунд. Суммарную длину чейнинга источники оценивают в **~60–90 секунд** до заметной деградации — это ориентир, а не жёсткая гарантия.

---

## 3. Кинолексика камеры, которую модель понимает

Хорошая новость: Grok понимает киноязык **на естественном английском** — никаких спецсимволов. Называйте конкретное движение **в каждом клипе** — оно транслируется прямо в анимацию.

**Подтверждённые первоисточником named-фразы (самые надёжные):**

`slow push-in` · `aerial push-in toward [subject]` · `camera drifts gently to the left` (или `right`) · `tracking shot alongside [subject]` · `locked, static`

**Рабочий корпус практиков (тоже работает):**

`dolly in / out` · `pull-back reveal` · `orbit / arc shot` (облёт) · `crane up / down` · `pan left / right` · `low-angle tracking shot` · `static wide` · `handheld` · `rack focus` · `macro shot`

> 🎬 **Главный рычаг точности — конкретика движения, а не цифры.** Указывайте **направление, скорость, начальную и конечную точку**: не просто «push-in», а «slow push-in to the face, ending locked». Фотожаргон экспозиции и оптики (`f/2.8`, `ISO 800`, точные `мм`) модель отрабатывает плохо — описывайте **видимый результат** (`shallow depth of field`, `soft bokeh`). И помните: **одно движение камеры на клип**, не два.

> ℹ️ Отдельный миф для Grok: будто «кадр статичен по умолчанию и без явной инструкции камера не двигается». Это **опровергнуто** — модель добавляет движение и так. Но движение камеры всё равно называйте: это вопрос **контроля**, а не «оживления».

---

## 4. Звук — фирменная фича, которой нет смысла стесняться

Это то, что выделяет Grok среди video-only генераторов: **звук генерируется в том же проходе**, привязанный к экранному действию — звуковые эффекты, эмбиент/музыка и реплики с губной синхронизацией. (Не уникально — так умеют Sora 2, Seedance 2, Veo 3 — но в Grok это встроено и доступно сразу.)

Пишите строку `Sound:` как саунд-дизайнер, по слоям — хотя бы один cue:

- **SFX (от действия):** `footsteps on gravel` · `glass clinking` · `rain hitting metal` · `door creaking open`

- **Ambience / music:** `low room tone` · `distant city hum` · `soft piano underscore` · `tense low drone`

- **Dialogue:** короткая реплика в кавычках — `a woman says, "we're almost there"`

Примеры строк:

```

Sound: footsteps on wet pavement, distant traffic, a low ambient synth pad.

Sound: soft café ambience, faint cup clink, warm piano underscore.

```

> ⚠️ **Честный кавеат по реальным тестам:** диалог и lip-sync в image-to-video пока **ненадёжны** — иногда на выходе только музыка, иногда звук не появляется вовсе. Не стройте смысл клипа на точной реплике; держите звук как **усиление**, а критичные диалоги планируйте с запасом на переген.

---

## 5. Картинка = первый кадр (image-to-video)

В версии 1.5 прикреплённая картинка — это **буквально первый кадр клипа**; видео «оживает» из неё. Это не «один из режимов», а основная механика модели.

```

From the starting frame, [субъект с картинки] begins to [action];

[что входит/меняется в сцене]. Camera: [named move — direction, speed, start/end].

Keep the same lighting, wardrobe and composition as the frame.

Sound: [1–2 cues].

[Global look matching the image palette/grade].

```

> 🎬 **Главное правило первого кадра: не спорьте с картинкой.** Не переописывайте старт иначе, чем он есть (то же время суток, та же одежда, та же стартовая композиция) — иначе модель «конфликтует» с кадром. И **не перечисляйте заново** то, что и так на изображении: модель его видит. Акцент промта — на том, **что приходит в движение и как ведёт себя камера** от этого кадра.

**Что считывать с картинки (для когерентного движения):** Subject (внешность, одежда, выражение), Environment (локация, предметы, фон), Lighting (источник, направление, тёплый/холодный), Look (палитра, грейд, «плёнка» или чистая картинка). Берите детали, чтобы движение **не ломало** кадр, — а не чтобы описать его заново. Чего на картинке нет — не выдумывайте.

**Мультишот от картинки:** изображение якорит Клип 1, дальше — чейнинг «Extend from Frame» (новые ракурсы той же сцены), не один многошотовый промт.

> 💡 **Связка с image-генератором:** соберите идеальный стартовый кадр в Nano Banana (нужное лицо/свет/композиция), отдайте его в Grok как первый кадр — так вы контролируете и внешность, и движение. Тот же приём работает и для Seedance.

---

## 6. Технические рамки, о которых нужно знать

- 🖼️ **Image-to-video:** версии 1.5 нужен стартовый кадр. Чистый text-to-video — это **другая модель** (`xai/grok-imagine-video`) или общий режим приложения Grok Imagine; не путайте их со спекой 1.5.

- ⏱️ **Длительность клипа:** 1–15 секунд (в API нижняя граница 1 c, в интерфейсе обычно от ~6 c, дефолт 6 c).

- 🖥️ **Разрешение:** 480p (дефолт) или 720p. **Частота кадров — 24 fps.**

- 🎬 **Один шот на генерацию.** Несколько ракурсов — только чейнингом.

- 🔗 **Чейнинг:** ориентир ~60–90 секунд суммарно до заметной деградации.

- ⚙️ **Длительность, разрешение, соотношение сторон** задаются **настройками генератора, а НЕ текстом промта.** Не пишите `15s`, `720p`, `16:9` в сам промт.

---

## 7. Мифы и приёмы, которые НЕ работают

Самое ценное, что дала проверка источников. Перечисленное ниже **проверено и опровергнуто** именно для Grok Imagine 1.5 — не закладывайте это в промты как достоверный синтаксис. Обратите внимание: часть этих приёмов **работает в Seedance**, но не здесь.

| ❌ Миф (часто — перенос из Seedance/блогов) | ✅ Как правильно в Grok |

|---|---|

| **Таймкод-сегменты** `(0-5s) … (5-10s)`, каждый со своим планом и камерой | Опровергнуто (0-3). Смену планов делает только **чейнинг «Extend from Frame»**. |

| **Маркеры таймстампов** `[00:00] / [00:04] / [00:08]` для beat-by-beat | Опровергнуто (0-3). Один клип = один непрерывный шот. |

| **Мульти-ракурс / мультишот в одной генерации** (через сегменты, `cut to`, `camera switch`) | Опровергнуто (0-3). Каждый клип — отдельный промт + чейнинг. |

| **Строка `Avoid:` / негатив-промты** (`no blurry`, `without text`) | Модель их **игнорирует**. Формулируй желаемое позитивно. |

| **Стек тегов** (`epic, 8K, cinematic, masterpiece`) | Пиши осмысленную **прозу** с режиссёрским интентом. |

| **«Кадр статичен по умолчанию»** | Опровергнуто — движение добавляется и так. Камеру называй ради **контроля**, не «оживления». |

| **Фотожаргон экспозиции** (`f/2.8`, `ISO 800`, точные `мм`) | Отрабатывается слабо. Описывай **видимый результат** (`shallow depth of field`). |

| **Числа спеки в тексте промта** (`15s`, `720p`, `16:9`) | Это **отдельные настройки** генератора, не текст промта. |

> 💬 Если туториал или заказчик требует чего-то из левой колонки (особенно «таймкоды и мультишот в одном промте, как в Seedance») — мягко предупредите, что в Grok приём не работает, и предложите рабочую замену: **чейнинг «Extend from Frame»**.

---

## 8. Чек-лист перед генерацией

- [ ] Промт описывает **движение/изменение**, а не статику стартового кадра?

- [ ] Это **короткая проза с интентом**, а не стек тегов?

- [ ] **Один субъект + одно действие + одно движение камеры** на клип (или осознанный мульти-бит в одном дубле)?

- [ ] Движение камеры **named**, с направлением, скоростью, стартом и финишем?

- [ ] Если нужны разные ракурсы — это **раскадровка из клипов под чейнинг** (CLIP 1 / CLIP 2…), а **не** таймкоды в одном промте?

- [ ] Есть строка **`Sound:`** хотя бы с одним cue?

- [ ] **Нет** строки `Avoid:` и негатив-формулировок — всё сказано **позитивно**?

- [ ] Если есть картинка — промт **не спорит** со стартовым кадром (тот же свет/одежда/композиция)?

- [ ] **Global look** стоит в самом конце, без `8K / masterpiece`?

- [ ] В промте нет чисел спеки (`15s`, `720p`) — они в **настройках** генератора?

- [ ] Длительность клипа **≤ 15 c**, чейнинг суммарно **в районе 60–90 c**?

---

## 9. Рабочий процесс под типовые задачи

**A. Бриф → один клип.** Вытащите субъект, желаемое движение, локацию, настроение, звук. Соберите по скелету: motion → camera → atmosphere → `Sound:` → global look. Коротко и с интентом.

**B. Бриф → сцена из нескольких ракурсов.** Не пихайте в один промт. Постройте **арку из 3–4 планов** (wide → medium → close-up → pull-back) и выдайте **раскадровку из клипов под чейнинг** — каждый клип стартует от последнего кадра предыдущего, одинаковый `Global look` во всех.

**C. Картинка → оживить (image-to-video).** Считайте с кадра субъекта/свет/палитру, но в промте опишите **что приходит в движение** и как ведёт себя камера. Не противоречьте кадру.

**D. Рекламная сцена.** Product-арка из 4 клипов под чейнинг: `Static wide → Macro (фактура) → Close-up (деталь/лого) → Slow push-in в свет`. Грейд и темп — под бренд; звук — фирменный слой (`Sound:` с фактурными SFX).

> 💡 **Длинная история (больше 15 секунд)?** Это и есть сценарий для чейнинга: режьте на клипы, генерируйте по очереди от хвоста предыдущего, держите единый `Global look` и сшивайте в монтаже.

---

В генераторе Нейлора ИИ промтинг работает с учетом этих правил и генерирует отличные промты, попробуйте!
Генератор видео Grok

---

## Вместо вывода

Grok Imagine 1.5 вознаграждает за то, за что и хорошая режиссура отдельного кадра: за **ясное движение**, **осознанную камеру** и **звук, привязанный к действию**. Но требует переключить мышление: это **image-to-video**, где промт — про изменение, а не про картинку; где промт **короткий и прозаический**, а не насыщенный тегами; где негатив бесполезен, а несколько ракурсов собираются **чейнингом**, а не таймкодами. Освойте скелет, метод «Extend from Frame» и строку `Sound:` — и вы будете получать не «клип от нейросети», а собранную сцену с операторской логикой. А «синтаксис» из таймкодов и квадратных скобок, который так хорошо знаком по Seedance, здесь можно смело выбросить — он не работает.

---

*Материал подготовлен для Академии Нейлоры на основе верифицированного фреймворка промтинга Grok Imagine Video 1.5 (deep-research, июнь 2026: 18 источников — включая x.ai, Replicate, The Decoder, fal.ai, Morphic — состязательная проверка утверждений: 20 подтверждено, 5 развенчано как мифы). Приёмы, не прошедшие проверку, в статью намеренно не включены. Grok Imagine 1.5 — preview-релиз (конец мая 2026), поле быстро меняется — детали стоит перепроверять на свежих генерациях.*

Grok Imagine video 1.5: как писать промты, отличия от остальных видео моделей

Grok Imagine Video 1.5 уже доступен в Нейлоре!