생성형 AI 영상 툴 VIDU 사용법 완벽 가이드 (텍스트·이미지 활용법)

VIDU 사용법 소개, 안녕하십니까. 가치를 담은 나무 valuetwig입니다. 제가 정말 애용하는 생성형 ai인 vidu를 소개해 드리겠습니다.
먼저, 제가 2025년 09월 08일에 제 유튜브 영상을 소개하도록 하겠습니다. 제 영상을 보고 vidu가 괜찮은 영상 생성형 ai인지 판단해 주시길 바랍니다.
이전에 간단하게 제가 사용해 본 네 가지의 생성형 ai 영상 제작 툴을 설명드렸습니다. 궁금하신 분들은 생성형 AI 영상 제작 방법에 대한 포스팅을 참고해 주시길 바랍니다.
또 각 소개해드리는 생성형 AI의 경우 사실 장단점을 말씀드리기 어려울 정도로 특색이 명확합니다.
게다가 일반적으로 POINT를 지급하기 때문에 무료로 몇 번 사용해 보시고 유료 구독하시는 것을 추천드립니다.
그리고 VEO3의 경우 큰 장점은 이전 일레븐렙스 사용법에서 소개한 것과 같은 Sound Effects를 포함하여 영상을 만들어 주는 큰 장점이 있지만 너무나 비싼 금액으로 전 포기했었습니다.
VIDU 사용법 총정리
두 달 동안 사용한 바이두(VIDU)의 특징은 무엇보다도 다른 생성형 AI와 유사하게 정확한 프롬프트를 제공해야 한다는 점입니다.
따라서, AI를 헷갈리게 하는 프롬프트를 사용하게 되면, 어김없이 여러분의 의도와는 전혀 다르게 영상이 만들어진다는 것을 알 수 있습니다.
한편, VIDU를 활용할 때는 크게 세 가지 방식으로 정리할 수 있습니다.
즉, 제가 이전 포스팅에서 소개드린 것처럼 다음과 같은 방법들이 있습니다.
- TEXT TO VIDEO
- IMAGE TO VIDEO
- VIDEO TO VIDEO
VIDU 사용법 1. 참고 영상으로 영상 만들기
먼저, 가장 제가 애용하지만 제가 가지고 있는 크레딧을 갉아 먹는 방법이기도 합니다.
참고 영상이란, 정말 참고되는 이미지를 가지고 여러분이 필요한 영상을 만들어 준다는 것입니다.
즉, 첫장면과 마지막 장면을 제공하는 사진으로 영상 생성과 다르게 더 많은 크레딧을 소비할 수 있는 단점이 있습니다.
하지만, 제가 참고자료를 통해 영상 제작하는 가장 큰 이유는 오히려 참고 자료를 가지고 크래딧 소비를 조금 많이 하더라도 오히려 영상의 일관성을 더 깊게 유지할 수 있기 때문입니다.
여기서 여러분께선 오해할 수 있습니다. 어떻게 영상의 일관성을 유지하면서 영상을 만들 수 있을까요?
그 핵심은 바로 ‘캡쳐 활용’에 있습니다.

먼저, 참고자료를 다음과 같이 제공하였습니다. 왜냐하면 첫 영상을 만들 때 제가 넣고 싶은 인물의 사진과 프롬프트를 제공하였기 때문이죠.
다만, 참고 사진의 인물과 오토바이 등이 바뀌면 제 영상을 즐기는 분들에게 공감을 얻기 매우 어려울 것입니다.
VIDU 사용법, 참고 자료로 영상으로 영상 만들기 특징
참고 자료로 영상을 만드는 가장 큰 장점은 첫 영상을 만들 때 여러분께서 더 큰 크래딧 소비가 따라 오지만 자유도는 훨씬 상승한다는 점입니다.
다만 주의 하실 점이 몇 가지 있습니다.
| 2개 이하의 참고 자료 추천 | 너무 많은 자료가 있다면 더 난해한 영상이 제작됨. |
| 정확한 프롬프트 제공 | 객관성을 주기 위해 최대한 짧은 프롬프트로 제공 |
| 첫 장면 이후 캡쳐 활용 | 일관성 유지를 위해 매우 중요 |
| 이중성이 담긴 단어 삼가 | 자칫 크래딧 낭비 할 수 있음 |
전부를 소개하긴 매우 어렵습니다. 다만, 간략하게 말씀드리자면 네 가지 항목 전부 객관적인 자료를 제공한다는 것에 큰 의미가 있습니다.
예를 들면 이중성이 담긴 단어 삼가란 뜻은 한국 말로 눈에는 많은 뜻이 있습니다.
하늘에서 내리는 눈 그리고 저희의 시야를 밝혀 주는 눈이 있겠죠.
이런 것처럼 AI는 저희가 바라는 의미대로 해석하면 좋겠지만 그렇지 않은 경우가 정말 허다하더라구요.
일례로 제가 만든 영상중에 숫자 3을 표현하기 위해 검지, 중지, 약지만 펴달라고 프롬프트를 제공하니 영어권에선 이를 강력한 평하를 위한 “V”로 받아 드린다고 하더라구요.
이처럼 어려운 프롬프트보다 영어권에 최대한 맞는 프롬프트를 사용하시길 바랍니다.
VIDU 사용법 2. 사진으로 영상 생성
첫 장면과 마지막 장면을 제공하여 영상을 제작하는 방식입니다. 하지만, 첫 장면과 마지막 장면 사진을 만드는 것부터 과연 실용성이 있을지 궁금하더라구요.
어디서 만들고 그리고 어떻게 만들어야 하는지 또 그 이미지에 대한 일관성은 어디에서 얻을 수 있는지 감이 안 잡혀 사용하기 좀 어렵다고 생각합니다.
다만, 첫 장면으로도 충분히 영상을 만들 수 있습니다.
제가 첫 장면을 제공하여 영상을 만들 땐, 단 한가지 경우 뿐입니다. 예를들어 이미지를 통해 5초의 영상을 만들텐데, 쭉 이어지는 영상을 만들 경우입니다.
제가 만드는 영상은 5초 영상을 만들지만 속도를 빠르게 하거나 짜르기 때문에 대부분 한 컷당 2~3초라 속도감을 중요시하기 때문에 잘 사용하지 않습니다.
즉, VIDU Q1 모델을 사용할 땐 가장 5초의 영상이 만들어 지는데 10초 이상의 영상을 만들 때 추천드립니다.
10초의 영상을 만들기 위해 마지막 장면을 캡쳐하여 다시 첫 이미지로 사용한다면 5초의 영상 2개를 합쳐 총 10초의 영상을 만들 수 있게 됩니다.
다만, 쇼츠 및 틱톡 등 짧은 영상을 만드시는 분들이라면 빠른 전개가 매우 중요하기 때문에 첫 사진과 마지막 사진을 제공하여 영상을 만드는 방법은 매우 비효율 적이라 생각합니다.
3. TEXT TO VIDEO
가장 마지막 방식인 TEXT TO VIDEO 방식을 소개하자면 말과 같습니다. 텍스트 즉, 프롬프트를 토대로 비디오를 생성한다는 것입니다.
효과적일까요? 가장 객관성이 부족한 방식으로 프롬프트를 잘만 사용한다면 크게 효과적일 순 있지만 저처럼 다른 인물을 삽입할 땐 비효과적입니다.
왜냐하면 이미, 다른 생성형 AI 플랫폼에서도 정치인과 유명인을 AI 영상에 담을 수 없게 만들기 때문이죠.
크게 소개해드릴 내용은 잘 떠오르지 않네요.
하나 말씀드리자면 TEXT TO VIDEO 방식을 만들 땐, 여러분이 필요한 환경과 등장 인물(연령대, 성별). 스타일 등 전부 필요할 수 있습니다.
왜냐하면 객관성을 제공해야 여러분이 필요한 영상을 얻을 수 있는 확률이 커지기 때문이죠.
결론
VIDU 사용법, 가장 중요한 것은 객관성을 제공해야 한다는 것입니다. 그것이 사진, 프롬프트의 형태로 제공해야 한다는 것입니다.
여러분이 자유도를 더욱 중요하게 여기시는 분이라면 참고자료로 영상 생성을 추천드리고 더 긴 영상을 만들고 싶은 분들에겐 첫 장면을 제공하여 만드는 사진으로 영상 생성 기능을 활용하시길 바랍니다.

[…] 말씀드린 것 중 가장 중요한 것은 무엇일까요? 기억이 안 나시면 이전 포스팅도 한 번 확인해 주시길 간곡히 […]