GitHub - Hasan8123/Multimodal-AI-Agent: This Multimodal AI Agent is a Streamlit application that uses Gemini 2.0 Flash to analyze video content alongside real-time web research. It enables users to upload videos and receive comprehensive, data-driven answers by synthesizing visual insights with live information from the internet.

🧬 Multimodal AI Agent

A Streamlit application that combines video analysis and web search capabilities using Google's Gemini 2.5 model. This agent can analyze uploaded videos and answer questions by combining visual understanding with web-search.

Features

Video analysis using Gemini 2.5 Flash/Pro
Web research integration via DuckDuckGo
Support for multiple video formats (MP4, MOV, AVI)
Real-time video processing
Combined visual and textual analysis

How to get Started?

Clone the GitHub repository

git clone https://github.com/Hasan8123/Multimodal-AI-Agent.git
cd Multimodal AI Agent

Install the required dependencies:

pip install -r requirements.txt

Get your Google Gemini API Key

Sign up for an Google AI Studio account and obtain your API key.

Set up your Gemini API Key as the environment variable

GOOGLE_API_KEY= your_api_key_here

Run the Streamlit App

streamlit run multimodal_agent.py

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
README.md		README.md
multimodal_agent.py		multimodal_agent.py
multimodal_reasoning_agent.py		multimodal_reasoning_agent.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧬 Multimodal AI Agent

Features

How to get Started?

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🧬 Multimodal AI Agent

Features

How to get Started?

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages