JARVIS AI | مستندات فنی جامع و مهندسی

مقدمه و فلسفه وجودی

پروژه JARVIS AI یک تلاش مهندسی برای بازتعریف تعامل انسان و ماشین در محیط‌های آفلاین است. برخلاف دستیارهای صوتی رایج که صرفاً واسطه‌ای برای سرورهای ابری هستند، جارویس یک موجودیت Self-Hosted و عملیاتی است که با هدف شبیه‌سازی یک هوش مصنوعی واقعی طراحی شده است.

تمرکز اصلی این پروژه بر حاکمیت داده، پایداری و حذف وابستگی به اینترنت است. این سیستم بر پایه سخت‌افزار واقعی شامل دو برد ESP32 و مدل‌های زبانی Ollama پیاده‌سازی شده و پایه‌ای محکم برای توسعه دستیارهای صوتی پیشرفته فراهم می‌کند.

اهداف استراتژیک پروژه

امنیت و حریم خصوصی

تمامی پردازش‌های صوتی و منطقی در شبکه داخلی باقی می‌ماند. هیچ داده‌ای به سرورهای خارجی (OpenAI یا Google) ارسال نمی‌شود.

پایداری سخت‌افزاری

استفاده از دو برد مجزا برای ورودی و خروجی، تداخل سیگنال را حذف کرده و نرخ خطای دریافت صوت را تا ۴۰٪ کاهش داده است.

ساخت دستیار صوتی با سخت‌افزار ارزان و در دسترس (Low-cost Hardware).
استفاده از قدرت مدل‌های زبانی محلی Ollama بدون نیاز به اینترنت.
تفکیک وظایف سخت‌افزاری برای دستیابی به حالت Full-Duplex (ارسال و دریافت همزمان).

تشریح فنی ماژول‌های سیستم

۱. واحد دریافت (ESP32 شماره ۱)

این برد به عنوان ماژول ورودی عمل می‌کند. با استفاده از پروتکل I2S، داده‌های خام آنالوگ را از میکروفون دریافت، نمونه‌برداری و به صورت زنده (Stream) از طریق پروتکل‌های UDP یا WebSocket به سیستم مرکزی ارسال می‌کند.

۲. مغز پردازش مرکزی (Python + Ollama)

هسته اصلی روی یک سیستم (لپ‌تاپ/سرور) اجرا شده و وظایف زیر را بر عهده دارد:

Ollama Integration: مدل‌های زبانی (مانند Llama 3) به‌صورت لوکال فراخوانی می‌شوند. این امر باعث امنیت بالا، کنترل کامل روی پاسخ‌ها و تأخیر (Latency) بسیار ناچیز می‌شود.

از ابزارهایی نظیر Faster-Whisper برای تبدیل گفتار به متن (STT) استفاده می‌شود تا تحلیل معنایی با بالاترین سرعت انجام گردد.

۳. واحد بازخورد (ESP32 شماره ۲)

این برد مسئول پخش پاسخ‌های صوتی است. داده‌های تولید شده توسط موتور TTS (تبدیل متن به گفتار) را دریافت کرده و از طریق آمپلی‌فایر داخلی به اسپیکر منتقل می‌کند.

منطق جریان عملیاتی (Execution Flow)

روند تبدیل یک موج صوتی به یک پاسخ هوشمند انسانی:

// JARVIS Sequence Workflow

USER_VOICE --> ESP32_INPUT [Sampling/I2S]
ESP32_INPUT --> CENTRAL_SERVER [Audio Stream]
CENTRAL_SERVER --> STT_ENGINE [Whisper Analysis]
STT_ENGINE --> OLLAMA_LLM [Context Logic]
OLLAMA_LLM --> TTS_ENGINE [Voice Synthesis]
TTS_ENGINE --> ESP32_OUTPUT [Audio Playback]
ESP32_OUTPUT --> USER_RESPONSE [Final Output]

مسیر توسعه آینده (Roadmap)

بینایی ماشین

افزودن دوربین برای تحلیل محیطی و تشخیص اشیا توسط مدل‌های Vision.

تشخیص هویت

احراز هویت کاربر از طریق تحلیل فرکانس صدا یا تشخیص چهره.

Smart Home

یکپارچه‌سازی با پروتکل‌های MQTT برای کنترل فیزیکی تجهیزات منزل.

جمع‌بندی نهایی

JARVIS AI یک پروژه مهندسی واقعی است که ثابت می‌کند با ترکیب هوشمندانه سخت‌افزار نهفته و مدل‌های زبانی آفلاین، می‌توان به سطحی جدید از تعامل هوشمند دست یافت. این مستند پایه‌ای برای درک عمیق‌تر این سیستم در بخش‌های بعدی خواهد بود.