JARVIS AI

Autonomous Local Intelligence Unit

JARVIS AI

مستندات مهندسی سیستم دستیار هوشمند مبتنی بر پردازش لبه (Edge Computing) و هوش مصنوعی محلی

مقدمه و فلسفه وجودی

پروژه JARVIS AI یک تلاش مهندسی برای بازتعریف تعامل انسان و ماشین در محیط‌های آفلاین است. برخلاف دستیارهای صوتی رایج که صرفاً واسطه‌ای برای سرورهای ابری هستند، جارویس یک موجودیت Self-Hosted و عملیاتی است که با هدف شبیه‌سازی یک هوش مصنوعی واقعی طراحی شده است.

تمرکز اصلی این پروژه بر حاکمیت داده، پایداری و حذف وابستگی به اینترنت است. این سیستم بر پایه سخت‌افزار واقعی شامل دو برد ESP32 و مدل‌های زبانی Ollama پیاده‌سازی شده و پایه‌ای محکم برای توسعه دستیارهای صوتی پیشرفته فراهم می‌کند.

اهداف استراتژیک پروژه

امنیت و حریم خصوصی

تمامی پردازش‌های صوتی و منطقی در شبکه داخلی باقی می‌ماند. هیچ داده‌ای به سرورهای خارجی (OpenAI یا Google) ارسال نمی‌شود.

پایداری سخت‌افزاری

استفاده از دو برد مجزا برای ورودی و خروجی، تداخل سیگنال را حذف کرده و نرخ خطای دریافت صوت را تا ۴۰٪ کاهش داده است.

تشریح فنی ماژول‌های سیستم

۱. واحد دریافت (ESP32 شماره ۱)

این برد به عنوان ماژول ورودی عمل می‌کند. با استفاده از پروتکل I2S، داده‌های خام آنالوگ را از میکروفون دریافت، نمونه‌برداری و به صورت زنده (Stream) از طریق پروتکل‌های UDP یا WebSocket به سیستم مرکزی ارسال می‌کند.

۲. مغز پردازش مرکزی (Python + Ollama)

هسته اصلی روی یک سیستم (لپ‌تاپ/سرور) اجرا شده و وظایف زیر را بر عهده دارد:

Ollama Integration: مدل‌های زبانی (مانند Llama 3) به‌صورت لوکال فراخوانی می‌شوند. این امر باعث امنیت بالا، کنترل کامل روی پاسخ‌ها و تأخیر (Latency) بسیار ناچیز می‌شود.

از ابزارهایی نظیر Faster-Whisper برای تبدیل گفتار به متن (STT) استفاده می‌شود تا تحلیل معنایی با بالاترین سرعت انجام گردد.

۳. واحد بازخورد (ESP32 شماره ۲)

این برد مسئول پخش پاسخ‌های صوتی است. داده‌های تولید شده توسط موتور TTS (تبدیل متن به گفتار) را دریافت کرده و از طریق آمپلی‌فایر داخلی به اسپیکر منتقل می‌کند.

منطق جریان عملیاتی (Execution Flow)

روند تبدیل یک موج صوتی به یک پاسخ هوشمند انسانی:

// JARVIS Sequence Workflow
USER_VOICE --> ESP32_INPUT [Sampling/I2S]
ESP32_INPUT --> CENTRAL_SERVER [Audio Stream]
CENTRAL_SERVER --> STT_ENGINE [Whisper Analysis]
STT_ENGINE --> OLLAMA_LLM [Context Logic]
OLLAMA_LLM --> TTS_ENGINE [Voice Synthesis]
TTS_ENGINE --> ESP32_OUTPUT [Audio Playback]
ESP32_OUTPUT --> USER_RESPONSE [Final Output]

مسیر توسعه آینده (Roadmap)

بینایی ماشین

افزودن دوربین برای تحلیل محیطی و تشخیص اشیا توسط مدل‌های Vision.

تشخیص هویت

احراز هویت کاربر از طریق تحلیل فرکانس صدا یا تشخیص چهره.

Smart Home

یکپارچه‌سازی با پروتکل‌های MQTT برای کنترل فیزیکی تجهیزات منزل.

جمع‌بندی نهایی

JARVIS AI یک پروژه مهندسی واقعی است که ثابت می‌کند با ترکیب هوشمندانه سخت‌افزار نهفته و مدل‌های زبانی آفلاین، می‌توان به سطحی جدید از تعامل هوشمند دست یافت. این مستند پایه‌ای برای درک عمیق‌تر این سیستم در بخش‌های بعدی خواهد بود.