Autonomous Local Intelligence Unit
مستندات مهندسی سیستم دستیار هوشمند مبتنی بر پردازش لبه (Edge Computing) و هوش مصنوعی محلی
پروژه JARVIS AI یک تلاش مهندسی برای بازتعریف تعامل انسان و ماشین در محیطهای آفلاین است. برخلاف دستیارهای صوتی رایج که صرفاً واسطهای برای سرورهای ابری هستند، جارویس یک موجودیت Self-Hosted و عملیاتی است که با هدف شبیهسازی یک هوش مصنوعی واقعی طراحی شده است.
تمرکز اصلی این پروژه بر حاکمیت داده، پایداری و حذف وابستگی به اینترنت است. این سیستم بر پایه سختافزار واقعی شامل دو برد ESP32 و مدلهای زبانی Ollama پیادهسازی شده و پایهای محکم برای توسعه دستیارهای صوتی پیشرفته فراهم میکند.
تمامی پردازشهای صوتی و منطقی در شبکه داخلی باقی میماند. هیچ دادهای به سرورهای خارجی (OpenAI یا Google) ارسال نمیشود.
استفاده از دو برد مجزا برای ورودی و خروجی، تداخل سیگنال را حذف کرده و نرخ خطای دریافت صوت را تا ۴۰٪ کاهش داده است.
این برد به عنوان ماژول ورودی عمل میکند. با استفاده از پروتکل I2S، دادههای خام آنالوگ را از میکروفون دریافت، نمونهبرداری و به صورت زنده (Stream) از طریق پروتکلهای UDP یا WebSocket به سیستم مرکزی ارسال میکند.
هسته اصلی روی یک سیستم (لپتاپ/سرور) اجرا شده و وظایف زیر را بر عهده دارد:
از ابزارهایی نظیر Faster-Whisper برای تبدیل گفتار به متن (STT) استفاده میشود تا تحلیل معنایی با بالاترین سرعت انجام گردد.
این برد مسئول پخش پاسخهای صوتی است. دادههای تولید شده توسط موتور TTS (تبدیل متن به گفتار) را دریافت کرده و از طریق آمپلیفایر داخلی به اسپیکر منتقل میکند.
روند تبدیل یک موج صوتی به یک پاسخ هوشمند انسانی:
افزودن دوربین برای تحلیل محیطی و تشخیص اشیا توسط مدلهای Vision.
احراز هویت کاربر از طریق تحلیل فرکانس صدا یا تشخیص چهره.
یکپارچهسازی با پروتکلهای MQTT برای کنترل فیزیکی تجهیزات منزل.
JARVIS AI یک پروژه مهندسی واقعی است که ثابت میکند با ترکیب هوشمندانه سختافزار نهفته و مدلهای زبانی آفلاین، میتوان به سطحی جدید از تعامل هوشمند دست یافت. این مستند پایهای برای درک عمیقتر این سیستم در بخشهای بعدی خواهد بود.