MCP — это открытый протокол, который стандартизирует способ предоставления контекста приложениями большим языковым моделям (LLMs). Представьте себе MCP как разъём USB-C для AI-приложений. Точно так же, как USB-C обеспечивает стандартный способ подключения устройств к различным периферийным устройствам и аксессуарам, MCP предоставляет единый стандарт для подключения AI-моделей к различным источникам данных и инструментам.
Разработан компанией Antropic, разработчиком Claude AI для написания кода. Идея в том, чтобы предоставить LLM возможность эффективного взаимодействия с внешними системами, например, файловой системой или СУБД.
Компания предлагает наборы SDK для разработки таких адаптеров, которые они называют серверами. Устанавливаешь Claude Desktop, чуть правишь конфиг, перезагружаешь и твой Claude Desktop может взаимодействовать с твоим сервером, а значит, с твоим приложением.
AWS KB Retrieval - Retrieval from AWS Knowledge Base using Bedrock Agent Runtime
Brave Search - Web and local search using Brave's Search API
EverArt - AI image generation using various models
Everything - Reference / test server with prompts, resources, and tools
Fetch - Web content fetching and conversion for efficient LLM usage
Filesystem - Secure file operations with configurable access controls
Git - Tools to read, search, and manipulate Git repositories
GitHub - Repository management, file operations, and GitHub API integration
GitLab - GitLab API, enabling project management
Google Drive - File access and search capabilities for Google Drive
Google Maps - Location services, directions, and place details
Memory - Knowledge graph-based persistent memory system
PostgreSQL - Read-only database access with schema inspection
Puppeteer - Browser automation and web scraping
Redis - Interact with Redis key-value stores
Sentry - Retrieving and analyzing issues from Sentry.io
Sequential Thinking - Dynamic and reflective problem-solving through thought sequences
Slack - Channel management and messaging capabilities
Sqlite - Database interaction and business intelligence capabilities
Time - Time and timezone conversion capabilities
npm пакет устанавливается одной командой, проходите авторизацию, закидываете деньги и даете задачи. Claude Code работает с файловой системой и AI. Может использовать MCP серверы.
Большие языковые модели (LLMs) находят широкое применение в области разработки программного обеспечения (SE), в частности для помощи в программировании. Для оценки их эффективности в практических задачах был создан набор данных SWE-bench, включающий 2 294 реальных GitHub-issue и соответствующих pull-запроса из 12 популярных Python-репозиториев.
На основе этого набора данных были разработаны и протестированы современные инструменты, использующие LLM. Однако до сих пор отсутствовал систематический анализ качества самого набора данных.
В данной работе представлен эмпирический анализ SWE-bench. Исследование включало ручную проверку случаев, когда связка SWEAgent + GPT-4 успешно решала задачи, сравнивая созданные моделью патчи с реальными pull-запросами. На момент анализа этот инструмент возглавлял рейтинг SWE-bench.
Результаты анализа выявили серьезные проблемы качества данных в SWE-bench:
После исключения этих случаев фактический процент успешно решённых задач с использованием SWEAgent+GPT-4 снизился с 12,47% до 3,97%.