RSS Telegram YouTube Apple Яндекс Spotify Amazon Почта

97. Antropic MCP

13.04.2025

Ссылки выпуска:

MCP = Более тесная интеграция LLM с продуктом

MCP — это открытый протокол, который стандартизирует способ предоставления контекста приложениями большим языковым моделям (LLMs). Представьте себе MCP как разъём USB-C для AI-приложений. Точно так же, как USB-C обеспечивает стандартный способ подключения устройств к различным периферийным устройствам и аксессуарам, MCP предоставляет единый стандарт для подключения AI-моделей к различным источникам данных и инструментам.

Разработан компанией Antropic, разработчиком Claude AI для написания кода. Идея в том, чтобы предоставить LLM возможность эффективного взаимодействия с внешними системами, например, файловой системой или СУБД.

Компания предлагает наборы SDK для разработки таких адаптеров, которые они называют серверами. Устанавливаешь Claude Desktop, чуть правишь конфиг, перезагружаешь и твой Claude Desktop может взаимодействовать с твоим сервером, а значит, с твоим приложением.

К чему можно дать доступ через MCP?

AWS KB Retrieval - Retrieval from AWS Knowledge Base using Bedrock Agent Runtime
Brave Search - Web and local search using Brave's Search API
EverArt - AI image generation using various models
Everything - Reference / test server with prompts, resources, and tools
Fetch - Web content fetching and conversion for efficient LLM usage
Filesystem - Secure file operations with configurable access controls
Git - Tools to read, search, and manipulate Git repositories
GitHub - Repository management, file operations, and GitHub API integration
GitLab - GitLab API, enabling project management
Google Drive - File access and search capabilities for Google Drive
Google Maps - Location services, directions, and place details
Memory - Knowledge graph-based persistent memory system
PostgreSQL - Read-only database access with schema inspection
Puppeteer - Browser automation and web scraping
Redis - Interact with Redis key-value stores
Sentry - Retrieving and analyzing issues from Sentry.io
Sequential Thinking - Dynamic and reflective problem-solving through thought sequences
Slack - Channel management and messaging capabilities
Sqlite - Database interaction and business intelligence capabilities
Time - Time and timezone conversion capabilities

Claude Desktop

Claude Code

Личный опыт использования.

npm пакет устанавливается одной командой, проходите авторизацию, закидываете деньги и даете задачи. Claude Code работает с файловой системой и AI. Может использовать MCP серверы.

Перспективы: SWE-Bench+: Enhanced Coding Benchmark for LLMs

Большие языковые модели (LLMs) находят широкое применение в области разработки программного обеспечения (SE), в частности для помощи в программировании. Для оценки их эффективности в практических задачах был создан набор данных SWE-bench, включающий 2 294 реальных GitHub-issue и соответствующих pull-запроса из 12 популярных Python-репозиториев.

На основе этого набора данных были разработаны и протестированы современные инструменты, использующие LLM. Однако до сих пор отсутствовал систематический анализ качества самого набора данных.

В данной работе представлен эмпирический анализ SWE-bench. Исследование включало ручную проверку случаев, когда связка SWEAgent + GPT-4 успешно решала задачи, сравнивая созданные моделью патчи с реальными pull-запросами. На момент анализа этот инструмент возглавлял рейтинг SWE-bench.

Результаты анализа выявили серьезные проблемы качества данных в SWE-bench:

32,67% успешных решений были получены благодаря прямому наличию ответа в описании issue или комментариях (проблема утечки решения).
31,08% принятых патчей были подозрительными из-за слабых тестов, неспособных адекватно проверить корректность решений.

После исключения этих случаев фактический процент успешно решённых задач с использованием SWEAgent+GPT-4 снизился с 12,47% до 3,97%.