Notebookcheck Logo

ИИ-модель DeepSeek OCR может обрабатывать 200 000 страниц документов в день на одном графическом процессоре Nvidia A100

Графический процессор Nvidia A100 (Источник изображения: Nvidia)
Графический процессор Nvidia A100 (Источник изображения: Nvidia)
Компания DeepSeek готовится совершить революцию в обучении ИИ с помощью новой модели сжатия OCR с открытым исходным кодом. Благодаря усовершенствованному оптическому кодированию, DeepSeek может обучаться на более чем 200 000 страниц документов в день на одном графическом процессоре Nvidia A100.

С распространением центров обработки данных ИИ и связанных с этим расходов на обработку данных все большее внимание уделяется эффективности алгоритмов, и ни одна языковая модель не справляется с этим лучше, чем DeepSeek. Ее модели имеют открытый исходный код, и их обучение обходится гораздо дешевле, чем обучение моделей ChatGPT от OpenAI или Gemini от Google.

Недавно анонсированная модель DeepSeek-OCR - яркий пример эффективности обучения. Используя оптическое отображение, она может сжимать очень длинные документы, преобразуя их в изображения с 97% точностью распознавания при коэффициенте сжатия менее 10x.

Благодаря использованию усовершенствованных кодировщика и декодировщика, более девяти маркеров текста документа могут быть преобразованы в один визуальный маркер, что значительно сокращает вычислительные ресурсы, необходимые для обработки контента. Даже при 20-кратной степени сжатия новая система DeepSeek-OCR может достичь 60% точности оптического распознавания, что является беспрецедентным достижением.

Благодаря новым алгоритмам сжатия ИИ, DeepSeek-OCR может обучаться на научном или историческом тексте, обрабатываемом одним графическим процессором Nvidia A100 в центре обработки данных со скоростью 200 000 страниц в день. Таким образом, кластер из 20 узлов A100 может обрабатывать 33 миллиона страниц документов ежедневно, что является парадигмальным сдвигом в обучении LLM с использованием большого количества текста. Согласно рейтингу OmniDocBench, DeepSeek-OCR с большим отрывом опережает другие популярные решения, такие как GOT-OCR2.0 или MinerU2.0, когда речь идет о меньшем количестве маркеров зрения, используемых на страницу.

Новые алгоритмы DeepEncoder могут работать с документами различных размеров и разрешений без ущерба для скорости и точности, а декодер DeepSeek3B-MoE-A570M использует так называемую архитектуру "смесь экспертов", которая распределяет знания между специализированными моделями, необходимыми для каждой задачи OCR. В результате DeepSeel-OCR может обрабатывать сложные документы с графиками, научными формулами, диаграммами или изображениями, даже если они написаны на нескольких языках.

Чтобы достичь такого масштаба и точности, DeepSeek просмотрел 30 миллионов страниц в формате Portable Document Format (PDF), написанных почти на 100 языках, которые включали в себя все возможные категории - от газет и научных почерков до учебников и докторских диссертаций. Тем не менее, хотя скорость и эффективность визуальной токенизации, достигнутые новой системой DeepSeek-OCR, неоспоримы, еще предстоит выяснить, приведет ли это к улучшению производительности языковой модели, когда дело дойдет до реальных рассуждений, по сравнению с текущей парадигмой токенов на основе текста.

Источник(и)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 10 месяц > ИИ-модель DeepSeek OCR может обрабатывать 200 000 страниц документов в день на одном графическом процессоре Nvidia A100
Daniel Zlatev, 2025-10-22 (Update: 2025-10-22)