vllm/docs/source/dev/multimodal/multimodal_index.rst

.. _multi_modality:

Multi-Modality
==============

.. currentmodule:: vllm.multimodal
    
vLLM provides experimental support for multi-modal models through the :mod:`vllm.multimodal` package.

Multi-modal inputs can be passed alongside text and token prompts to :ref:`supported models <supported_vlms>`
via the ``multi_modal_data`` field in :class:`vllm.inputs.PromptStrictInputs`.

Currently, vLLM only has built-in support for image data. You can extend vLLM to process additional modalities
by following :ref:`this guide <adding_multimodal_plugin>`.

Looking to add your own multi-modal model? Please follow the instructions listed :ref:`here <enabling_multimodal_inputs>`.

Guides
++++++

.. toctree::
   :maxdepth: 1

   adding_multimodal_plugin

Module Contents
+++++++++++++++

.. automodule:: vllm.multimodal

Registry
--------

.. autodata:: vllm.multimodal.MULTIMODAL_REGISTRY

.. autoclass:: vllm.multimodal.MultiModalRegistry
    :members:
    :show-inheritance:

Base Classes
------------

.. autodata:: vllm.multimodal.BatchedTensors

.. autoclass:: vllm.multimodal.MultiModalDataBuiltins
    :members:
    :show-inheritance:

.. autodata:: vllm.multimodal.MultiModalDataDict

.. autoclass:: vllm.multimodal.MultiModalInputs
    :members:
    :show-inheritance:

.. autoclass:: vllm.multimodal.MultiModalPlugin
    :members:
    :show-inheritance:

Image Classes
-------------

.. automodule:: vllm.multimodal.image
    :members:
    :show-inheritance:
[Core] Dynamic image size support for VLMs (#5276) Signed-off-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: ywang96 <ywang@roblox.com> Co-authored-by: xwjiang2010 <87673679+xwjiang2010@users.noreply.github.com> Co-authored-by: Roger Wang <136131678+ywang96@users.noreply.github.com> 2024-07-03 11:34:00 +08:00			`.. _multi_modality:`

[Core] Support image processor (#4197) 2024-06-03 13:56:41 +08:00			`Multi-Modality`
			`==============`

			`.. currentmodule:: vllm.multimodal`

			vLLM provides experimental support for multi-modal models through the :mod:`vllm.multimodal` package.

[Doc] Guide for adding multi-modal plugins (#6205) 2024-07-10 14:55:34 +08:00			Multi-modal inputs can be passed alongside text and token prompts to :ref:`supported models <supported_vlms>`
[Doc] Move guide for multimodal model and other improvements (#6168) 2024-07-06 17:18:59 +08:00			via the ``multi_modal_data`` field in :class:`vllm.inputs.PromptStrictInputs`.
[Core] Support image processor (#4197) 2024-06-03 13:56:41 +08:00
[Doc] Guide for adding multi-modal plugins (#6205) 2024-07-10 14:55:34 +08:00			`Currently, vLLM only has built-in support for image data. You can extend vLLM to process additional modalities`
			by following :ref:`this guide <adding_multimodal_plugin>`.
[vlm] Remove vision language config. (#6089) Signed-off-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: Roger Wang <ywang@roblox.com> 2024-07-03 15:14:16 -07:00
[Doc] Guide for adding multi-modal plugins (#6205) 2024-07-10 14:55:34 +08:00			Looking to add your own multi-modal model? Please follow the instructions listed :ref:`here <enabling_multimodal_inputs>`.
[VLM] Remove `image_input_type` from VLM config (#5852) Signed-off-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> Co-authored-by: Roger Wang <ywang@roblox.com> 2024-07-02 00:57:09 -07:00
[Doc] Guide for adding multi-modal plugins (#6205) 2024-07-10 14:55:34 +08:00			`Guides`
			`++++++`

			`.. toctree::`
			`:maxdepth: 1`

			`adding_multimodal_plugin`
[Core] Dynamic image size support for VLMs (#5276) Signed-off-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: ywang96 <ywang@roblox.com> Co-authored-by: xwjiang2010 <87673679+xwjiang2010@users.noreply.github.com> Co-authored-by: Roger Wang <136131678+ywang96@users.noreply.github.com> 2024-07-03 11:34:00 +08:00
[Core] Support image processor (#4197) 2024-06-03 13:56:41 +08:00			`Module Contents`
			`+++++++++++++++`

			`.. automodule:: vllm.multimodal`

			`Registry`
			`--------`

[Core] Registry for processing model inputs (#5214) Co-authored-by: ywang96 <ywang@roblox.com> 2024-06-28 20:09:56 +08:00			`.. autodata:: vllm.multimodal.MULTIMODAL_REGISTRY`
[Core] Support image processor (#4197) 2024-06-03 13:56:41 +08:00
			`.. autoclass:: vllm.multimodal.MultiModalRegistry`
			`:members:`
			`:show-inheritance:`

			`Base Classes`
			`------------`

[Doc] Guide for adding multi-modal plugins (#6205) 2024-07-10 14:55:34 +08:00			`.. autodata:: vllm.multimodal.BatchedTensors`

			`.. autoclass:: vllm.multimodal.MultiModalDataBuiltins`
[Core] Support image processor (#4197) 2024-06-03 13:56:41 +08:00			`:members:`
			`:show-inheritance:`

[Doc] Guide for adding multi-modal plugins (#6205) 2024-07-10 14:55:34 +08:00			`.. autodata:: vllm.multimodal.MultiModalDataDict`

[Core] Dynamic image size support for VLMs (#5276) Signed-off-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: Xiaowei Jiang <xwjiang2010@gmail.com> Co-authored-by: ywang96 <ywang@roblox.com> Co-authored-by: xwjiang2010 <87673679+xwjiang2010@users.noreply.github.com> Co-authored-by: Roger Wang <136131678+ywang96@users.noreply.github.com> 2024-07-03 11:34:00 +08:00			`.. autoclass:: vllm.multimodal.MultiModalInputs`
			`:members:`
			`:show-inheritance:`

[Core] Support image processor (#4197) 2024-06-03 13:56:41 +08:00			`.. autoclass:: vllm.multimodal.MultiModalPlugin`
			`:members:`
			`:show-inheritance:`

			`Image Classes`
			`-------------`

			`.. automodule:: vllm.multimodal.image`
			`:members:`
			`:show-inheritance:`