Topic

Computer Vision / Multimodal / Audio

Curated resources for Computer Vision / Multimodal / Audio.

All Topics Resource Hub Learning Hub Search Ask AI

Export JSON · Export CSV

17 resource(s) available

Filter + Paging

No results.

Results

docsFoundationOpenCV

OpenCV Tutorials

OpenCV

Still the fastest practical path to vision preprocessing, classical CV, and real-world image pipelines.

Open Source

resourceFoundationPyImageSearch

PyImageSearch: Start Here

PyImageSearch

Project-driven vision learning for detection, OCR, face pipelines, and deployment patterns.

Open Source

repoBuildOpenAI

OpenAI Whisper

OpenAI

Great practical base for local transcription pipelines and speech experiments.

Open Source

datasetBuildMicrosoft / Google

COCO + Open Images + WIT dataset bundle

Microsoft / Google

High-value public corpora for detection, captions, grounding, and multimodal experimentation.

Open Source

datasetBuildMozilla / OpenSLR

Mozilla Common Voice + LibriSpeech bundle

Mozilla / OpenSLR

Best public speech base for ASR experimentation and evaluation.

Open Source

docsBuildOpenCV

OpenCV Docs

OpenCV

Reference docs for computer vision building blocks, APIs, and modules.

Open Source

datasetMozilla

Common Voice

Mozilla

Large multilingual speech dataset project for ASR, speech research, and voice tooling.

Open Source

datasetnanimage-net.org

ImageNet

image-net.org

Still useful for vision classification baselines.

Open Source

datasetLAION

LAION-5B

LAION

Web-scale image-text corpus for multimodal research; use with strong filtering and license review.

Open Source

datasetnanlaion.ai

LAION-5B / Re-LAION-5B

laion.ai

Massive web-scale image-text corpus.

Open Source

datasetnanopenslr.org

LibriSpeech

openslr.org

Classic open English speech corpus.

Open Source

datasetnanopenslr.org

LibriTTS

openslr.org

Open TTS-oriented speech corpus.

Open Source

datasetnancommonvoice.mozilla.org

Mozilla Common Voice

commonvoice.mozilla.org

Best open multilingual voice dataset.

Open Source

datasetnanstorage.googleapis.com

Open Images V7

storage.googleapis.com

Large supervised vision dataset with labels, boxes, masks, relations, narratives.

Open Source

videonanOpenCV

OpenCV

Video supplement for image processing and computer vision workflows.

Open Source

videoOpenCV

OpenCV (YouTube)

OpenCV

Video supplement for practical computer vision learning and tool usage.

Open Source

reponanGitHub

WIT

GitHub

Excellent multilingual image-text corpus from Wikipedia/Wikimedia.

Open Source

Computer Vision / Multimodal / Audio

Related Topics

Filter + Paging

Results