IMS Toucan, Stuttgart Üniversitesi Doğal Dil İşleme Enstitüsü (IMS) tarafından geliştirilen, son teknoloji Metin-Konuşma Sentezi (TTS) sistemlerini eğitmek, kullanmak ve öğretmek için tasarlanmış kapsamlı bir araç kitidir. 7000'den fazla dili destekleyen bu sistem, hızlı, kontrol edilebilir ve yüksek hesaplama gücü gerektirmeyen yapısıyla dikkat çekmektedir. Proje, kodları ve modelleri tamamen ücretsiz sunarak geniş bir kullanıcı kitlesine hitap etmektedir. Hugging Face'in cömert desteği sayesinde, herkesin ücretsiz olarak kullanabileceği bir GPU üzerinde çalışan model örneği de mevcuttur. Ayrıca, etkileşimli çok dilli bir demo ve geniş bir TTS veri seti de Hugging Face platformunda yayımlanmıştır.
IMS Toucan'ı kullanmak için Python 3.10 önerilen sürümdür. Kurulum süreci, depoyu klonlamayı ve sanal bir ortamda temel gereksinimleri yüklemeyi içerir. Linux kullanıcıları için libsndfile1, espeak-ng, ffmpeg, libasound-dev, libportaudio2 ve libsqlite3-dev gibi paketlerin kurulu olması gerekmektedir. Modelleri eğitmek için en az bir CUDA özellikli GPU'ya sahip bir makineye ihtiyaç duyulurken, çıkarım (inference) işlemleri için GPU zorunlu değildir. Önceden eğitilmiş modellerin kullanımı isteğe bağlıdır ancak işlem süresini önemli ölçüde hızlandırabilir ve ihtiyaç duyulduğunda otomatik olarak indirilirler. Depolama dizinleri, Utility/storage_config.py dosyası düzenlenerek küresel olarak yapılandırılabilir. eSpeak-NG, birçok dildeki özel durumları ele aldığı için isteğe bağlı ancak faydalı bir gereksinimdir.
Bu araç kiti, metin-konuşma sentezi teknolojisini binlerce dile yayarak erişilebilirliği ve çok dilliliği önemli ölçüde artırıyor.