Models de Traducció i Conversió de Veu i Text
- SeamlessM4T: Traducció Multilingüe: Model open source que tradueix text i parla entre diferents idiomes, suportant prop de 100 idiomes en text i 36 en parla. - Enllaç
- Speech Gen: Conversió Text a Veu: Eina de pagament que converteix text a veu amb alta qualitat. - Enllaç
- Whisper: Reconeixement de Veu: Model open source d’OpenAI per al reconeixement de veu amb algunes limitacions en converses bilíngües. - Enllaç
- Whisper-ctranslate2: Millora de Whisper: Millora del model Whisper, amb implementacions més ràpides per SoftCatalà. - Enllaç
- https://github.com/ggerganov/whisper.cpp versió high performance de Whisper.. oferint api com openai i tot https://github.com/ggerganov/whisper.cpp/pull/1380
- Insanely Fast Whisper with Speaker Diarization (GitHub Repo) A somewhat opinionated CLI tool for transcribing audio files. It also now includes speaker segmentation and diarization (e.g., recognizing speaker 1 vs speaker 2). The claim is they can transcribe 2.5 hrs of audio in 100s, even on some of the largest models available.
Text a veu
https://github.com/coqui-ai/TTS
Millora d’audio
Resemble enhance
“Resemble Enhance” és una eina impulsada per la intel·ligència artificial que té com a objectiu millorar la qualitat general de la parla realitzant desenrenou i millora. Consisteix en dos mòduls: un desenrenoador, que separa la parla d’un àudio sorollós, i un millorador, que augmenta encara més la qualitat perceptiva de l’àudio restaurant distorsions d’àudio i ampliant l’amplada de banda de l’àudio. Els dos models estan entrenats amb dades de parla de 44.1kHz d’alta qualitat que garanteixen la millora de la teva parla amb alta qualitat.
https://github.com/resemble-ai/resemble-enhance/tree/main
Processament d’Imatges
- Segment-anything: Segmentació d’Objectes: Model open source de Meta per a la segmentació d’objectes en imatges. - Enllaç
- Generació d’Imatges: Eina que crea imatges a partir de prompts, com l’exemple de “Elven Lady Galadriel”. - Enllaç
Anàlisi de Documents
- Mapdeduce i Chatpdf: Anàlisi de PDF: Eines per analitzar contingut de fitxers PDF, possiblement usant l’API d’OpenAI (GPT-3.5-turbo). - Mapdeduce, Chatpdf
Disseny de Logos
- Logomaster.ai: Generació de Logos: Eina automàtica per a la generació de logos. - Enllaç
Eines de Desenvolupament
E-commerce
- Marketsy.ai: Creació de Botigues en Línia: Eina per crear botigues en línia amb diverses plantilles i opcions de personalització. - Enllaç
Eines de Disseny Gràfic
- Eina de Microsoft per al disseny d’imatges, diapositives, retols a partir de prompts. - Enllaç
Models de Visió
- CLIP: Model d’OpenAI que combina text i imatge per a diverses tasques visuals. - Enllaç
- LLaVa: Model que pot respondre preguntes sobre imatges, accessible en maquinari de consumidor. - Enllaç
Generació de Música a partir de Prompt
- Stable Audio: Sistema per generar música i efectes sonors a partir de descripcions de text. - Enllaç
ChatGPT Plugins
- Webpilot: Plugin per a consultes a pàgines web.
- Wolfram: Plugin per accedir a dades científiques i realitzar càlculs matemàtics.
- Smart Slides: Plugin que assisteix en la creació de diapositives.
Sumarització
https://scisummary.com
https://chatpdf.com
Datasets
- SCB-ST-Dataset4: Dataset per l’estudi del comportament espai-temporal en escenaris d’aula. - Enllaç
Cada descripció proporciona una idea clara del que ofereix cada eina o tecnologia, acompanyada dels enllaços per a més detalls.
LLMs
NexusRaven v2
https://nexusflow.ai/blogs/ravenv2
NexusRaven-V2, un model de llenguatge de 13B, ha superat GPT-4 en la capacitat de cridar funcions sense exemples previs. Això permet convertir instruccions en llenguatge natural en codi executable. Destaca per la seva alta taxa d’èxit en casos d’ús humans, és de codi obert i fàcil d’integrar. Inclou un banc de proves de crida de funcions i un tauler de líders amb exemples humans, cobrint una àmplia gamma de casos i dificultats. És notable per la seva robustesa i precisió, superant els APIs de models de llenguatge propietaris.
Per a més detalls, pots visitar la pàgina web original aquí.
articles essencials
Prompt Engineering
https://github.com/dair-ai/Prompt-Engineering-Guide
Interesting engines
scholar.ai
perplexity.ai
consensus.ai