Délai audio maximum avant que le lecteur ne le remarque?

38

Compte tenu de certains événements dans un jeu, quel est le délai maximum avant que le lecteur associe correctement l'audio à cet événement (sans percevoir un décalage)?

edA-qa mort-ora-y
la source
Pas tant. Je suppose que cela doit durer moins de 1/10 de seconde. Personnellement, je pourrais le remarquer s’il s’agissait de plus de quelques images à 60 FPS.
Almo
N'oubliez pas que dans la plupart des cas, la sortie rendue aura également un certain retard, dont certains proviendront du moniteur. Cela peut prendre plus de 100 ms pour que le résultat de la saisie du lecteur soit affiché à l'écran. Voir anandtech.com/show/2803
Adam,
1
C'est environ 20 millisecondes lorsque vous jouez d'un instrument, environ 80 millisecondes lorsque vous êtes un auditeur. Ceci est juste mon expérience personnelle, votre kilométrage peut varier.
mardi
Plus que toute heure spécifique, vous avez besoin de cohérence. Tant que tout a le même délai, vous pouvez rester dans les limites de la raison. Si tout est en retard de 100 ms, vous ne le remarquerez peut-être pas vraiment, mais si certains sons sont proches de l'instant et que le reste mesure 100 ms ou quelque chose entre les deux, vous remarquerez.
0xFADE
Si un comportement réaliste vous intéresse, vous pouvez envisager un délai pour des événements éloignés de l'auditeur comme quelque chose de positif.
Darkwings

Réponses:

48

Les résultats suivants sont calculés pour la synchronisation labiale, considérée comme "l'erreur de synchronisation a / v la plus notable" .


Wikipedia dit

Pour les applications de télévision, l’audio ne doit pas dépasser 15 millisecondes pour la vidéo et le retard ne doit pas dépasser 45 millisecondes. Pour un film, une synchronisation labiale acceptable est considérée comme ne dépassant pas 22 millisecondes dans les deux sens.


Le laboratoire de perception des médias et de l'acoustique dit

Les résultats de l'expérience ont montré que le seuil d'audio principal moyen pour la détection de synchronisation audio / vidéo était de 185,19 ms, avec un écart-type de 42,32 ms.


L'ATSC dit

À première vue, cela semble lâche: +90 ms à -185 ms en tant que «fenêtre d'acceptabilité»

et

  • Indétectable de -100 ms à +25 ms
  • Détectable à -125 ms et +45 ms
  • Devient inacceptable à -185 ms et +90 ms

(- Son retardé, + Son avancé)


De conclure

Les résultats ne sont pas si éloignés l'un de l'autre. Il semble que le délai maximum acceptable se situe autour de 150 ms, soit 9 images à 60 images par seconde.

Heckel
la source
3
"Si vous avez un retard, ce devrait être la vidéo qui est retardée." Il semble que cela devrait être inversé, l'article de l'ATSC stipule clairement que les gens s'attendent / tolèrent que le son se produise un peu après la vue (car dans la vie réelle, le son est décalé d'environ 1 ms par pied), mais n'associe pas correctement les événements. si un événement vidéo se produit après le son.
Peteris
Vous avez raison, j'ai complètement mal compris. Merci. (J'ai édité)
Heckel
1
Je peux vous dire d’expérience personnelle que cela varie même entre les oreilles d’une même personne. J'ai une maladie vestibulaire rare qui oblige mon cerveau à traiter la stimulation auditive dans mon oreille gauche avec un retard considérable par rapport à l'oreille droite. Les mauvais jours, cela provoque des vertiges, mais la plupart du temps, ils sont tolérables. Donc oui, c'est extrêmement subjectif.
Andon M. Coleman
Où obtenez-vous 150ms? Vos sources sont clairement en moyenne autour de 45ms.
Miles Rout
Wikipedia dit 45 ms, mais ce n’est pas nécessairement la source la plus fiable. La deuxième source indique 185,19 ms et la troisième 125 ms jusqu'à ce qu'elle devienne perceptible. Pouvez-vous citer la source pour m'aider à comprendre où je me trompe?
Heckel
9

Cela dépend de l'événement

Si vous sentez qu'une explosion que vous voyez et entendez est un événement isolé, les tolérances décrites dans les autres réponses - pas plus de ~ 50 ms; certaines personnes peuvent être plus sensibles (par exemple les musiciens), alors je suggérerais de viser 30 ms ou pas plus de 2 images à 60fps.

Je pense que la distance perçue devrait affecter ces tolérances. Les gens s'attendent à ce que les sons de loin soient légèrement retardés, car dans la réalité, le son a une vue réduite d'environ 1 ms par pied. Ainsi, une explosion sur un jeu de carte RTS avec zoom arrière pourrait avoir une tolérance au retard du son supérieure à celle du joueur tirant avec son propre fusil dans un FPS.

Les cas spécialisés, tels que ressentir correctement un jeu de musique / rythme, peuvent nécessiter des tolérances beaucoup plus strictes, de 15 à 20 ms ou même moins - par exemple, si le joueur entend à la fois "l'action de saisie", comme chanter dans un micro Un instrument plastique, ainsi qu’un son généré par votre système pour le même événement, puis un décalage de 50 ms provoquera un mélange étrange des sons "original" et "joué".

De plus, gardez à l'esprit le décalage entre le début du fichier audio et "l'événement" à l'intérieur de ce fichier audio - dans de nombreux clips audio, "l'événement" ne sera pas juste sur le bord, vous pouvez avoir un son de foudre. frappe où la frappe frappe 200 ms après le début, ce qui serait évident pour tout le monde, et à peu près tous les fichiers sonores, même les frappes de batterie, auront un certain retard.

Ne mesurez pas les moyennes - regardez dans le pire des cas

La vue et l’ouïe sont intimement liées dans la perception humaine, et si l’un d’eux bégaie relativement par rapport à l’autre, ce sera perceptible. Ce n'est pas acceptable si la plupart du temps, c'est très rapide, mais parfois, il y a un délai de 0,2 seconde pendant le chargement de quelque chose - les gens remarqueront de telles situations. C'est pourquoi l'audio est souvent maintenu sur un thread séparé, isolé des autres activités et ne reçoit que des notifications rapides sur les clips préchargés qui doivent être lus.

Peter est
la source
5

Toute situation dans laquelle un joueur provoque le son (jeux musicaux, armes à feu en mode FPS) nécessitera un délai très court, car le joueur a envoyé une impulsion pour que cela se produise à ce moment-là. de très petits délais. Les ingénieurs du son s'inquiètent des retards d'enregistrement inférieurs à 5 mS, ruinant le "groove"

Le Journal de l'American Academy of Audiology indique que les personnes (pas seulement les musiciens), lorsqu'elles écoutent leur propre voix en différé, sont conscientes de retards aussi courts que 3 ms et qu'un retard supérieur à 10 ms était désagréable dans 90% des cas.

Les humains utilisent le délai entre leurs oreilles pour obtenir des informations directionnelles et doivent donc être en mesure de traiter et d'extraire des informations de délais inférieurs à 1 ms.

Les 185,19 ms cités ci-dessus ne sont pas pertinents dans la mesure où ils font référence à une erreur sonore majeure et, en tout état de cause, à ce que les gens ont jugé acceptable de regarder un film de manière passive, sans participer activement à un match.

SamB
la source
4

La réponse acceptée ici porte principalement sur la perception de la synchronisation audio lors du visionnage passif de vidéos. Dans ces cas, le public ne peut pas facilement savoir exactement quand l'audio doit être lu, sauf en assistant aux panneaux indicateurs de la vidéo. Cela signifie qu'ils ont une anticipation limitée du son.

Il existe deux cas importants dans les jeux où cette hypothèse d'anticipation basse ne tient pas:

  1. Lorsque le joueur lui-même a provoqué le son (comme le fait remarquer SamB), dès lors qu'il a l'intention d'appuyer sur le bouton, il sait exactement quand il s'attend à entendre le son.

  2. Lorsque le son est censé atterrir sur un battement périodique , comme dans les jeux musicaux ou tout ce qui a une minuterie / compteur à retardement, ce rythme permet au joueur d’anticiper le prochain son et d’avertir s’il joue hors du temps.

Mathieu Pavageau, dans cette conférence de GDC 2013, affirme que les joueurs peuvent percevoir des différences de précision de synchronisation supérieures à environ 5 ms , bien moins clémentes que ne le suggèrent les exemples tirés de la synchronisation labiale. Consultez les sections "Exemples de perception du temps" et "Exemple de jeux Ubisoft" pour l'entendre par vous-même. Vous pouvez entendre que le menu Rayman Origins ne sonne pas "latent" en tant que tel lorsqu'il est synchronisé en moins de 16 ms (image vidéo), mais lorsqu'il est synchronisé en moins de 5 ms, le son est nettement meilleur et plus serré.

Pavageau préconise l’utilisation d’un rappel audio de bas niveau pour obtenir ce type de précision de sous-image si vous voulez un gameplay rythmique captivant de cette variété.

DMGregory
la source
2

Pour les jeux qui demandent à une personne de réagir aux signaux audio, chaque milliseconde de retard du son entraîne le même retard de la réponse de la personne. Une personne qui regarde simplement un film ou une cinématique ne remarquera peut-être pas trop si l'audio et la vidéo ne sont pas parfaitement synchronisés, mais il est souvent important et parfois essentiel que l'audio soit synchronisé avec ce que le lecteur est censé faire .

supercat
la source
-1

En théorie, tout ce qui dépasse les 50 ms peut être perceptible lorsqu'il est associé à des images. À 25 ms, vous pouvez commencer à entendre un son et son retard sous forme de deux sons séparés. Je vous conseillerais donc fortement de ne pas dépasser 50 ms. peut même rester à quelque chose de 5ms à 15ms ce serait vraiment sympa.

J'espère que cela t'aidera!

https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback

Rayons X
la source
Cette réponse n’ajoute pas de nouveau conseil qui ne figurait pas déjà dans les réponses existantes, elle risque donc de devenir une simple fiche ou une publicité pour les informations de contact de votre entreprise. StackExchange n’est pas destiné à la promotion de services, je vous recommande donc de supprimer cette partie (les utilisateurs peuvent toujours vous rechercher par votre nom d’utilisateur) et d’ajouter davantage de détails sur les raisons pour lesquelles vous recommanderiez des délais particuliers au-delà de ce qui est mentionné dans les réponses existantes.
DMGregory
Aucune des réponses que nous avons vues ne nous convient, nous formons une équipe d’ingénieurs du son et l’acoustique est notre première expérience. certaines réponses disaient plus de 100 ms, d'autres disaient -100 et +85 ans, comment cela est-il même une réponse? -50ms ou + 50ms il reste encore 50ms de différence entre l'action et le son. nous essayons seulement d'aider si donner notre email est cette offensive, nous le supprimerons.
Rayons X
Voir, par exemple, la réponse de Peteris d'il y a 3 ans, qui donne le même plafond supérieur absolu de 50 ms et recommande une réponse inférieure à celle de cette réponse, ou la référence à la discussion de Mathieu Pavageau recommandant 5 ms comme cible idéale. Cela semble couvrir toute la gamme des éléments de cette réponse, à moins que vous souhaitiez développer les recommandations? Par exemple, si vous estimez que certains détails du lien Wikipedia sont pertinents, il est recommandé de les résumer au moins dans le texte de la réponse (au cas où la page liée changerait à l'avenir).
DMGregory
Ah, désolé, nous n’avons pas lu toutes les réponses, nous en sautons quelques-unes, puis nous avons dit ce que nous connaissons et nous l’imposons avec un lien wikipedia, nous sommes toujours des novices sur le forum, nous essayons de donner une aide sonore. problèmes connexes, mais nous n'avons pas trouvé beaucoup haha
Rayons X
Pas de soucis. Le coaching de nouveaux utilisateurs est l’une des raisons pour lesquelles ces commentaires existent. :) Vous aurez rapidement compris les réponses de StackExchange. Cela signifie simplement de les considérer comme des ressources de référence à long terme, plutôt que comme des réponses de forum.
DMGregory