Gissar på att man skulle kunna göra detta automatiserat igenom att analysera video och audio strömmen med hjälp av ffmpeg?
Ex. igenom att analysera audio strömmen, då det inte är så ovanligt att ljudnivån höjs rätt så raddikalt då reklamen börjar och sänks tillbaka till ordinarie nivå då reklamen slutar och återgår till sändningen.

Kod:
ffmpeg -i <fil att analysera> -filter:a volumedetect -f null /dev/null
Utdatat skulle se ut som följande:
Kod:
[Parsed_volumedetect_0 @ 0x7f8ba1c121a0] mean_volume: -16.0 dB
[Parsed_volumedetect_0 @ 0x7f8ba1c121a0] max_volume: -5.0 dB
Informationen hämtat ifrån "FFMPEG wiki AudioVolume"