文字起こし、テープ起こしサービスを提供しているデータグリーンを運営する株式会社アラジン(本社:福岡県福岡市中央区 代表取締役:長濱 慶直)は、新コンテンツ「同音異義語と文字起こし」を公開いたしました。

●同音異義語と文字起こし
https://www.data-green.jp/homonym/

化学は「カガク」と読むのが正しい読み方ですが、「科学」との混同を避けて敢えて伝わりやすいように「バケガク」と読む言い方が一般的にあります。同種の事例では例えば「私立」と「市立」も本来は両方とも「シリツ」ですが「ワタクシリツ」と「イチリツ」のように読み替えられることがよくあります。
これが”説明読み”とされる読み方です。

日本語は同音異義語が多いことが有名です。ただ通常は「ハシのハシをハシる」と言われても「橋の端を走る」と意味や文意、アクセントなどからスムーズに頭の中で変換ができます。

しかし「化学」と「科学」のようにほぼ同じ文脈・用途で使われる単語同士で音やアクセントも同じ場合は困ったことになります。
例えば下記の文章は同じ音声から起こした文章としては、両方とも成立してしまうのでその判別は非常に困難です。

子供が通っている学校は私立で、将来は化学者を目指しています。
子供が通っている学校は市立で、将来は科学者を目指しています。

他に日本語の音の特性としては連母音・長母音の発音の変化もあります。これは「多い(ooi)」や「遠い(tooi)」のような母音が続くと発音としては「オーイ」「トーイ」のように母音がくっついて長音化してしまうことを言います。また「ん」も日本語には実は6種類も発音があります(ちなみに英語は1種類です)。

これらの発音は日本人の耳では無意識のうちに聞き分けているのですが、AIを利用した音声認識による文字起こしでは、これらが影響しあうと区別がつきにくくなるケースがあります。
AI文字起こしでの実例では下記のようなケースがあります。

所有している調整池(チョウセイイケ)

所有している調整権(チョウセイケン)

末尾の「イケ」と「ケン」は全く違う音のはずですが、しっかりと発音をしないと「イ・イケ」が「イケ」になってしまい、末尾の「ン」の発音も(前の母音が「え」段の場合)弱くなってしまう特性があるため、AIでは判定がぶれてしまうようです。

言われてみれば、そうとも聞こえる一文ですが、前後の文脈からすると池の話をしているのでそちらに引っ張られることは殆どありません。最新のAI文字起こしも同様に前後の文脈や構造を利用して単語のガイドをしているのですが、上記の例ではおそらく「所有」という単語から「権利」の方に引っ張られた可能性が高いと思われます。

AIによる文字起こしについて
ChatGPTと文字起こし
トランスクリプトで文字起こし
音声認識と文字起こし


同音異義語の判別は人にとってもそうですが、AIにとってはもっと困る対応です。もちろん最近のAI文字起こしならひと昔前のとは異なり、例えば「サバイバル」を「鯖威張る」にしてしまうような、ただ同音というだけの唐突な誤判別はなかなか発生しませんが、実際のAI文字起こし時の実例から誤判定が起きた言葉を集めてみました。

限りなく同音、もしくは韻を踏んでいる言葉
経緯 → 敬意
人工 → 人口
天才 → 繊細
答え → 個体
思念 → 使命
本当 → 本能
下車 → 月謝
業務過多 → 業務方
微々たる → ビビった
音が近いだけで説明読みが必要とされないような言葉でも、AIにはまだ区別が難しいようです。逆に人による文字起こし作業では変換ミスとして発生することはあっても、通常はこういう間違いは起きません。

志木市 → 色紙
加納 → 可能
固有名詞は文脈に依存せずに使われることがあるので、誤判定されるケースが多いようです。
地名の場合でも人の手による文字起こしでは参考資料や開催が〇〇県などのメタ情報を参考にすることができるため容易に対応できますが、AI文字起こしでは唐突に挟まれる馴染みのない固有名詞はカタカナで記述されることもよくあります。

データグリーンでは、さまざまな分野の知識を得たライターにより書き起こしを行っております。AIでは対応が難しい例文にあげたような同音異義語の混在した発言でも問題なく文字起こしを行うことが可能です。
しかし言葉によっては、その前後の文脈だけでなく、テーマや議題、過去の発言までさかのぼらないと判断がつかないケースもあり、やはり同音異義語は文字起こしの世界においては天敵と呼べる存在と言えます。そういった場合でも提供いただく資料によって文字起こしの品質は向上しますし、コスト面の減少にもつながります。議題やレジュメ、発言者の氏名などご提供可能な資料がある場合はお申し込みの際にご相談ください。

音声データの品質と文字起こしの精度
専門的な文字起こし、テープ起こしについて

音声認識を利用した文字起こしで対応ができない場合、あるいはもっと精度の高い音声・動画データの文字起こしが必要な時はデータグリーンのサービスをご利用ください。音声データの解析技術と熟練ライターの豊富な経験・ノウハウを組み合わせた「精度の高い文字起こし、テープ起こし」をご提供できます。音質が悪いデータや長時間の文字起こしにも低価格、年中無休で対応しておりますので、週末のご依頼でも土日や祝日の納品が可能です。また、プライバシーマークおよび情報セキュリティマネジメントシステムの国際規格「ISO27001(ISMS)」の認証も取得しておりますので、秘匿性、機密性の高い音声データの文字起こし、テープ起こしもデータグリーンへおまかせください。

文字起こし、テープ起こしのデータグリーン

●その他、参考URL
データグリーンの特徴
文字起こしの用途(インタビュー、講演、会議、面談、裁判訴訟等)
文字起こし・テープ起こしの料金、費用
文字起こしデータ校正サービス
文字起こし 納品実績一例
データグリーンをご利用いただいているお客様の声
文字起こし、テープ起こしの特集一覧
音声データの品質と文字起こしの精度
音声データの品質を上げるためのチェックリスト
YouTube字幕と文字起こし
動画字幕(SRTファイル)作成サービス
文字起こしとは(文字起こしの歴史)
文末表現(敬体と常体)について
文字起こしにかかせない「録音」の歴史
特殊フォーマットへの対応
おすすめのボイスレコーダー、スマホ用マイク
文字起こし、テープ起こしに役立つアプリ
Web会議・オンライン会議の録音・録画
オンラインでの会議や対談、インタビューをスムーズに進めるコツ
メディアの種類からみる文字の特性
表記ゆれについて
言い淀み(フィラーワード)について
OCR、Googleドライブを使った文字起こし
品詞の種類と文字起こし
句読点と文字起こし
形態素解析に役立つ文字起こし
専門的な文字起こし、テープ起こしについて
文字起こし用語集

■会社概要
会社名:株式会社アラジン
文字起こし事業:データグリーン/DATA GREEN
データ復旧事業:データレスキューセンター/DataRescueCenter (※)
登録商標:データグリーン、データレスキューセンター、データレスキュー等
保有特許:特許第4090494号、特許第4236689号、特許第5512470号
電話:092-720-6633(代表)
本社:福岡県福岡市中央区薬院1-5-6 ハイヒルズビル3階
代表者:代表取締役 長濱慶直
資本金:9,000万円
認定:プライバシーマーク、ISO27001(ISMS) 
会社設立:2002年5月31日
加盟団体:
一般社団法人日本データ復旧協会(常任理事)
https://www.draj.or.jp/
一般社団法人文字起こし活用推進協議会(正会員)
https://mojiokoshi.or.jp/mojiokoshi/
福岡県弁護士協同組合(特約店)
https://fukubenkyo.jp/
大阪弁護士協同組合(特約店)
https://www.osakalaw.jp/

(※)データ復旧事業
データレスキューセンター【公式】データ復旧
データレスキューセンター【公式】X(旧:Twitter)
データレスキューセンター【公式】コラム