TaVision たびじょんメガネ

TaVision たびじょんメガネ

Traveling with Vision, Speech and Translation on Reaspberry Pi Zero

『タビジョンめがね』は、海外旅行中に誰もがあったらいいなと思う、外国語の見る、聞く、話す、を助けてくれる眼鏡です。

タビジョンめがねは、RaspberryPi Zeroにカメラ、マイク、スピーカー、ボタンが一体となったデバイスが眼鏡の横に付いています。

 

 

ボタンを一回押すと、音声(外国語)を聞き始め、その後それを日本語にして発話してくれます。

二回連続で押した後、自分が日本語で話すと、それを指定した言葉に翻訳して発音してくれます。

最後に長押しすると、カメラで写真を撮り、その画像に写っている言葉を日本語にして読み上げてくれます。


翻訳の設定は、ラズパイ上のPythonプログラムのパラメータを、–speech it-IT (聞取り言語) –trans ja-JP (翻訳先言語)の様に設定しています。(この場合はイタリア語から日本語に翻訳)

言葉の聞き取りには、GoogleのAPIのGoogle Cloud Speechを使い、翻訳にはGoogle Translateを使っています。

画像読み取りには、Google Vision APIを使い、読み上げには音声合成のAquesTalkを使っています。

ラズパイZeroの小さい筐体であれば、眼鏡などに付けるウェアラブル・デバイスができるのでと考えました。そしてそれを旅など外に持っていって、役立つものにしたいと思いました。

ラズパイ、パイソンにはGoogleなどから先進的なAPIが提供されているので、この小さな箱に見る、聞く、話す、そして翻訳するという機能を搭載でき、未来のデバイスが作れたのではないかと思います。

スターウォーズのC3POロボットが、宇宙語など600万の言葉を翻訳すると映画で見ましたが、今回の製作過程でGoogleのAPIが100カ国語以上に既に対応しているのを知って驚き、スターウォーズの世界ももうすぐ現実のものになるのではないかと夢想しました。

実際これで中学生の息子は、もう英語も外国語も勉強しなくて済むね、と間違った方向に理解したコメントをしていました。

(息子が使った試作品のビデオはこちら: https://youtu.be/wRs4yLhLe8Q

 

 

このデバイスは手にすっぽり入る小さい形なので、イヤフォン型やペンダント型にしてオリンピックでの外国人の方への案内に使ったり、ヘルメットに付けて外国の方と工事現場を共にする際のコミュニケーションにも使えると思っています。

今後の訪日観光客の増加や外国訪問の機会が増える事を想定して、デバイスのブラッシュアップ(精度、反応速度の向上や、ローカル環境での動作など)を行っていきたいと思っていますので、宜しくお願い致します!


[タビジョンめがね具体的な使い方]

それぞれボタンを押した時の、見る、聞く、話す、の使い方例です。

 

 

[見る] ボタンを長押し

このような中国の鉄道駅の文字を読み取ります。結果を日本語で読み上げますが、コンソール中のTrans:のところに、ハオババスの乗客駅~などが読み取られているのが分かります。

こちらはタイ語でのレストランのメニューです。Tras:のところで、アラビヤティラビヤという魚(?)の焼き物のメニューが人気なのが分かります。

[聞く] ボタンを一回押す

[話す] ボタンをダブルプッシュ

こちらのビデオで、イタリア旅行で鉄道の駅での会話の例を示しています。駅でイタリアの人に行き方を聞いたり、看板を読み取ったりするシチュエーションを映しています。

https://youtu.be/1bsfeA1oGS8

 

ボタンを1回押して、イタリア語で喋った内容(il treno diretto ~の部分をパソコンから発音させています)を、見事「ローマ行きの列車は~」と日本語に訳して、教えてくれています。

また2回押して、日本語で「ローマの行き方を教えて」と言うと、それをイタリア語「Dimmi come arrivare~」と発音してくれています。

 

長押しでイタリア語の看板の文字も日本語にして発話してくれています。(動画の45秒付近以降)

https://youtu.be/1bsfeA1oGS8?t=45s

 

[見る]部分の画像読み取りは、指定無しで日本語、中国語、韓国語などを含む50ヶ国語以上を読み取ります。

[聞く]部分は、Google Cloud Speechに指定する事で、インドの方言や各国のスペイン語の種類など100言語以上に対応しています。

[話す]部分もGoogle Translateに指定すれば100ヶ国語以上に翻訳してくれますが、発話は音声ソフトの関係でde-DE German、it-IT Italianなど6ヶ国語+日本語(AquesTalk)に対応可能です。

 

 

[タビジョンめがねのシステム構成]

 

ハードウェア:

  • RaspberryPi Zero W
  • ラズベリーパイ・カメラ
  • Seeed ReSpeaker 2-Mic(マイク)
  • 小型スピーカー
  • LiPo電池
  • スイッチ、LEDなど
  • 小型ケース、眼鏡など

 

ソフトウェア:

  • Python
  • Google Vision
  • Google Assistant (Cloud Speech)
  • Google Translate
  • AquesTalk

 

タビジョンめがねシステム連携図

[プログラム、その他]

セットアップ方法 – https://github.com/ktrips/smart/

機能選択プログラム – https://github.com/ktrips/smart/blob/master/button_trans.py

見るVisionプログラム – https://github.com/ktrips/smart/blob/master/vision_trans.py

聞く話すプログラム – https://github.com/ktrips/smart/blob/master/cloudspeech_trans.py